北京航空航天大学王佐旭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种使用多模态模型进行齿轮图像精准识别的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118537705B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410762047.5,技术领域涉及:G06V10/82;该发明授权一种使用多模态模型进行齿轮图像精准识别的方法及系统是由王佐旭;梁欣欣设计研发完成,并于2024-06-13向国家知识产权局提交的专利申请。
本一种使用多模态模型进行齿轮图像精准识别的方法及系统在说明书摘要公布了:本发明公开了一种使用多模态模型进行齿轮图像精准识别的方法及系统,该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别和;所述方法包含以下步骤:S100:数据采集和预处理;从各类开源的零件图库和或零件标准文件中收集图像数据和文本数据,S200:动态样本对选择策略;S300:建立多模态模型;所述多模态模型包含图像处理分支和文本处理分支;图像处理分支使用ResNet模型进行图像嵌入和模型训练;文本处理分支使用LlaMa2模型获取文本描述的嵌入和深层文本学习;S400:高级融合策略;S500:模型训练和评估;本发明不仅优化了齿轮图像的识别过程,还通过集成到工业自动化系统中,提高了整体的工程效率和数据安全性。
本发明授权一种使用多模态模型进行齿轮图像精准识别的方法及系统在权利要求书中公布了:1.一种使用多模态模型进行齿轮图像精准识别的方法,其特征在于,该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别;所述方法包含以下步骤: 步骤S100:数据采集和预处理;从各类开源的零件图库和零件标准文件中收集图像数据和文本数据,并通过规范化嵌入和数据增强方法处理所述图像数据和文本数据; 步骤S200:动态样本对选择策略;利用知识图谱内储存的知识和数据整合正负样本对,并应用hardnegativemining方法生成负样本对; 步骤S300:建立多模态模型;所述多模态模型包含图像处理分支和文本处理分支,所述图像处理分支使用ResNet模型进行图像嵌入和模型训练;所述文本处理分支使用LlaMa2模型获取文本嵌入并进行深层文本学习; 步骤S400:高级融合策略;通过向量拼接将图像的特征向量和文本的嵌入向量进行融合,形成向量对,再将向量对输入到多模态模型中进行训练; 步骤S500:模型训练和评估;采用对比学习的方法,使用对比损失和三元组损失来训练模型,实现齿轮图像识别;同时,在独立的测试集上对模型性能进行评估; 步骤S200中包括: 步骤S201:构建知识图谱;通过整合来自各类零件图库和标准文件的数据,建立知识图谱以储存关于齿轮的详细属性和工程领域的知识; 步骤S202A:生成正样本对;根据知识图谱中的数据,将正确配对的图像和文本描述生成正样本对,用于训练模型; 步骤S202B:生成负样本对;基于hardnegativemining方法,生成与正样本对相似度满足要求但标签不同的负样本对,以增强模型训练的挑战性,其中,步骤S202B与步骤S202A并列同步执行; 步骤S202B中,具体操作步骤为:在构建负样本对时,首先从知识图谱中获取关于齿轮的属性数据,并向量化这些数据;通过计算特征向量的欧几里得距离,确定具有满足相似度要求但标签不同的样本对;对于两个特征向量,欧几里得距离的计算公式为:,其中分别是两个特征向量在第个维度上的取值,是特征向量的维度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。