武汉理工大学;郑州航空工业管理学院;天筑科技股份有限公司于蒙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉理工大学;郑州航空工业管理学院;天筑科技股份有限公司申请的专利一种图文跨模态检索网络训练方法、应用方法及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304307B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310126780.3,技术领域涉及:G06F16/9535;该发明授权一种图文跨模态检索网络训练方法、应用方法及电子设备是由于蒙;靳志波;樊成;刘源;冀晓婧;李文锋;陈宇;张夏斌;马正祥;王腾飞;刘虎设计研发完成,并于2023-02-10向国家知识产权局提交的专利申请。
本一种图文跨模态检索网络训练方法、应用方法及电子设备在说明书摘要公布了:本发明涉及一种图文跨模态检索网络训练方法、应用方法及电子设备,包括:获取图文训练数据集;构建由图像嵌入器、文本嵌入器和图文组合模块组成的图文跨模态检索网络模型;将图文训练数据集作为所述图文跨模态检索网络的输入,依次按照图像不变而文本掩码建模操作、文本不变而图像掩码建模操作、图像文本匹配操作、语义对齐处理操作并迭代训练所述图文跨模态检索网络,得到训练完备的图文跨模态检索网络。本发明基于图像嵌入器、文本嵌入器和图文组合模块将语义信息表示为稠密低纬实值向量,提取数据中的细粒度语义信息;并通过图像文本匹配操作和语义对齐处理操作计算实体和关系的语义联系,实现模态数据之间实体和关系层面上的语义对齐问题。
本发明授权一种图文跨模态检索网络训练方法、应用方法及电子设备在权利要求书中公布了:1.一种图文跨模态检索网络训练方法,其特征在于,包括: 获取图文训练数据集; 构建由图像嵌入器、文本嵌入器和图文组合模块组成的图文跨模态检索网络模型,所述图像嵌入器用于对所述图文训练数据集的输入图像进行切片操作得到切片块,编码各切片块并获取各切片块视觉特征向量和位置信息,得到图像输入;所述文本嵌入器用于对所述图文训练数据集的输入文本进行划分词元操作,编码文本词元并获取每个词元的词嵌入和位置信息,得到文本输入;所述图文组合模块用于将图像输入和文本输入进行组合得到联合输入,所述联合输入包括将任一图像输入与所有文本输入进行配对组成图像文本对,规定其中相符的图像文本对为正样本,不相符的为负样本,且任一图像输入或文本输入都只有唯一正样本; 将图文训练数据集作为所述图文跨模态检索网络的输入,依次按照图像不变而文本掩码建模操作、文本不变而图像掩码建模操作、图像文本匹配操作、语义对齐处理操作并迭代训练所述图文跨模态检索网络,得到训练完备的图文跨模态检索网络; 所述图像不变而文本掩码建模操作,包括:保持所述图文训练集的图像输入不变,随机掩码部分文本输入,所述被掩码部分文本采取标记、替换或不变的处理;基于未被掩码处理的文本输入和所有图像输入的交互观察,并以最小化负对数似然函数作为损失函数,训练图文跨模态检索网络模型以预测被掩码的文本输入; 所述文本不变而图像掩码建模操作包括:保持所述图文训练集的文本输入不变,随机掩码部分图像输入,所述被掩码图像输入用零向量替换视觉特征向量;基于未被掩码处理的图像输入和所有文本输入的交互观察,并以最小化交叉熵损失函数作为损失函数,训练图文跨模态检索网络模型以重建被掩码的图像输入。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉理工大学;郑州航空工业管理学院;天筑科技股份有限公司,其通讯地址为:430070 湖北省武汉市洪山区珞狮路122号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励