杭州电子科技大学;杭州臾宇智能科技有限公司陈超炜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学;杭州臾宇智能科技有限公司申请的专利基于跨模态全局与局部注意力机制的双向图文匹配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116610778B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310321013.8,技术领域涉及:G06F16/332;该发明授权基于跨模态全局与局部注意力机制的双向图文匹配方法是由陈超炜;俞俊;陈宇;朱素果设计研发完成,并于2023-03-29向国家知识产权局提交的专利申请。
本基于跨模态全局与局部注意力机制的双向图文匹配方法在说明书摘要公布了:本发明公开了基于跨模态全局与局部注意力机制的双向图文匹配方法,首先进行数据集获取,然后进行特征提取,构建基于全局门控自注意力机制GSA和局部跨模态注意力机制CAU的图文匹配模型;确定图文匹配模型的损失函数,最后进行网络训练与测试。本发明同时使用全局和局部对齐,局部对齐可以捕获细粒度的对应关系,全局对齐可以获得更高层次的语义信息,两者结合考虑图文的对应关系,提高了匹配的精度。
本发明授权基于跨模态全局与局部注意力机制的双向图文匹配方法在权利要求书中公布了:1.基于跨模态全局与局部注意力机制的双向图文匹配方法,其特征在于,其步骤如下: 步骤1.数据集获取,从现有的图文匹配数据集中,选择2种数据集Flickr30K和MSCOCO; 步骤2.特征提取,使用预训练的特征提取网络检测图像区域并提取每个图像区域的特征向量;使用双向门控循环网络作为编码器提取文本的单词级特征; 步骤3.构建基于全局门控自注意力机制GSA和局部跨模态注意力机制CAU的图文匹配模型,模型由全局分支和局部分支组成,以步骤2处理后的图像特征以及文本特征作为输入; 步骤4.确定图文匹配模型的损失函数,损失函数的作用是能够最大化相关图像-文本对的相关性得分,并最小化无关文本-图像对的相关性分数;此处采用双向三元排序损失; 步骤5.网络训练与测试,协同训练步骤3中的全局分支和局部分支,在训练的同时在每个数据集提供的测试集上进行评估; 门控自注意力机制模块具体实现如下: 门控自注意力机制模块包括多头自注意力、门控机制两部分,其中门控机制用于对多头自注意力机制的优化,能够消除关键词和对应值存在的噪声信息; 多头自注意力计算如下: 其中表示查询,关键词以及对应的值,dk,n表示维度和序列的长度;其中Softmax对每一行执行操作;为了进一步加强代表性的区别,多头自我注意力机制包括H个并行自注意机制,为从不同的子空间捕获上下文信息,如下公式: hi=AttentionQi,Ki,Vi2 其中hi代表第i个注意力头的输出,并且: 其中X∈Rn×d表示输入特征,d,n表示维度和序列的长度, 为可学习的映射矩阵; 门控机制: 为映射增加了门控机制;具体地,对于第i个注意头,首先将映射到共同空间,接着执行融合操作,计算如公式4: 其中Gi∈Rn×d表示融合结果,⊙表示矩阵元素级别的乘积操作,d,n表示维度和序列的长度,为可学习的映射矩阵,为偏置矩阵;然后通过融合结果Gi生成对应于查询和关键词的门控掩蔽,计算如公式5: 其中Gi∈Rn×d表示融合结果,σ表示sigmoid函数,为可学习的参数; 最后得到的掩蔽结果和用于控制原始Qi和Ki的信息流,随后将公式2的多头注意力改进为以下公式: 其中为第i个自注意力头的输出;最终整个模块用如下公式7表示:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学;杭州臾宇智能科技有限公司,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励