Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学杨阳获国家专利权

电子科技大学杨阳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种渐进式的图像文本匹配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115344736B

龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210968167.1,技术领域涉及:G06F16/583;该发明授权一种渐进式的图像文本匹配方法是由杨阳;宾燚;李灏轩;韩孟群设计研发完成,并于2022-08-12向国家知识产权局提交的专利申请。

一种渐进式的图像文本匹配方法在说明书摘要公布了:本发明公开了一种渐进式的图文匹配方法,考虑到现有方法中,基于模态内交互的方法分别独立的编码图像与文本特征,致使在检索时十分高效,但由于缺乏足够的模态间交互,而性能不甚理想;而基于模态间交互的方法,通过大量的模态间交互,达到了优秀的检索性能,但也正是因为此,造成了检索延迟,而人类在进行图文检索的直觉一般是,先是粗略的对检索样本进行过滤,将很不相关的样本剔除,接着在候选集的基础上再进行更精确的匹配,最终寻找到匹配项,以这样的人类直觉为引导方向,将基于模态内和基于模态间的方法以渐近的方式相结合,最终实现本发明所提出的图文匹配方法。

本发明授权一种渐进式的图像文本匹配方法在权利要求书中公布了:1.一种渐进式的图像文本匹配方法,其特征在于,包括以下步骤: 1、建立检索数据库; 选取一张待检索图像,将包含有图像匹配文本的所有文本组成文本集合,最后将图像及对应文本集合作为检索数据库; 2、提取图像文本特征; 2.1、提取图像特征; 采用预训练好的Faster-RCNN目标检测模型对图像进行图像区域特征提取,并为每一个图像区域进行置信度打分,然后根据检测置信度得分,选择得分最高的前个图像区域作为图像特征; 2.2、提取文本特征; 采用预训练好的BERT模型对检索文本库中的所有文本进行特征提取,提取文本中每个单词的特征表示,从而构成文本单词特征; 2.3、图像文本特征的映射; 采用全连接层将图像特征和每一个文本特征映射到同一个维度空间,得到映射后的图像特征与每一个文本的特征,其中,表示第个图像区域的特征,表示第t个文本中第个单词的特征表示,表示文本中的单词数量; 3、构建候选文本库; 3.1、设置多头自注意力层中每个单头自注意力模块的模型; ; 其中,表示注意力操作中的向量,上标表示转置,表示的维度大小; 3.2、将图像特征和文本特征分别输入至多头自注意力层,通过将多个单头自注意力模块的输出拼接,得到完整特征: ; ; 其中,X表示输入的图像特征或文本特征,表示第个单头自注意力模块的输出,表示单头自注意力模块个数,,,表示待学习参数; 3.3、利用前馈全连接层对特征进行非线性映射,得到特征: ; 其中,为常数,为待学习参数,为sigmoid函数; 3.4、图像特征和文本特征通过步骤2.2-2.3的处理后,得到图像特征与文本特征,接着再通过平均池化操作得到图像特征的整体语义表示与文本特征的整体语义表示; ; 其中,为中第个区域特征,为中第个单词特征; 3.5、计算图像特征与每一个文本特征的整体语义表示的余弦相似度: ; 其中,表示图像特征与第个文本特征的整体语义表示的余弦相似度,表示求L2范数,上标表示转置; 3.6、将所有的相似度按从大到小排列,选取前K个相似度最大对应的文本构成候选文本库; 4、精确匹配; 4.1、位置信息与短语级语义的捕捉; 找出候选文本库中各个候选文本对应的原始文本特征,其中,第个原始文本特征记为; 使用全连接层与图像区域所处位置信息为图像特征添加了空间位置信息,再使用卷积网络为原始文本特征捕捉了短语级信息,得到了加强后的图像文本特征、,; 4.2、交互式引导单元; 4.2.1、利用全局引导单元引导图像特征捕捉到图像与文本间的全局语义对应信息; 对加强后的文本特征进行平均池化操作,得到文本全局特征; ; 其中,为第个文本中第个单词特征; 使用全连接层获取中每一个区域特征的全局引导方向,再通过进行缩放来引导局部视觉表征; ; ; 其中,为矩阵点积,归一化,为待学习参数,为常数; 4.2.2、利用局部引导单元引导图像特征捕捉到图像与文本间的局部语义对应信息; 通过交叉注意力机制聚集单词表征来获取局部引导信息: ; ; 其中,为图像中第i个区域与文本中第j个单词的余弦相似度,为超参数; 通过全连接层对局部引导信息进行投影,得到相应的缩放向量和移位向量: ; 其中,与为两个全连接层; 最后,通过前馈全连接层和残差连接来完成图像区域的引导: ; 其中,表示第i个区域引导后的图像特征,表示前馈全连接层; 4.2.3完成匹配; 将每个区域进行局部与全局引导的结果求和,其中,第i个区域引导后求和得:; 对各区域求和后的特征进行平均池化操作,得到图像全局表示; ; 计算候选文本库中的所有文本进行相似度; ; 最后选择相似度最大的文本作为匹配结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。