厦门大学深圳研究院纪荣嵘获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学深圳研究院申请的专利基于文本的人物检索的双向一对多嵌入对齐方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304145B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310298214.0,技术领域涉及:G06F16/532;该发明授权基于文本的人物检索的双向一对多嵌入对齐方法是由纪荣嵘;孙晓帅;马祎炜;钱志鹏;纪家沂设计研发完成,并于2023-03-24向国家知识产权局提交的专利申请。
本基于文本的人物检索的双向一对多嵌入对齐方法在说明书摘要公布了:基于文本的人物检索的双向一对多嵌入对齐方法,涉及人物检索方法。1使用预训练好的ResNet‑50主干网络提取图片特征,使用预训练好的BERT及可训练的Bi‑LSTM模型提取获取全局的视觉与文本特征;2将视觉特征V均匀分割成K个不重叠部分,采用单词注意模块获得K个不同的文本特征,获取视觉局部特征与文本局部特征;3建立非局部模块,基于余弦相似性得到非局部的视觉特征和语言特征;4建立一种全新的双向一对多嵌入范式,具体分为双向嵌入和一对多嵌入两块功能;5采用身份损失和复合排序损失,两者相加构造整体损失函数进行优化。模型能确定优化方向,同时解决图文对一对多的匹配问题。
本发明授权基于文本的人物检索的双向一对多嵌入对齐方法在权利要求书中公布了:1.基于文本的人物检索的双向一对多嵌入对齐方法,其特征在于包括以下步骤: 1使用预训练好的ResNet-50主干网络提取图片特征,使用预训练好的固定住的BERT以及可训练的Bi-LSTM模型提取文本特征,通过全局最大池化及全连接层获取全局的视觉与文本特征; 所述获取全局的视觉与文本特征的具体步骤包括:使用预训练好的ResNet-50主干网络提取图片特征V∈RH×W×C,H,W,C分别代表图片特征的高,宽和通道数,使用预训练好的固定住的BERT以及可训练的Bi-LSTM模型来提取文本特征T∈RN×C,N,C分别代表文本表示的长度和通道数;通过全局最大池化GMP及全连接层获取全局的视觉与文本特征; 其中,是全连接层可学习的参数,Cg表示全局特征的通道维数,vg,tg分别代表全局视觉特征与全局文本特征; 2为了获得局部特征,将视觉特征V均匀地分割成K个不重叠的部分,同时采用单词注意模块获得K个不同的文本特征,通过全局最大池化和全连接层对视觉局部特征与文本局部特征进行提取; 3建立非局部模块,通过余弦相似性得到非局部的视觉特征和语言特征; 4建立一种全新的双向一对多嵌入范式,具体包括双向嵌入和一对多嵌入;所述双向嵌入用于针对视觉特征与语言特征,同时将一方特征通过嵌入函数投影到另一方的特征空间中;所述一对多嵌入,针对图像和文本对之间存的一对多的关系设计,建立一个具有残差结构的嵌入模块组,然后每个模块组由M个残差嵌入模块组成,每一个残差嵌入模块都能将视觉特征嵌入文本特征空间,或将文本特征嵌入视觉特征空间;通过双向一对多嵌入模块,全局视觉特征与全局语言特征,局部视觉特征与局部语言特征,以及非局部视觉特征与非局部语言特征,三组特征都在文本和图像空间中生成多个嵌入特征进行匹配; 5采用两种常见的损失函数,身份损失,复合排序损失,两者相加构造整体损失函数并进行优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学深圳研究院,其通讯地址为:518000 广东省深圳市南山区高新南四道19号虚拟大学园R4-A601;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励