浙江工业大学杨旭华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于跨模态对齐的多粒度手语视频-文本检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119807469B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510009493.3,技术领域涉及:G06F16/732;该发明授权一种基于跨模态对齐的多粒度手语视频-文本检索方法是由杨旭华;李王杰设计研发完成,并于2025-01-03向国家知识产权局提交的专利申请。
本一种基于跨模态对齐的多粒度手语视频-文本检索方法在说明书摘要公布了:一种基于跨模态对齐的多粒度手语视频‑文本检索方法,首先通过自监督方法增强手语视频表征;再通过时间注意力同时考虑视频片段间和视频片段内信息的相关性优化视频片段特征,利用时间协方差池化将视频片段特征聚合为手语视频粗粒度特征,联合细粒度信息充分挖掘手语视频和文本间的跨模态多粒度对齐信息;接着利用共享注意力残差高斯分布网络将手语视频和文本参数化为特征分布,通过对齐特征分布缓解手语视频与文本的模态差距;最后通过计算文本到手语视频的细粒度相似度分数,来检索与查询文本相匹配的手语视频。本发明考虑了手语视频‑文本检索问题的多粒度跨模态信息,检索结果准确性高,效果好。
本发明授权一种基于跨模态对齐的多粒度手语视频-文本检索方法在权利要求书中公布了:1.一种基于跨模态对齐的多粒度手语视频‑文本检索方法,其特征在于,首先通过自监督方法增强手语视频表征;再通过时间注意力同时考虑视频片段间和视频片段内信息的相关性优化视频片段特征,利用时间协方差池化将视频片段特征聚合为手语视频粗粒度特征,联合细粒度信息充分挖掘手语视频和文本间的跨模态多粒度对齐信息,使用CLIP的图像编码器Vision Transformer提取手语视频集合中的每一个手语视频的细粒度特征,使用CLIP的文本编码器Text Transformer提取手语视频对应的文本描述集合中的每一个文本描述的细粒度特征,计算手语视频集合中的每一个手语视频的细粒度特征和手语视频对应的文本描述集合中的每一个文本的细粒度特征的相似度矩阵;接着利用共享注意力残差高斯分布网络将手语视频和文本参数化为特征分布,通过对齐特征分布缓解手语视频与文本的模态差距,计算文本和手语视频细粒度对齐的损失函数以及计算文本和手语视频粗粒度对齐的损失函数;最后通过计算文本到手语视频的细粒度相似度分数,来检索与查询文本相匹配的手语视频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励