清华大学深圳国际研究生院唐彦嵩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利一种开放词汇音视频事件定位方法、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121456509B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610010386.7,技术领域涉及:G06F18/23;该发明授权一种开放词汇音视频事件定位方法、设备及存储介质是由唐彦嵩;牛景萱;王禹吉设计研发完成,并于2026-01-06向国家知识产权局提交的专利申请。
本一种开放词汇音视频事件定位方法、设备及存储介质在说明书摘要公布了:本发明公开了一种开放词汇音视频事件定位方法及设备,该方法包括分类阶段:S1、对输入的音视频数据进行编码和时序建模得到时序特征;S2、从时序特征中提取结构化语义原型;S3、将结构化语义原型与开放词汇文本嵌入进行匹配得到事件类别预测结果;一致性检测阶段:S4、获取与预测事件类别相关的细粒度语义提示;S5、分别对音频模态特征和视觉模态特征进行提示引导的增强;S6、基于增强后的音频特征和增强后的视觉特征,分别计算音频模态一致性分数和视觉模态一致性分数;S7、融合音频模态一致性分数和视觉模态一致性分数,生成音视频一致性检测结果,两个阶段的协同作用共同实现了开放词汇音视频事件定位准确性与泛化能力的提升。
本发明授权一种开放词汇音视频事件定位方法、设备及存储介质在权利要求书中公布了:1.一种开放词汇音视频事件定位方法,其特征在于,包括分类阶段和一致性检测阶段,所述分类阶段包括以下步骤: S1、对输入的音视频数据进行编码和时序建模,得到时序特征; S2、从所述时序特征中提取结构化语义原型; S3、将所述结构化语义原型与开放词汇文本嵌入进行匹配,得到时间段级的事件类别预测结果; 所述一致性检测阶段包括以下步骤: S4、以所述事件类别预测结果为条件,检索事件特定知识图谱,获取与预测事件类别相关的细粒度语义提示; S5、利用所述细粒度语义提示,分别对音频模态特征和视觉模态特征进行提示引导的增强,得到增强后的音频特征和增强后的视觉特征; S6、基于所述增强后的音频特征和增强后的视觉特征,分别计算音频模态一致性分数和视觉模态一致性分数; S7、融合音频模态一致性分数和视觉模态一致性分数,生成音视频一致性检测结果; 其中,所述分类阶段和所述一致性检测阶段在训练过程中采用解耦的损失函数进行优化,解耦的损失函数包括用于监督所述分类阶段的第一损失函数和用于监督所述一致性检测阶段的第二损失函数; 在步骤S2中,通过基于槽位的聚类分析从所述时序特征中提取结构化语义原型,具体包括如下步骤: 通过关键帧选择算法初始化k个槽位原型,其中k为超参数;以所述槽位原型作为查询向量Q,以所述时序特征作为键K和值V;通过点积注意力机制迭代优化所述槽位原型,精炼后的槽位原型即为所述结构化语义原型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518055 广东省深圳市南山区桃源街道丽水路2279号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励