西北工业大学郭斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于层次化视觉注意力的富语义视频对话生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117668288B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311558183.4,技术领域涉及:G06F16/732;该发明授权一种基于层次化视觉注意力的富语义视频对话生成方法是由郭斌;赵倩;孙卓;於志文;刘思聪;梁韵基设计研发完成,并于2023-11-21向国家知识产权局提交的专利申请。
本一种基于层次化视觉注意力的富语义视频对话生成方法在说明书摘要公布了:本公开实施例是关于一种基于层次化视觉注意力的富语义视频对话生成方法。该方法包括:将输入视频分割成若干个视频片段;分别提取视频片段的画面特征、运动特征和提取视频片段的多维音频特征;并处理得到视频‑音频特征;注意力记忆单元逐个分析输入问题的单词,得到词嵌入向量;通过注意力记忆单元对词嵌入向量、输入问题和视频‑音频特征进行精细化调整,以生成针对输入问题的对话回复。本公开实施例通过将视觉和语言的注意力机制引入到对话生成过程中,实现了对视频和语言的联合建模。针对用户所提问题,对视频的不同区域进行不同程度的局部注意力分配,同时结合历史对话上下文信息,从而可以生成语义更加丰富、更具连贯性的对话内容。
本发明授权一种基于层次化视觉注意力的富语义视频对话生成方法在权利要求书中公布了:1.一种基于层次化视觉注意力的富语义视频对话生成方法,其特征在于,该方法包括: 将输入视频分割成若干个视频片段; 分别利用C3D-rgb模型和C3D-flow模型提取所述视频片段的画面特征和运动特征,利用VGG模型提取所述视频片段的多维音频特征; 对所述画面特征、所述运动特征和所述多维音频特征进行处理,得到视频-音频特征; 注意力记忆单元逐个分析输入问题的单词,以得到词嵌入向量;其中,所述注意力记忆单元包括注意力模块、通道融合模块、记忆模块、优化模块和若干个Transformer操作块; 将所述词嵌入向量送入所述记忆模块,以使所述记忆模块的记忆所述输入问题的信息; 在每个时间步中通过所述注意力记忆单元对所述词嵌入向量、所述输入问题和所述视频-音频特征进行精细化调整,以生成针对所述输入问题的对话回复;具体包括: 所述注意力记忆单元基于当前的所述词嵌入向量对所有所述视频-音频特征执行初始注意力机制,并关于与当前的所述单词相关联的所述视频-音频特征; 将所述视频-音频特征中的所述画面特征和所述运动特征取加权和,在与所述通道融合模块相融合,以得到中间融合表示; 将所述记忆模块的隐藏层状态、之前的视频表示和所述中间融合表示相加,作为所述记忆模块的输入,以能够记忆所有执行的注意力操作; 所述注意力模块使用所述记忆模块的隐藏层状态对所有所述视频-音频特征执行第二次注意力机制; 在所述优化模块中细化所述初始注意力机制的第一注意力权重和所述第二次注意力机制的第二注意力权重,生成当前的所述视频表示,以得到所述对话回复;其中,当前的所述视频表示在下一个时间步长中被使用到。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励