天翼视联科技有限公司曹源获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天翼视联科技有限公司申请的专利视频理解方法、视频理解系统和计算机设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120492863B 。
龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510991459.0,技术领域涉及:G06F16/908;该发明授权视频理解方法、视频理解系统和计算机设备是由曹源;王艺;孙晓栋设计研发完成,并于2025-07-18向国家知识产权局提交的专利申请。
本视频理解方法、视频理解系统和计算机设备在说明书摘要公布了:本申请涉及一种视频理解方法、视频理解系统和计算机设备,通过获取流媒体数据和文本数据,基于流媒体数据提取出第一音频特征向量和第一图像特征向量,基于文本数据提取出文本特征向量;分别对第一音频特征向量和第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量;将音频特征增强向量和图像特征增强向量映射至文本向量空间,并与文本特征向量进行融合,得到多模态特征融合向量;以多模态特征融合向量作为多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至损失函数收敛;将目标视频输入至经训练的多模态大模型进行处理,输出视频理解内容;解决了单模态偏差问题。
本发明授权视频理解方法、视频理解系统和计算机设备在权利要求书中公布了:1.一种视频理解方法,其特征在于,包括: 获取流媒体数据和文本数据,基于所述流媒体数据提取出第一音频特征向量和第一图像特征向量,基于所述文本数据提取出文本特征向量; 分别对所述第一音频特征向量和所述第一图像特征向量进行专属模态增强处理,得到音频特征增强向量和图像特征增强向量; 将所述音频特征增强向量和所述图像特征增强向量映射至文本向量空间,并与所述文本特征向量进行融合,得到多模态特征融合向量; 构造多模态融合预训练任务,以所述多模态特征融合向量作为所述多模态融合预训练任务的输入,计算损失函数,并通过反向传播调整多模态大模型的权重参数,直至所述损失函数收敛; 将目标视频输入至经训练的所述多模态大模型进行处理,输出视频理解内容; 其中,将所述音频特征增强向量和所述图像特征增强向量映射至文本向量空间,并与所述文本特征向量进行融合,得到多模态特征融合向量,包括: 在所述流媒体数据中抽取关键帧,以所述关键帧的抽取时间为基准进行向量化表达,得到时间向量; 将所述音频特征增强向量和所述图像特征增强向量分别与所述时间向量拼接,得到音频时序特征向量At和图像时序特征向量It; 将所述音频时序特征向量At、所述图像时序特征向量It和所述文本特征向量T分别通过统一线性投影层的变换函数W,映射到所述文本向量空间,得到映射后的特征向量,分别为WAAt、WIIt和WTT,在所述映射后的特征向量之间引入残差连接,即将输入特征直接添加到输出特征上,得到所述多模态特征融合向量;计算公式如下: F融合=WAAt+WIIt+WTT+ResAt,It,T; 其中,F融合为当前轮训练输出的多模态特征融合向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天翼视联科技有限公司,其通讯地址为:311100 浙江省杭州市余杭区五常街道溪沁街8号中国电信浙江创新园一号楼一单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励