中通服创立信息科技有限责任公司裴贵军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中通服创立信息科技有限责任公司申请的专利融合多模态场景理解的音视频关联目标分析方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121191068B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511713757.X,技术领域涉及:G06V20/40;该发明授权融合多模态场景理解的音视频关联目标分析方法及系统是由裴贵军;赵永义;许成刚;杜良辉设计研发完成,并于2025-11-21向国家知识产权局提交的专利申请。
本融合多模态场景理解的音视频关联目标分析方法及系统在说明书摘要公布了:本发明公开了一种融合多模态场景理解的音视频关联目标分析方法、系统、终端及介质,涉及音视频目标分析技术领域,方法包括:从视频帧图像中提取空间特征图;将音频信号转换成全局音频嵌入向量;将空间特征图和音频嵌入向量在每个空间位置进行余弦相似度计算,生成音频热响应图;将音频热响应图生成前景掩码与背景掩码,分别利用前景掩码与背景掩码对空间特征图加权求和后,经全局平均池化,得到响应区域的前景视觉表示向量和背景视觉表示向量;将音频热响应图转化为结构化发声目标输出,输出目标发生实体在视频帧图像中的响应图及空间位置坐标。方法通过多模态大模型提供视觉语义信息,可有效理解是否发声的语义状态,提高发声目标识别的准确率。
本发明授权融合多模态场景理解的音视频关联目标分析方法及系统在权利要求书中公布了:1.一种融合多模态场景理解的音视频关联目标分析方法,其特征在于,包括: 获取包含多人、多物体的视频帧图像及其同步采集的音频信号; 对所述视频帧图像采用视觉编码器提取空间特征图,所述空间特征图保留每个空间位置的视觉语义信息,所述视觉语义信息由多模态大模型提供,并将视觉语义信息输入文本编码器,得到前景语义向量集合和背景语义向量集合; 将所述音频信号转换为音频频谱图,并将所述音频频谱图输入音频编码器,输出全局音频嵌入向量; 将空间特征图和音频嵌入向量在每个空间位置进行余弦相似度计算,生成音频热响应图; 将音频热响应图经归一化后生成前景掩码与背景掩码,分别利用所述前景掩码与背景掩码对空间特征图加权求和后,再经全局平均池化,得到响应区域的前景视觉表示向量和背景视觉表示向量; 将音频热响应图转化为结构化发声目标输出,输出目标发生实体在视频帧图像中的响应图及空间位置坐标; 所述将音频热响应图转化为结构化发声目标输出的具体方法包括: 利用视频帧图像中已有的对象区域提议与相应热响应图进行逐区域加权评估; 提取热度中心、响应均值或最大值作为区域得分指标,并根据所述区域得分指标计算区域得分; 选择区域得分最高的候选目标区域作为发声目标; 所述方法还包括:利用多模态大模型生成语义监督信息时,采用多模态大模型提供结构化语义向量,用于构造对发声目标的区分性目标函数,具体包括: 将语言提示词、视频帧图像及其对应的音频类别标签作为输入,输入到多模态大模型中,生成发声目标的前景发声语义和背景静音语义,将前景发声语义和背景静音语义输入文本编码器,输出前景语义向量集合和背景语义向量集合作为训练损失的监督信号; 利用多模态大模型生成语义监督信息时,采用软对比损失函数将文本编码器输出的前景语义向量集合和背景语义向量集合与前景视觉表示向量和背景视觉表示向量进行对比学习约束,软对比损失函数的正样本相似度项为: ; 其中,为前景视觉表示向量,为第i个样本的前景语义向量; 语义加权负样本项为: ; 其中,为背景视觉表示向量,用于衡量第i个样本的前景语义向量与第j个样本的前景语义向量之间的相似性; 的计算公式为: ; 其中,表示第i个样本的前景语义向量与第j个样本的前景语义向量之间的余弦相似度; 前景损失的计算公式为: ; 背景损失的计算公式为: ; 其中,为背景语义向量; 语义引导对齐损失的计算公式为: ; 其中,B为表示每个训练批次中样本的数量,用于对前景损失与背景损失进行归一化平均。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中通服创立信息科技有限责任公司,其通讯地址为:610000 四川省成都市高新区神仙树北路14号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励