深圳市深智电科技有限公司余强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市深智电科技有限公司申请的专利结合深度学习的音视频对象智能跟踪优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120892764B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511430903.8,技术领域涉及:G06F18/20;该发明授权结合深度学习的音视频对象智能跟踪优化方法及系统是由余强;李道龙设计研发完成,并于2025-10-09向国家知识产权局提交的专利申请。
本结合深度学习的音视频对象智能跟踪优化方法及系统在说明书摘要公布了:本申请涉及音视频处理技术领域,提供一种结合深度学习的音视频对象智能跟踪优化方法及系统。本申请中,通过获取同步的音视频数据组,对音频流与视频帧序列执行跨模态特征协同提取,生成包含音频时域动态特征与视频空间结构特征的多模态特征集;将多模态特征集输入预训练的关联增强网络生成跨模态语义对齐的关联特征序列;基于关联特征序列构建跟踪稳定性评估模型,输出稳定性指标;根据稳定性指标动态调整跟踪参数并校准初始跟踪结果,输出优化后的跟踪轨迹。由此,本申请通过深度融合音视频双模态特征,挖掘模态间的内在关联,结合动态评估与校准机制,提升了复杂场景下对象跟踪的精度与稳定性。
本发明授权结合深度学习的音视频对象智能跟踪优化方法及系统在权利要求书中公布了:1.一种结合深度学习的音视频对象智能跟踪优化方法,其特征在于,所述方法包括: 获取连续采集的多段音视频数据组,所述音视频数据组包含同步采集的音频流数据与视频帧序列; 对所述音频流数据与视频帧序列执行跨模态特征协同提取操作,生成包含音频时域动态特征与视频空间结构特征的多模态特征集; 将所述多模态特征集输入预训练的关联增强网络进行时序关联建模,生成具有跨模态语义对齐的关联特征序列; 基于所述关联特征序列构建跟踪稳定性评估模型,输出反映跟踪过程可靠性的稳定性指标; 根据所述稳定性指标动态调整跟踪参数并校准初始跟踪结果,输出优化后的针对目标对象的对象跟踪轨迹; 其中,所述对所述音频流数据与视频帧序列执行跨模态特征协同提取操作,生成包含音频时域动态特征与视频空间结构特征的多模态特征集,包括: 对所述音频流数据进行时频转换处理,提取包含频率分布规律与能量波动模式的音频基础特征; 对所述视频帧序列进行运动感知处理,通过光流估计技术捕捉目标对象在连续帧间的位移趋势,生成视频运动特征; 将所述音频基础特征与视频运动特征输入特征互补模块,分析所述音频基础特征与视频运动特征在时间维度上的语义重叠区域,并提取音频时域动态特征; 对所述视频帧序列进行目标分割处理,通过区域生长算法定位目标对象的轮廓边界并提取纹理分布特征,生成视频空间结构特征; 将所述音频时域动态特征与视频空间结构特征进行维度对齐处理,形成多模态特征集; 其中,所述将所述多模态特征集输入预训练的关联增强网络进行时序关联建模,生成具有跨模态语义对齐的关联特征序列,包括: 将所述多模态特征集输入关联增强网络的局部关联层,计算音频时域动态特征与视频空间结构特征在相邻时间步的局部相似性,生成局部关联特征; 通过关联增强网络的全局上下文层对所述局部关联特征进行长程依赖分析,提取目标对象在连续时间窗口内的行为模式一致性特征; 利用关联增强网络的语义对齐模块,基于目标对象的先验特征模板对所述局部关联特征与全局上下文特征进行语义对齐,得到语义对齐后的特征; 将语义对齐后的特征输入关联增强网络的时序融合层,通过门控循环单元建模特征序列的时间演变规律,生成时序连贯的关联特征序列; 对所述关联特征序列进行归一化处理,平衡不同模态特征的贡献权重,形成具有跨模态语义对齐的关联特征序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市深智电科技有限公司,其通讯地址为:518000 广东省深圳市宝安区西乡街道龙腾社区汇智研发中心BC座C1401;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励