Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 太原理工大学李一迪获国家专利权

太原理工大学李一迪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉太原理工大学申请的专利一种基于语义-空间特征融合的视听说话人跟踪方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119227003B

龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411361389.2,技术领域涉及:G06F18/25;该发明授权一种基于语义-空间特征融合的视听说话人跟踪方法是由李一迪;徐震寰;梁韫旭;何梓涵;严崇玮;刘炎坤;赵云设计研发完成,并于2024-09-27向国家知识产权局提交的专利申请。

一种基于语义-空间特征融合的视听说话人跟踪方法在说明书摘要公布了:本发明属于多模态感知技术领域,具体涉及一种基于语义‑空间特征融合的视听说话人跟踪方法,包括下列步骤:获取原始音视频信号,采用视听融合的关键词识别网络,提取视听信号中的语义特征编码;采用包括视觉分支和听觉分支的双流网络结构来分别处理图像帧和声学信号;采用交叉注意力模块实现语义‑空间特征两个不同序列之间的信息交互和融合。本发明采用交叉注意力机制来挖掘不同层次特征和不同模态特征之间的相关性和互补性,促进不同信息源之间的信息交互。语义‑空间特征融合机制能自适应地关注有价值的信息,学习到多层次和跨模态的时空一致性特征表示,进一步提高视听特征的表达能力,从而实现更加准确的跟踪。

本发明授权一种基于语义-空间特征融合的视听说话人跟踪方法在权利要求书中公布了:1.一种基于语义-空间特征融合的视听说话人跟踪方法,其特征在于,包括下列步骤: S1、获取原始音视频信号,采用视听融合的关键词识别网络,提取视听信号中的语义特征编码; 所述S1中提取视听信号中的语义特征编码的方法为: S11、将原始音视频信号转换为高维特征表示Fa与Fv; S12、使用基于Transformer的编码器来获得与关键词相关的语义特征; S2、采用包括视觉分支和听觉分支的双流网络结构来分别处理图像帧和声学信号; S3、采用交叉注意力模块实现语义-空间特征两个不同序列之间的信息交互和融合; 所述S3中采用交叉注意力模块实现语义-空间特征两个不同序列之间的信息交互和融合的方法为: S31、将一种模态的特征作为Q,另一种模态的特征作为K和V进行注意力计算; S32、并使用残差形式的多头注意力来整合来自不同序列的信息; CA机制的定义如下: 其中,QA是A+EA的线性变换,QB是B+EB的线性变换,EA和EB是用来补充空间位置信息的位置编码,K和V的定义类似,LN·表示层归一化; 之后使用两步融合来增强多人场景中不同跟踪目标的特征区分性,包括模态内和模态间两个阶段,首先在各模态内进行语义-空间特征融合,然后在不同模态间进行视听融合,第一阶段的融合可以形式化地表示为: fsv=fv+MHAQsv,Kv,Vv fsa′=fa+MHAQsa,Ka,Va 其中,Qsv和Qsa分别是由视听融合的关键词识别网络的编码器输出的听觉与视觉语义特征编码的线性变换,Kv和Vv是视觉空间特征fv的线性变换,Ka和Va是听觉空间特征fa的线性变换;第二阶段的跨模态融合过程表示为: fsa=fsa′+MHAQsv′,Ksa′,Vsa′ fav=CAfsa,fsv 其中,Ksa′和Vsa′是fsa′的线性变换,Qsv′是视觉语义特征编码的另一次线性变换。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人太原理工大学,其通讯地址为:030024 山西省太原市迎泽大街79号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。