Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 本相空间(珠海)科技有限公司钱馨园获国家专利权

本相空间(珠海)科技有限公司钱馨园获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉本相空间(珠海)科技有限公司申请的专利基于视觉提示选择性定位声源的方法、装置、介质及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120161404B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510639154.3,技术领域涉及:G01S3/80;该发明授权基于视觉提示选择性定位声源的方法、装置、介质及产品是由钱馨园;江子扬;钱心蕤;陈凯南;赵殊阳;蔡佳纹;孙骁良;曾心;庞雨虹;管语希;杨柳设计研发完成,并于2025-05-19向国家知识产权局提交的专利申请。

基于视觉提示选择性定位声源的方法、装置、介质及产品在说明书摘要公布了:本发明提供一种基于视觉提示选择性定位声源的方法、装置、介质及产品,该方法包括以下步骤:获取混合音频信号与提示图像;混合音频信号包括至少二个不同声源触发的不同声音事件对应的音频信号;提示图像与目标声源关联,目标声源为所需的从不同声源中选择定位出的声源;提示图像所提示的对象触发的声音事件与目标声源触发的声音事件属于同一声音事件;通过预设的跨实例视听定位模型处理混合音频信号与提示图像,包括估计目标掩码;基于目标掩码输出目标声源对应的目标到达方向。本发明实现从多个声源触发的多个不同声音事件中,对特定声音事件对应的特定声源选择定位,应用范围广。

本发明授权基于视觉提示选择性定位声源的方法、装置、介质及产品在权利要求书中公布了:1.一种基于视觉提示选择性定位声源的方法,其特征在于,包括以下步骤: 获取混合音频信号与提示图像;所述混合音频信号包括至少二个不同声源触发的不同声音事件对应的音频信号;所述提示图像与目标声源关联,所述目标声源为所需的从不同声源中选择定位出的声源;所述提示图像所提示的对象触发的声音事件与目标声源触发的声音事件属于同一声音事件; 通过预设的跨实例视听定位模型处理混合音频信号与提示图像,包括估计目标掩码; 基于所述目标掩码输出目标声源对应的目标到达方向; 所述跨实例视听定位模型处理所述混合音频信号与提示图像的过程包括: 通过音频编码器提取混合音频信号,得到音频语义特征; 通过视觉编码器提取提示图像,并沿时间维度扩展,得到扩展视觉语义特征; 所述音频语义特征和所述扩展视觉语义特征沿特征维度连接,得到统一多模态输入序列; 所述统一多模态输入序列经过Conformer网络处理,输出语义感知多模态提示特征; 所述混合音频信号经过短时傅里叶变换后得到频谱图特征的实部,提取所述频谱图特征的实部得到音频空间特征; 将所述语义感知多模态提示特征与所述音频空间特征对齐后,得到对齐特征,基于所述对齐特征估计所述目标掩码; 根据所述目标掩码进行目标到达方向的预测,所述目标到达方向与所述目标声源对应; 所述跨实例视听定位模型通过深度学习方式训练得到,在训练过程中,包括设置数据集,并在所述数据集上进行训练和评估; 所述数据集的制作包括空间音频生成过程和提示图片生成过程,所述空间音频生成过程包括从视频中提取单声道音频片段,并将其重采样后与模拟的房间冲激响应卷积,生成双声道空间混合音频;所述提示图片生成过程包括从所述视频中提取视频帧,通过评估所述视频帧与所述视频相应的声音事件之间的语义一致性,选取得分最高的帧作为所述视频对应的提示图像。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人本相空间(珠海)科技有限公司,其通讯地址为:519060 广东省珠海市香洲区卫康路199号香洲创港中心20栋12层1201-1室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。