山东大学魏莹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利基于视觉导引的两阶段语音分离方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115691539B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211317835.0,技术领域涉及:G10L21/0272;该发明授权基于视觉导引的两阶段语音分离方法及系统是由魏莹;邓媛洁;张寒冰设计研发完成,并于2022-10-26向国家知识产权局提交的专利申请。
本基于视觉导引的两阶段语音分离方法及系统在说明书摘要公布了:本发明提供了一种基于视觉导引的两阶段语音分离方法及系统,在第一阶段,对获取的混合语音在时域上分获得说话人语音;在第二阶段,借助第一阶段的粗分离语音提取具有说话人信息的独立语音特征,同时挖掘视觉和音频模态之间的潜在相关特征和互补特征并进行多模态特征的融合与分离,最终得到纯净的目标语音。本发明利用第一阶段提取说话人的独立语音特征,避免引入纯净的参考声音,通过视觉导引的语音分离性能和鲁棒性得到提升,同时解决了标签排列问题。本发明通过动态调整两阶段模型的权重以进一步提升语音分离质量,所公开的语音分离系统适用于大多数应用场景。
本发明授权基于视觉导引的两阶段语音分离方法及系统在权利要求书中公布了:1.一种基于视觉导引的两阶段语音分离方法,其特征是,包括以下步骤: 在第一阶段,对获取的混合语音在时域上进行分离,获得粗分离的目标语音的时域信号,获取的目标语音的时域信号进行转换,得到分离后的各个说话人的复谱图,并提取各个说话人的独立语音特征; 第二阶段,对混合语音进行变换,得到混合语音的复谱图,根据其获取真实纯净语音的复谱掩码; 获取与混合语音时间同步的说话人的视觉信息并进行预处理,将预处理后的视觉图像中的面部图像作为静态视觉信息,唇部数据作为动态视觉信息,分别提取静态视觉特征和动态视觉特征; 对说话人的静态视觉特征、动态视觉特征、独立语音特征和混合语音特征进行多模态特征融合,得到融合的多模态特征,分离所述多模态特征,得到分离后的目标语音的掩码,将所述目标语音的掩码和混合语音的复谱图相乘后进行逆变换,得到目标说话人的纯净语音信号; 在第二阶段的训练过程中,根据所述真实纯净语音的复谱掩码,计算第二阶段的源失真比,确定第二阶段的语音分离的损失函数; 两个阶段的分离过程预先进行训练,且训练过程中对两个阶段的损失函数动态调整权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250061 山东省济南市历下区经十路17923号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励