中国科学技术大学叶中付获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种基于波形频谱融合网络的单通道语音增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116682444B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310798343.6,技术领域涉及:G10L21/0232;该发明授权一种基于波形频谱融合网络的单通道语音增强方法是由叶中付;于润祥设计研发完成,并于2023-07-03向国家知识产权局提交的专利申请。
本一种基于波形频谱融合网络的单通道语音增强方法在说明书摘要公布了:本发明涉及一种基于波形频谱融合网络的单通道语音增强方法,用来弥补频域目标解耦方法缺乏对于波形表示的利用,使得神经网络无法学习时域和频域之间的互补优势的问题。为了充分利用波形域和频域这两个域的信息,本发明提出了轻量级语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量。同时,本发明提出了双路径循环神经网络结构嵌入到神经网络中,以建模波形域帧间的长程上下文相关性和频域帧内的长程上下文相关性。本发明在语音质量和可理解性方面优于目前最先进的目标解耦型语音增强方法和以往的先进系统。
本发明授权一种基于波形频谱融合网络的单通道语音增强方法在权利要求书中公布了:1.一种基于波形频谱融合网络的单通道语音增强方法,其特征在于,包括以下步骤: 步骤1:将带噪语音信号做短时傅里叶变换STFT后得到带噪语音信号频谱中每一帧的复数谱,同时提取出每一帧的波形; 步骤2:所述复数谱输入双支路网络中的复数谱支路,对输入的带噪语音信号的复数谱进行深度特征提取,得到一个具有深度特征信息的特征图,通过调节所述特征图,恢复增强后的带噪语音信号的复数谱,初步恢复增强后的语音信号; 所述波形输入双支路网络中的波形支路,对输入的带噪语音信号的波形进行深度特征提取,得到深度特征信息的特征图,并调节所述特征图,生成对复数谱的补偿掩蔽; 在所述波形支路和复数谱支路之间引入语义聚合模块,语义聚合模块融合了两条支路的跨域特征,并通过因果形式的互注意力机制生成层级掩码张量,利用波形支路和复数谱支路之间的隐含相关性; 所述语义聚合模块分为三个阶段,即特征提取阶段,特征处理阶段和特征融合阶段;特征提取阶段中,采用双支路神经网络,由并联的复数谱支路和波形支路构成;复数谱特征提取路径由复数卷积编码器级联而成,波形特征提取路径由波形卷积编码器级联而成;复数谱支路中的复数谱卷积编码器对复数谱支路进行深层特征提取,得到复数谱卷积编码器的特征图;波形支路中的波形卷积编码器对波形支路进行深层特征提取,得到波形卷积编码器的特征图;特征提取阶段分别对复数谱卷积编码器的输出和波形卷积编码器的输出进行因果形式的预处理,由并联的复数谱特征提取路径和波形特征提取路径构成,分别级联在复数谱卷积编码器和波形卷积编码器后面;特征融合阶段对复数谱特征提取路径的特征图和波形特征提取路径的特征图进行融合,得到一个融合张量,融合张量作为掩蔽作用于复数谱支路的特征上,波形支路的输出作为新的特征进行传递; 在波形支路与复数谱支路之间插入多个语义聚合模块后,根据每一个经过语义聚合模块之后的特征图对带噪语音信号进行渐进增强;最终,复数谱支路的最后一个输出特征图表示估计出的复数理想比例掩模,最后一个语义聚合模块输出的最后一个输出特征图表示估计出的复数理想比例掩模的补偿掩模; 步骤3:将步骤1的输出的理想比例掩模和理想比例掩模的补偿掩模结合,用以重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励