南京邮电大学李燕萍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利基于互信息量和SE注意力机制的跨语种语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115713933B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211423687.0,技术领域涉及:G10L15/06;该发明授权基于互信息量和SE注意力机制的跨语种语音转换方法是由李燕萍;胡澄阳设计研发完成,并于2022-11-15向国家知识产权局提交的专利申请。
本基于互信息量和SE注意力机制的跨语种语音转换方法在说明书摘要公布了:本发明涉及语音转换技术领域,具体地说,是一种基于互信息量和SE注意力机制的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段包括以下步骤:首先在内容编码器中引入SE模块,通过该模块,网络可以学习获取全局信息,提升内容编码器生成的内容表征的质量;进一步引入互信息量作为相关度量,通过无监督的方式减少内容表征、说话人表征和基频特征三者两两之间的依赖性,实现高效的解纠缠;最后在解码器中将目标说话人语句中的个性信息与源说话人语句中的内容信息进行重构,从而实现高质量的跨语种语音转换。与此同时,该方法还可以对不在训练集内的说话人实现转换,即完成开集情形下任意说话人的跨语种语音转换。
本发明授权基于互信息量和SE注意力机制的跨语种语音转换方法在权利要求书中公布了:1.一种基于互信息量和SE注意力机制的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段; 所述训练阶段包括以下步骤: 步骤1、获取大量的训练语料,训练语料由不同语言的多名说话人的语句组成; 步骤2、将获取的训练语料通过预处理和特征提取,从每句训练语料的梅尔频谱特征中随机选取128帧并通过级联操作得到梅尔频谱特征片段,表征为声学特征X; 步骤3、将所述声学特征输入到转换网络中进行训练,所述转换网络由内容编码器、说话人编码器、音高提取器和解码器四部分组成,其中,所述内容编码器、说话人编码器用于对说话人的语音进行解纠缠,从中获得语句的内容信息和说话人信息,所述音高提取器用于从说话人语音的波形中提取基频F0,所述解码器用于将获得的内容信息、说话人信息和基频F0进行重构,得到重构后的梅尔频谱特征,表征为声学特征X′; 步骤4、对转换网络进行训练的过程中,使所述转换网络的重构损失函数尽量小,设置所述转换网络的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换网络; 所述转换阶段包括以下步骤: 步骤5、选取不同语种的语音作为测试语料,分别提取测试语料中的源说话人梅尔频谱特征X1和目标说话人梅尔频谱特征X2作为声学特征; 步骤6、将所述声学特征X1、X2输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征X1→2; 步骤7、采用ParallelWaveGAN声码器,将获得的转换语句的梅尔频谱特征转换为语音进行输出,从而获得跨语种语音转换的合成语音; 在步骤3中,所述内容编码器由1个h-net网络、1个量化器q和1个g-net网络组成,所述h-net网络由1个步长为2的一维标准卷积层、4个卷积模块和1个512维线性层组成,所述卷积模块共有4个,前3个卷积模块由层归一化、512维线性层和ReLU激活函数组成,最后1个卷积模块由层归一化、512维线性层、SE模块和ReLU激活函数组成,所述SE模块由1个一维全局平均池化层、2个全连接层、1个ReLU激活函数、1个Sigmoid激活函数和密集残差连接组成。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励