南京邮电大学李燕萍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116778902B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310970560.9,技术领域涉及:G10L13/047;该发明授权融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法是由李燕萍;潘磊;杨泽宇设计研发完成,并于2023-08-02向国家知识产权局提交的专利申请。
本融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法在说明书摘要公布了:本发明公开一种融合增强编码模块和LGNet网络的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解纠缠,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;LGNet网络对提取的内容表征进一步优化;解码器将获取的说话人信息表征和优化后的内容表征进行重构;本发明在编码器中引入增强编码模块,提升了转换语音的质量;利用LGNet网络使得优化后的源语句的内容表征和目标语句的说话人信息表征在解码器中的自适应实例归一化层中充分融合,进一步提高转换语音的自然度和说话人相似度从而实现高质量的跨语种语音转换。
本发明授权融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法在权利要求书中公布了:1.一种融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段, 所述训练阶段包括以下步骤: 步骤S1:获取大量的训练语料,训练语料由不同语种的多名说话人的语句组成; 步骤S2:将获取的训练语料进行预处理和特征提取;从每句训练语料的对数梅尔频谱特征中随机选取128帧并通过拼接得到对数梅尔频谱特征片段,表征为声学特征; 步骤S3:将所述声学特征输入到转换模型中进行模型训练,所述转换模型包括编码器、LGNet网络和解码器;所述编码器对输入的声学特征进行解纠缠,从中获得说话人信息表征和内容表征;所述编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;所述LGNet网络对编码器提取的内容表征进一步优化得到,使得内容表征中的信息充分表达;所述解码器将获取的说话人信息表征和优化后的内容表征进行重构,得到重构后的对数梅尔频谱特征,表征为声学特征; 所述转换模型中的编码器由2个一维卷积层、6个增强编码模块、6个实例归一化层和1个激活指导函数层组成,所述增强编码模块由1个递归门控卷积层、1个批归一化层、1个LeakyReLU激活函数和1个一维卷积层组成,所述增强编码模块和实例归一化层交替放置; 步骤S4:对转换模型进行训练的过程中,使所述转换模型的重构损失函数尽量小,设置所述转换模型的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换模型; 所述转换阶段包括以下步骤: 步骤S5:选取不同语种的语句作为待转换语料,从待转换语料中分别选择不同语种的源语句和目标语句,分别提取源语句的对数梅尔频谱特征和目标语句的对数梅尔频谱特征,分别表征为声学特征和; 步骤S6:将所述声学特征和输入到训练好的转换模型中,重构出转换语句的对数梅尔频谱特征,表征为声学特征; 步骤S7:采用Griffin-Lim声码器,将获得的转换语句的声学特征转换为语音波形进行输出,从而获得跨语种语音转换的合成语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励