杭州电子科技大学简志华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种用于个性化语音生成的语音转换方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115376533B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210978891.2,技术领域涉及:G10L21/013;该发明授权一种用于个性化语音生成的语音转换方法是由简志华;章子旭;金宏辉;杨曼;吴超;吴迎笑设计研发完成,并于2022-08-16向国家知识产权局提交的专利申请。
本一种用于个性化语音生成的语音转换方法在说明书摘要公布了:本发明使用基于音素的信息瓶颈来表征说话人风格和控制转换语音的速度,由内容编码器、说话人编码器、音素时长转换器、解码器和声码器组成。通过编码器和解码器之间的信息瓶颈从源语音中分离出内容信息,并将其与目标说话人嵌入一起输入解码器,最后输入声码器并生成转换后的语音。本发明通过引入持续时长转换器,利用设计好的音素级信息瓶颈来分离说话人内容信息和说话人风格信息,可以适用于零次学习,对训练数据集外的语音也同样适用。
本发明授权一种用于个性化语音生成的语音转换方法在权利要求书中公布了:1.一种用于个性化语音生成的语音转换方法,其特征在于,包括: 步骤1,训练转换模型,获取源说话人的语音数据库,提取出两个不同片段的源说话人Mel谱图序列Xu=[xu,xu+1,…,xu+N]和Xv=[xv,xv+1,…,xv+N],作为训练用的语音特征;其中u和v为Mel谱图序列开始的序号,N为提取的Mel谱图序列长度; 步骤2,将提取的Mel谱图序列经过内容编码器Ec将Mel谱图编码为Mel谱图隐藏序列,表示为: Cu=EcXu⑼ Cv=EcXv⑽ 步骤3,同时将这两个不同片段的源说话人语音输入到说话人编码器Es得到说话人嵌入Su和Sv,表示为: Su=EsXu⑾ Sv=EsXv⑿ 步骤4,将对应片段的内容嵌入和说话人嵌入Cu、Su与Cv、Sv输入到音素时长转换器中,将Cu中的音素持续时长转换为Sv的音素持续时长,同理将Cv中的音素持续时长转换为Su的音素持续时长,输出得到音素持续时长转换后的Cu′和Cv′; 步骤5,将对应的Cu′、Su,Cv′、Sv输入解码器中利用总体损失函数Ltotal进行训练,其中为了使初始估计后重建Mel谱图的更精细,在解码器末端使用PostNet提高生成的Mel谱图的质量,总体损失函数如下所示: Ltotal=Lrecon+λpLpho+λdLd+Lcycle+Lid⒀ 完成训练; 步骤6,实际转换,获取原说话人语音Mel谱图X和目标说话人语音Mel谱图Y,将原说话人语音Mel谱图X输入内容编码器得到内容嵌入C,将目标说话人语音Mel谱图Y输入到说话人编码器并得到说话人嵌入S; 步骤7,将内容嵌入C和说话人嵌入S同时输入音素时长转换器中,得到音素持续时长转换后的内容嵌入C′; 步骤8,将音素持续时长转换后的内容嵌入C′和说话人嵌入S同时输入解码器中得到转换后的Mel谱图Y′; 步骤9,将步骤8中得到的转换Mel谱图Y′输入声码器中合成语音波形,获得与目标说话人相似的高质量语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘新区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励