上海交通大学钱彦旻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利一种基于文本表述驱动的说话人生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118865941B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411149179.7,技术领域涉及:G10L13/027;该发明授权一种基于文本表述驱动的说话人生成方法是由钱彦旻;陈正阳设计研发完成,并于2024-08-20向国家知识产权局提交的专利申请。
本一种基于文本表述驱动的说话人生成方法在说明书摘要公布了:本发明公开了一种基于文本表述驱动的说话人生成方法,涉及语音合成领域,包括如下步骤:将文本表述输入到描述编码器,上述文本表述设置为描述说话人的音色特点;描述编码器采用区分性方法和或生成式方法,将文本表述编码为音色特征向量,并将文本表述和说话人的音色特征映射到同一个空间;将音色特征向量和文本内容输入到多说话人TTS系统,多说话人TTS系统生成对应音色的语音;多说话人TTS系统生成的语音的音色与音色特征向量中编码的音色一致,语音的内容与输入的文本内容一致。本发明可以使用任意文本描述,生成对应音色说话人的表征,这个表征可以用来驱动多说话人系统生成对应音色的语音,能够在保持文本描述和生成质量两个方面达到权衡。
本发明授权一种基于文本表述驱动的说话人生成方法在权利要求书中公布了:1.一种基于文本表述驱动的说话人生成方法,其特征在于,所述方法包括以下步骤: S101:将文本表述输入到描述编码器,所述文本表述设置为描述说话人的音色特点; S103:所述描述编码器采用区分性方法和或生成式方法,将所述文本表述编码为音色特征向量,并将所述文本表述和所述说话人的音色特征映射到同一个空间; S105:将所述音色特征向量和文本内容输入到多说话人TTS系统,所述多说话人TTS系统生成对应音色的语音; S107:所述多说话人TTS系统生成的所述语音的音色与所述音色特征向量中编码的音色一致,所述语音的内容与输入的所述文本内容一致; 其中, 所述区分性方法包括语言模型RoBERTa、快速自适应模块LoRA和映射层,所述语言模型RoBERTa为预训练的语言模型,能够理解文本的语义,所述快速自适应模块LoRA使所述语言模型RoBERTa快速地自适应,所述映射层包括多个线性层,用于将所述语言模型RoBERTa的输出映射到和说话人表征同样的维度; 所述区分性方法包括如下步骤: S1031:接收文本描述,并从所述文本描述中拼接得到CLS令牌; S1032:将所述文本表述和所述CLS令牌输入到预训练好的所述语言模型RoBERTa中,所述语言模型RoBERTa输出所述CLS令牌对应位置的输出; S1033:所述快速自适应模块LoRA接收所述CLS令牌对应位置的输出,并将所述CLS令牌对应位置的输出映射到对应的所述音色特征向量; 所述生成式方法使用流匹配生成式模型,根据所述文本表述,生成一个关于所述音色特征向量的分布,所述分布由高斯分布转换得到。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励