豫章师范学院张丽园获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉豫章师范学院申请的专利基于VITS改进的语音合成方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121306095B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511874168.X,技术领域涉及:G10L13/10;该发明授权基于VITS改进的语音合成方法与系统是由张丽园;刘捷;李禹;万卿;夏国华;施文辉;洪晓青;王雅琪设计研发完成,并于2025-12-12向国家知识产权局提交的专利申请。
本基于VITS改进的语音合成方法与系统在说明书摘要公布了:本发明提出一种基于VITS改进的语音合成方法与系统,通过对VITS模型的文本编码器进行优化,引入大语言模型,使得对文本进行编码时可以捕获输入文本的情感、意图和说话风格;在动态规划求解Q值时引入随机扰动项,提升训练初期的对齐灵活性,同时严格保持单调性约束,避免过早收敛到次优解;通过ConvNeXt模块作为对解码器的基础骨干网络,并利用ISTFT来高效重构时域信号,实现波形的上采样,避免传统转置卷积的冗余计算,加速推理。本发明能够有效提升语音合成的推理速度、情感表达能力和风格控制的灵活性,为跨语言多样化语音合成提供了新的解决方案,为语音合成技术向更高效、更智能的方向发展提供参考。
本发明授权基于VITS改进的语音合成方法与系统在权利要求书中公布了:1.一种基于VITS改进的语音合成方法,其特征在于,所述方法包括如下步骤: 在训练阶段: 以VITS模型作为基础模型,并给定输入文本以及原始语音信号,将输入文本以及原始语音信号输入基础模型; 利用基于大语言模型的语义编码器进行音素化编码,以捕获输入文本的情感、意图和说话风格,生成包含深层语义信息的增强文本嵌入; 将原始语音信号采用短时傅里叶变换,生成线性谱,并输入至后验编码器中,得到语音后验分布,并采样得到潜变量; 将潜变量输入至解码器,生成频域声学特征,再将频域声学特征进行逆短时傅里叶变换,重构为时域语音波形,得到重建语音信号; 将增强文本嵌入与潜变量输入至MAS模块进行单调对齐搜索,并在单调对齐搜索过程中,引入随训练推进尺度逐步衰减的随机扰动,得到对齐路径; 将增强文本嵌入输入至随机时长预测器中,以得到每个音素的预测时长; 将增强文本嵌入根据对齐路径进行对齐,并输入至先验编码器中,以生成文本先验分布; 基于重建语音信号、原始语音信号、预测时长、文本先验分布以及语音后验分布构建总损失函数,根据总损失函数,采用对抗学习方式对基础模型进行训练,训练完成后,得到语音合成模型; 在推理阶段: 将验证文本输入语音合成模型,将每个音素的预测时长作为增强文本嵌入的对齐基准进行对齐,并输入至先验编码器,以生成文本先验分布; 对文本先验分布进行采样,并输入解码器中,得到语音合成结果; 总损失函数存在如下关系式: ; 其中,分别表示重建损失、KL损失、时长损失、对抗训练损失、特征匹配损失以及多子带尺度损失;表示总损失函数; 其中,多子带尺度损失的计算过程存在如下关系式: ; 其中,表示尺度总数,表示第i个尺度的损失权重,表示第i个尺度的损失,第i个尺度的损失的计算过程存在如下关系式: ; 其中,分别表示第i个尺度中的频谱收敛损失、对数幅度谱L1损失、线性幅度谱L1损失、相位一致性损失以及复数频谱L2损失;表示对应的权重; 其中,频谱收敛损失的计算过程存在如下关系式: ; 其中,表示原始语音信号,表示重建语音信号的第i个尺度的复数频谱,表示原始语音信号的第i个尺度的复数频谱,表示Frobenius范数,表示数值稳定性常数; 对数幅度谱L1损失的计算过程存在如下关系式: ; 其中,表示第i个尺度的频率bin数量,表示第i个尺度的时间帧数,表示重建语音信号的第i个尺度下频率索引f和时间帧t处的幅度值,表示原始语音信号的第i个尺度下频率索引f和时间帧t处的幅度值; 线性幅度谱L1损失的计算过程存在如下关系式: ; 相位一致性损失的计算过程存在如下关系式: ; 其中,表示重建语音信号的第i个尺度的相位谱,表示原始语音信号的第i个尺度的相位谱; 复数频谱L2损失的计算过程存在如下关系式: ; 其中,表示重建语音信号的第i个尺度的复数频谱,表示原始语音信号的第i个尺度的复数频谱。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人豫章师范学院,其通讯地址为:330000 江西省南昌市梅岭大道1999号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励