电子科技大学于永斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120708597B 。
龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511194361.9,技术领域涉及:G10L13/08;该发明授权一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法是由于永斌;刘羽童;冯箫;张子玥;王向向;仁增多杰;沈嘉润;丁佳恒;王颢梁;陈秉天;高凡;王靖雅;韩欣佚;郑智文;李臣波;班玛宝;头旦才让;范满平;洪涛;洛桑嘎登;仁青东主;群诺;尼玛扎西设计研发完成,并于2025-08-25向国家知识产权局提交的专利申请。
本一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法在说明书摘要公布了:本发明提出了一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法,属于藏语语言处理领域。该方法创新性地将方言ID嵌入条件变分自编码器框架,通过设计的Switchffn模块动态替换Transformer中的前馈网络,实现方言特征的自适应切换;同时融合改进的BigVGAN声码器,使生成的语音具备特定方言的声学特征。相比传统方法,本发明可在单一模型中实现三大方言的高质量语音生成,无需依赖严格对齐的平行语料数据,显著降低了多方言语音合成系统的开发成本和数据标注成本。该方法在低资源场景下能有效避免过拟合问题,生成的平行语料在自然度和方言特征保持度上均优于现有技术,为藏语多方言语音合成及语言资源保护提供了有效的技术解决方案。
本发明授权一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法在权利要求书中公布了:1.一种基于多方言文本转语音模型的藏语三大方言平行语料数据集生成方法,其特征在于,包括以下步骤: 步骤1:输入藏语方言id、参考音频和藏文文本,利用文本编码器进行融合,得到文本隐藏特征,将文本隐藏特征分割为先验隐藏特征分布的均值和方差的自然对数值; 步骤2:参考音频的梅尔谱图通过后验编码器得到隐藏特征; 步骤3:将隐藏特征映射到高斯分布空间中,得到后验隐藏特征;将后验隐藏特征、先验隐藏特征分布的均值和方差的自然对数值进行硬对齐估计,得到对齐矩阵; 步骤4:文本隐藏特征输入至时长预测器,得到预测持续时间,将其与对齐矩阵输入持续时间判别器中,通过对抗生成训练实现声音持续时间的预测; 步骤5:将藏语方言id、参考音频与隐藏特征进行融合,得到融合特征,将融合特征输入声码器中,输出生成的音频; 步骤6:通过损失函数训练优化,得到训练好的多方言文本转语音模型,用该模型合成藏语三大方言的平行语料数据集; 所述损失函数具体为: ; 其中,为总损失,为重构损失,通过计算标签音频和生成音频的梅尔谱图之间的L1距离得到;为后验分布与先验分布的重构损失,为时长预测器的损失,为声码器的最小二乘损失,其中G为声码器的生成器;为声码器的特征匹配损失; 所述后验分布与先验分布的重构损失的计算公式表示如下: ; 其中,z为隐藏特征,为标签音频的梅尔谱图,为文本条件,A为对齐矩阵,表示隐藏特征的后验分布,表示隐藏特征的先验分布; 所述时长预测器的损失的计算公式表示如下: ; 其中,d为读音特征在声学特征序列中的持续终止时间,表示对齐边界,分别对应读音特征在时间上的起始帧位置和终止帧位置,:表示读音特征的持续时间,为先验持续时间分布,为后验边界分布,为对后验分布下的期望; 最小二乘损失的计算公式表示如下: ; 其中为声码器的生成器,为声码器的判别器,为不同音频损失的平均值; 特征匹配损失的计算公式表示如下: ; 其中,T为判别器中的总层数,为输出具有特征数的判别器的第层的特征图,为不同音频特征匹配损失的平均值,为标签音频,z为隐藏特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励