东南大学孟凡满获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学申请的专利一种提升合成音频自然度以及降噪的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119785762B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510003560.0,技术领域涉及:G10L13/027;该发明授权一种提升合成音频自然度以及降噪的方法是由孟凡满;伍家松;杨淳沨;孔佑勇;董志芳;陈阳;舒华忠设计研发完成,并于2025-01-02向国家知识产权局提交的专利申请。
本一种提升合成音频自然度以及降噪的方法在说明书摘要公布了:本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。
本发明授权一种提升合成音频自然度以及降噪的方法在权利要求书中公布了:1.一种提升合成音频自然度以及降噪的方法,其特征在于,包括以下步骤: 步骤1,构建音素编码器, 步骤2,构建方差适配器, 步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪; 其中,步骤1,构建音素编码器,具体如下: 1.1,构建基于Transformer的双向编码器模型并在大规模的英文维基百科数据集上进行训练,得到训练好的模型,用符号b来表示,具体训练过程包括数据预处理、模型架构、训练参数设置和损失函数的使用,在数据预处理阶段,编写了爬虫脚本,全自动化下载维基百科的XMLdump,从而获取大规模英文维基百科的数据集,随后,对文本进行清洗,编写自动化脚本,实现批处理,一次性去除标记、链接、特殊字符,确保数据干净,使用WordPiece分词器将文本切分为子词单元,使用掩码语言模型任务来生成训练样本,在模型架构方面,采用多个堆叠的编码器层,每个编码器层包括自注意力机制和前馈神经网络,在训练参数上,初始学习率设置为3e-5,批大小设置为64,在损失函数上,使用交叉熵损失函数来优化模型,最大化掩码单词的预测概率; 1.2,加载这个基于Transformer的双向编码器模型,对文本进行tokenize,即加载训练好的基于Transformer的双向编码器模型和tokenizer,用符号A来表示文本,用符号b来表示模型,用符号∞来表示此操作后的输出,上述过程用如下公式表示为:∞=bA; 1.3,将输入的长句子进行切分,用μ来表示输入的长句子,用∪来表示对句子进行切分,用θ来表示最终得到的可以被Transformer的双向编码器理解的token格式,最终用公式表示如下:θ=∪μ; 1.4,通过基于Transformer的双向编码器模型的前向传播,该过程用符号记为:∝,输入的单词记为:ω,通过如下公式:ρ=∝ω,完成前向传播,最后,从模型的最后一个隐藏层:H,通过如下公式提取嵌入:∈=Hρ; 1.5,对1.1-1.4进行通用的表达总结,用α来表示原始输入,用Encb来表示基于Transformer的双向编码器模型的编码,经过1.1-1.4之后得到的输出为:β=Encbα; 1.6,加载具有选择性状态空间的线性时间序列模型,定义具有选择性状态空间的线性时间序列模型,该模型利用选择性状态空间模型来有效处理序列数据; 1.7,用具有选择性状态空间的线性时间序列层,用符号表示,去替换每个Transformer编码器块,提出移除Transformer中的多头注意力和前馈子层,保留层规范化和残差连接,其余部分用堆叠而成,有效地保障模型的稳定以及训练期间符合预期的梯度流; 1.8,调整前向传播,在编码器的前向传递过程中,按顺序将输入序列传递到每个具有选择性状态空间的线性时间序列层:对于每个具有选择性状态空间的线性时间序列层,根据相关序列信息的选择性状态空间变换计算输出; 1.9,用来表示具有选择性状态空间的线性时间序列建模,对1.5中得到的输出β进行编码,经过1.6-1.8以后,最终可得到:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211102 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。