中国科学院深圳先进技术研究院郭师峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院深圳先进技术研究院申请的专利一种自监督模型的舌部超声图像合成语音方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116403560B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310260321.4,技术领域涉及:G10L13/027;该发明授权一种自监督模型的舌部超声图像合成语音方法是由郭师峰;任伟民;李叶海;吴新宇;冯伟设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。
本一种自监督模型的舌部超声图像合成语音方法在说明书摘要公布了:本案涉及一种自监督模型的舌部超声图像合成语音方法,属于电子信息技术领域。本案旨在通过深度学习技术,直接通过超声成像方法找出人说话时舌头运动的特征,建立超声舌部图像与语音之间的映射关系,从而实现端到端的语音合成。该方法不易受环境影响,保密性较强。针对训练时的需要监督数据多,模型收敛难度大的问题,采用一种自监督的学习框架,它可以在训练阶段掩盖部分视频或音频的输入,并预测自动发现和迭代细化的多模态隐藏单元,增强模型的泛化能力,适当降低使用的训练数据,并让模型更容易收敛。
本发明授权一种自监督模型的舌部超声图像合成语音方法在权利要求书中公布了:1.一种自监督模型的舌部超声图像合成语音方法,其特征在于,所述方法如下: 通过获取舌部超声图像序列,利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征,并合成语音; 所述学生网络在训练时,结合教师网络训练,与教师网络构成自监督学习框架,采用掩码策略自动发现并预测无标签数据集中的有用信息; 其中:学生网络与教师网络均包括编码器、解码器、音频特征提取单元; 音频特征提取单元,用于分离舌部超声视频中的音频部分,将音频波形转换为梅尔频谱; 编码器使用3D‑CNN网络提取舌部图像的视觉特征; 解码器使用Transformer模块处理编码器输出的隐藏状态特征向量,所述隐藏状态特征向量用于推测梅尔频谱并合成语音; 学生网络还包括第一视听融合模块,位于学生网络中的Transformer模块之前; 教师网络还包括第二视听融合模块,位于教师网络中的Transformer模块之前; 第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据; 在训练时,输入第一视听融合模块的两种模态数据,经过随机掩码处理,并经第一视听融合模块进行选择性丢弃。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院深圳先进技术研究院,其通讯地址为:518055 广东省深圳市南山区深圳大学城学苑大道1068号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励