Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京中科深智科技有限公司梁晨阳获国家专利权

北京中科深智科技有限公司梁晨阳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京中科深智科技有限公司申请的专利一种面向语音合成的自动化语音数据校验方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116524899B

龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310546553.6,技术领域涉及:G10L13/08;该发明授权一种面向语音合成的自动化语音数据校验方法是由梁晨阳设计研发完成,并于2023-05-15向国家知识产权局提交的专利申请。

一种面向语音合成的自动化语音数据校验方法在说明书摘要公布了:一种面向语音合成的自动化语音数据校验方法,包括如下步骤:步骤一:由专业的声优在专业的录音棚录制音频语料;步骤二:声优录制好一段完整的音频后,开始对音频剪辑处理;步骤三:对整段录制的音频进行裁剪后,对各个短音频进行自动语音识别,获得每个音频文件对应的文本;步骤四:对获得的台词音频数据和对应的台词文本进行多字少字校验并处理;步骤五:获得的台词音频数据和对应的台词文本进行错别字检查并修正,以保证训练数据和标签没有错误和异常值。本发明利用深度学习技术,以及针对语音合成数据处理流程特点,结合自然语言处理和信号处理方法,实现自动化地对语音合成数据进行校验和清洗,以提高语音合成数据处理的效率和准确性。

本发明授权一种面向语音合成的自动化语音数据校验方法在权利要求书中公布了:1.一种面向语音合成的自动化语音数据校验方法,其特征在于:包括如下步骤: 1-1:由专业的声优在专业的录音棚录制音频语料; 1-2:声优录制好一段完整的音频后,开始对音频剪辑处理,获得训练音频数据; 1-3:对整段录制的音频进行裁剪后,我们得到若干条的短音频文件,对各个短音频进行自动语音识别,获得每个音频文件对应的文本,然后根据台词顺序对台词文本进行音频召回处理,得到了若干条音频数据; 1-4:对获得的台词音频数据和对应的台词文本进行多字少字校验并处理,以保证训练数据和标签没有错误和异常值; 1-5:对获得的台词音频数据和对应的台词文本进行错别字检查并修正,以保证训练数据和标签没有错误和异常值; 所述的1-3中根据台词顺序对台词文本进行音频召回处理的集体操作包括如下步骤: 1-3-1:为了合并因语气停顿被分割开的音频,首先对每个音频文件做静音检测,如果音频文件最后一帧非静音帧,说明该处截取是因为语气停顿,对该音频文件做标记以待处理; 1-3-2:首先按台词文本顺序取两条待召回台词文本text_a和文本text_b,文本text_a为当前需要召回的音频文本,文本text_b为下一个需要召回的音频文本; 1-3-3:那么先判断wav_b中是否包含‘重来’,如果是就回到1-3-2步重新开始,否则进入1-3-4; 1-3-4:按顺序取两条音频的语音识别文本wav_a和wav_b,分别用wav_a和wav_b与text_a和text_b,做相似距离计算,相似距离计算公式如下: Match_ab=EDwav_a,text_b–|lenwav_a-lentext_b| 其中,EDwav_a,text_b表示wav_a和text_b的编辑距离,|lenwav_a-lentext_b|表示wav_a和text_b文本长度差的绝对值; 1-3-5:如果音频a属于1-3-1中因语气停顿而被剪辑的音频,判断Match_a+bb是否大于Match_ab,若Match_a+bb大于Match_ab,把音频a中静音帧以后的有声帧裁剪掉,然后合并音频a和音频b为新的音频a,同时合并文本,再按顺序选取下一条音频为音频b,回到1-3-3开始,若Match_a+bb不大于Match_ab,把音频a中静音帧以后的有声帧裁剪掉,进入1-3-6; 1-3-6:判断Match_aa和Match_ba大小,若Match_aa小于Match_ba,那么把音频b变为音频a,再按顺序选取下一条音频为音频b,回到1-3-3开始;否则,比较Match_ba和Match_bb大小,若Match_ba小于Match_bb且Match_bb大于12lenwav_b,则音频a为文本a对应的音频,继续把音频b和文本b改为音频a和文本a,再按顺序选取下一条音频为音频b和文本b,回到1-3-3开始,否则直接再按顺序选取下一条音频为音频b和文本b,回到1-3-3开始; 1-3-7:循环直到召回所有台词音频。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科深智科技有限公司,其通讯地址为:100000 北京市大兴区永昌中路4号院4号楼3层311A室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。