北京中科智加科技有限公司陈玮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科智加科技有限公司申请的专利一种文本顺滑的语音识别方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114708868B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210262971.8,技术领域涉及:G10L15/26;该发明授权一种文本顺滑的语音识别方法、系统及存储介质是由陈玮;冯少辉;张建业设计研发完成,并于2022-03-17向国家知识产权局提交的专利申请。
本一种文本顺滑的语音识别方法、系统及存储介质在说明书摘要公布了:本发明涉及一种文本顺滑的语音识别方法、系统及存储介质,属于语音识别技术领域;解决了语音识别后输出的口语转写文本阅读性不强和忠诚度不高的问题;本发明的文本顺滑的语音识别方法包括:获取待识别语音;将待识别语音转换为待顺滑文本;将转换得到的待顺滑文本利用文本顺滑模型得到识别后的顺滑文本;其中,文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本;不顺滑有序标签通过不顺滑标签预测任务采用CRF方法预测得到;顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到;本发明的语音识别方法解决了现有语音识别技术中识别结果不够准确,可读性不强,难以满足复杂场景的需求的问题。
本发明授权一种文本顺滑的语音识别方法、系统及存储介质在权利要求书中公布了:1.一种文本顺滑的语音识别方法,其特征在于,包括以下步骤: 获取待识别语音; 将所述待识别语音转换为待顺滑文本; 将转换得到的所述待顺滑文本利用文本顺滑模型得到识别后的顺滑文本;其中,所述文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前所述不顺滑文本对应的顺滑文本;所述不顺滑有序标签通过不顺滑标签预测任务采用CRF方法预测得到;所述顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到; 所述文本顺滑模型使用T5-base的预训练模型作为初始模型进行模型训练得到,包括输入层、编码器-解码器层和输出层;所述文本顺滑模型的原始文本词表使用T5-base开源预训练模型的词表,并在该词表最后追加特殊词rm作为目标文本的词表,所述特殊词rm用于填充目标序列中不顺滑的空缺位;所述输入层使用E′V+1×D替代EV×D表示词嵌入特征,其中V、D分别为不顺滑文本的词表大小和词嵌入的特征维度; 所述模型训练包括:通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充,得到扩充后的训练样本集合;所述构造包含伪标签的不顺滑语料对,包括:构造只包含“Filter”类别的语料对、构造只包含“Restart”类别的语料对和构造同时包含“Filter”和“Restart”类别的语料对;构造包含伪标签的不顺滑语料对的方法还包括:根据SWBD数据集,统计口语语气词词频表,选取概率大于0.7的语气词,随机插入原语句中某个分词后的位置;利用训练样本中的翻译语料,将原始语句分词,随机选取分词后的词组进行重复,插入选择重复的词后面; 利用所述训练样本集合对所述初始模型进行训练,并使用损失函数进行梯度更新,得到所述文本顺滑模型;所述模型训练过程中,引入Coverage机制,包括:所述解码器在注意力计算过程中,将当前时间步之前的注意力分数求和,得到覆盖特征向量ct;将ct作为计算注意力的输入;所述解码器采用下述公式计算带覆盖机制的注意力分布: 其中,v、Wh、Ws、wc、b为可学习的参数;为覆盖特征向量,hi为编码器隐状态,st为解码器状态; 所述模型训练过程中,还引入Copy机制,将解码器每步生成的单词概率分布与拷贝原文的单词概率看做一个混合模型,利用注意力得分作为拷贝单词的概率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科智加科技有限公司,其通讯地址为:100083 北京市海淀区学院路51号10层1010、1011室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。