Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学严玺获国家专利权

电子科技大学严玺获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利融合拼音和字符信息的端到端非自回归中文语音识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116597815B

龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310465365.0,技术领域涉及:G10L15/02;该发明授权融合拼音和字符信息的端到端非自回归中文语音识别方法是由严玺;刘峤;谢炀;张志鹏;佟飘;代婷婷;甘洋镭;侯睿设计研发完成,并于2023-04-26向国家知识产权局提交的专利申请。

融合拼音和字符信息的端到端非自回归中文语音识别方法在说明书摘要公布了:本发明公开了一种融合拼音和字符信息的端到端非自回归中文语音识别方法,该方法同时学习拼音和字符信息,并将其应用于三个组件中,首先是基于wav2vec2的编码器模块,该模块将原始音频信号编码为语音特征向量;其次是一个基于注意力机制的帧‑字对齐模块,该模块将音频向量和预期输出文字对齐;最后是基于拼音音素预训练的BERT解码器模块,该模块将上一步得到的拼音和字符级特征向量融合输入BERT解码器中解码,输出文字。与现有技术相比,本发明从中文特点入手,引入拼音级别的特征向量,并使用基于大规模拼音音素预训练的BERT解码器,加强语音表征,有效提升了中文语音识别的准确率。

本发明授权融合拼音和字符信息的端到端非自回归中文语音识别方法在权利要求书中公布了:1.一种融合拼音和字符信息的端到端非自回归中文语音识别方法,其特征在于,该方法基于端到端非自回归的中文语音识别模型实现,该模型包括一个基于自监督的wav2vec2语音编码器、一个帧-字长度对齐模块、一个基于拼音音素预训练的BERT非自回归解码器,所述中文语音识别方法包括以下步骤: 步骤1:将原始语音信号作为输入,将其通过基于自监督的wav2vec2语音编码器得到编码后的音频向量Ha={h1,h2,h3,…,hT},其中hi表示第i个语音帧的特征向量表达,i=1,2,…,T,T代表语音帧的个数,每个音频向量的隐藏层维数为d; 步骤2:首先,使用CTC贪婪搜索算法预测目标文字的长度,对预测的长为L的目标文字进行位置编码,得到Hp=PositionalEncoding{x1,x2,x3,…,xL},其中PositionalEncoding.表示位置编码计算,Hp表示文字位置编码向量,xj代表第j个文字的位置编码,j=1,2,…,L,L表示文字的长度;然后,将得到的文字位置编码向量Hp和步骤1中编码得到的音频向量Ha通过帧-字长度对齐模块进行语音帧和字符的对齐操作,得到字级别的音频向量H={h′1,h′2,h′3,…,h′L},其中,h′j代表和输出文字对齐后的第j个音频特征表达; 步骤3:将上述得到的字级别音频向量H分别通过两个不同的全连接层处理:通过全连接层1,得到字符级别的特征嵌入向量Hchar;通过全连接层2,得到拼音级别的特征嵌入向量Hpinyin; 步骤4:将步骤3分别得到的Hchar和Hpinyin通过拼音-字符融合层即concat操作进行特征融合,得到同时融合字符和拼音信息的特征嵌入向量Hfusion; 步骤5:将Hfusion输入基于拼音音素预训练的BERT非自回归解码器中解码,利用BERT双向并行解码机制和已基于大量拼音和文字数据预训练好的模型参数,对融合了字符和拼音信息的特征嵌入向量Hfusion解码,输出预测文字,完成语音识别任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。