西安理工大学黑新宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学申请的专利基于特征差异集成的非自回归语音识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119811373B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411967406.7,技术领域涉及:G10L15/06;该发明授权基于特征差异集成的非自回归语音识别方法是由黑新宏;黄迁华;姬文江;邱原;王一川;朱磊;郭铨霖设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本基于特征差异集成的非自回归语音识别方法在说明书摘要公布了:本发明公开了基于特征差异集成的非自回归语音识别方法,包括:步骤1,收集音频数据转为wav格式并标注,划分为训练集、验证集和测试集;步骤2,对数据集中音频文件进行预处理操作;步骤3,统计训练集中的文本数据,通过统计词频、排序、去重后形成token列表;步骤4,构建语音识别模型FDI;步骤5,使用训练集对步骤4构建的FDI模型进行训练,使用验证集评估模型的性能变化,得到语音识别模型;步骤6,使用测试集评估模型的性能。本发明更直观的从音频数据中学习音频和文字的对齐,并减少了环境噪音、停顿等情况下对语音识别的影响。
本发明授权基于特征差异集成的非自回归语音识别方法在权利要求书中公布了:1.基于特征差异集成的非自回归语音识别方法,其特征在于,具体按照以下步骤实施: 步骤1,收集音频数据转换为wav格式文件类型并进行标注,得到数据集,将数据集划分为训练集、验证集和测试集; 步骤2,预处理数据集中的音频文件; 步骤3,统计训练数据集中的文本数据; 步骤4,构建语音识别模型FDI; 步骤5,使用训练集对步骤4构建的语音识别模型FDI进行训练,得到语音识别模型,使用验证集评估模型训练过程中的性能变化; 步骤6,将测试集输入到训练好的语音识别模型FDI中,测试语音识别模型的性能; 在所述步骤4中,构建的语音识别模型FDI包括依次连接的编码器层、FDI层、解码器层和损失层; 在所述步骤5中,将步骤2中预处理后的音频数据和对应的标签数据输入到语音识别模型FDI中进行训练,具体训练过程如下: 步骤5.1,首先对音频数据提取80维的FBank频谱特征,并对频谱特征在时间和频率上进行增强; 步骤5.2,将步骤5.1中增强后得到的音频数据输入到编码器层中,编码器层是基于注意力机制的Conformer,首先进行4倍下采样,然后进入多个Conformer块,每个Conformer块包含了两个半步前馈层、一个多头注意力和一个卷积层,数据在Conformer块中的流程如下: 其中:为下采样后的声学特征,FFN为前馈层,MHSA为多头注意力机制,CNN为卷积层,Layernorm为层归一化; 步骤5.3,将经过编码器的编码结果输入到FDI层中进行对齐,特征在FDI层中首先会对比前后相邻的特征之间的差异,将特征的差异转化为一个具体数值,经过ReLu激活函数得到当前特征的变化量,变化量为0-1之间,根据变化量变化趋势判定当前语音前后边界并进行加权聚合,聚合的特征视为一个字符,之后继续聚合下一个字符; 步骤5.4,将步骤5.3的聚合结果输入到解码器层进行特征的最后编码,解码器层使用了Transformer的编码器层,对经过FDI层聚合后的特征建立上下文关联;首先会对特征进行位置编码,之后会进入到多个编码器块中进行特征编码,每个编码器块包含了两个层归一化,一个多头注意力和一个前馈层,具体流程如下: 其中x为经过FDI层聚合后的特征,Pos表示位置编码; 步骤5.5,将步骤5.4的结果输入到损失层计算损失函数,损失层由一个线性层和CTC损失函数构成,首先会将每个特征映射成token列表长度一致特征维度,通过CTC损失函数计算预测结果和真实标签的损失,使用Adam优化器进行优化,优化器的学习率为0.001,在迭代结束后,得到的最终模型即为已经训练好的语音识别模型FDI。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励