北京中科智加科技有限公司陈玮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科智加科技有限公司申请的专利一种基于随机屏蔽训练的声纹识别方法及计算机设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115691510B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211193071.9,技术领域涉及:G10L17/04;该发明授权一种基于随机屏蔽训练的声纹识别方法及计算机设备是由陈玮;冯少辉;张建业设计研发完成,并于2022-09-28向国家知识产权局提交的专利申请。
本一种基于随机屏蔽训练的声纹识别方法及计算机设备在说明书摘要公布了:本发明涉及一种基于随机屏蔽训练的声纹识别方法及计算机设备,属于语音识别技术领域;其中的方法包括:通过预先训练的特征提取模型对多个用户语音进行注册,得到用户语音注册库;特征提取模型为采用随机屏蔽的方法构建有损语音特征向量并进行训练得到;获取待识别语音,通过特征提取模型对待识别语音进行特征提取,得到待识别语音的特征向量;将待识别语音的特征向量与用户语音注册库中的所有注册语音进行余弦相似度值计算;基于余弦相似度值确认得到待识别语音的所属用户。本发明解决了现有技术中的声纹识别方法对有损语音无法准确识别,鲁棒性差的问题。
本发明授权一种基于随机屏蔽训练的声纹识别方法及计算机设备在权利要求书中公布了:1.一种基于随机屏蔽训练的声纹识别方法,其特征在于,包括以下步骤: 通过预先训练的特征提取模型对多个用户语音进行注册,得到用户语音注册库;所述特征提取模型采用随机屏蔽的方法构建有损语音特征向量并进行训练得到,包括: 构建声纹识别训练数据集,所述声纹识别训练数据集中包括语音样本数据和表示语音数据所属人的标签; 利用随机屏蔽特征编码模型通过下述方法构建有损语音特征向量:对输入的语音样本数据进行特征提取,得到固定维度的语音特征向量;按照均匀分布对所述语音特征向量进行随机屏蔽,所述随机屏蔽的屏蔽率大于50%;记录被屏蔽的向量和剩余向量的位置,对剩余向量嵌入位置信息,得到随机屏蔽后的有损语音数据;对随机屏蔽后的所述有损语音数据进行语音帧间注意力计算,得到具有时序关系且包含上下文关系的有损语音特征向量; 对所述有损语音特征向量进行向量填充和位置信息嵌入,得到掩码填充后的特征向量;基于掩码填充后的特征向量对被随机屏蔽部分对应的语音特征向量进行预测,得到完整语音特征向量;对所述完整语音特征向量进行平均池化与softmax分类,得到所述完整语音特征向量对应的标签类别分布; 基于声纹识别训练数据集中的标签和分类器得到的标签通过损失函数进行迭代更新,得到训练好的随机屏蔽特征编码模型;基于训练好的所述随机屏蔽特征编码模型,关闭随机屏蔽功能后得到所述特征提取模型; 所述语音特征向量和有损语音特征向量表示为: S=fbnWfcnnX+b; 其中,S为固定维度的语音特征向量,H为有损语音特征向量,fcnn表示cnn特征提取器,W∈Rp*q,维度p向维度q空间映射,代表S经过随机屏蔽后剩余的部分,Pemb代表的位置信息,fbn代表归一化操作,ftransformer代表wav2vec2中的transformer编码器; 所述对所述有损语音特征向量进行向量填充和位置信息嵌入,包括:对被屏蔽的向量赋值为一个共享的学习向量或一个固定的非零向量;对被屏蔽的向量和剩余的向量嵌入相应的位置信息得到掩码填充后的特征向量; 获取待识别语音,通过所述特征提取模型对待识别语音进行特征提取,得到待识别语音的特征向量; 将待识别语音的所述特征向量与所述用户语音注册库中的所有注册语音进行余弦相似度值计算;基于所述余弦相似度值确认得到待识别语音的所属用户。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科智加科技有限公司,其通讯地址为:100083 北京市海淀区学院路51号10层1010、1011室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励