Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国矿业大学邹亮获国家专利权

中国矿业大学邹亮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国矿业大学申请的专利一种语音语种类别的识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119479615B

龙图腾网通过国家知识产权局官网在2026-01-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411527944.4,技术领域涉及:G10L15/00;该发明授权一种语音语种类别的识别方法是由邹亮;赵天聚;雷萌;凌辉轩;赵荣焕;闫祖龙;张雨涛设计研发完成,并于2024-10-30向国家知识产权局提交的专利申请。

一种语音语种类别的识别方法在说明书摘要公布了:本发明涉及一种语音语种类别的识别方法,包括:提供目标语音音频,并将所述目标语音音频加载到预先构建的语种识别模型内,以利用所述语种识别模型对目标语音音频进行语种识别处理,其中,语种识别模型对目标语音音频进行语种识别处理时,至少包括依次执行的语音特征提取处理、语种嵌入提取处理以及识别分类处理,其中,执行语音特征提取处理后,基于目标语音音频生成对应的语音特征信息;执行语种嵌入提取处理后,基于语音特征信息生成对应的语种嵌入信息;执行识别分类处理后,将语种嵌入信息映射为表征目标语音音频对应语种的语种分类信息。本发明能对多语言语种的高效识别,提高了语种识别的准确性和识别效率。

本发明授权一种语音语种类别的识别方法在权利要求书中公布了:1.一种语音语种类别的识别方法,其特征是,所述识别方法包括: 提供目标语音音频,并将所述目标语音音频加载到预先构建的语种识别模型内,以利用所述语种识别模型对目标语音音频进行语种识别处理,其中, 语种识别模型对目标语音音频进行语种识别处理时,至少包括依次执行的语音特征提取处理、语种嵌入提取处理以及识别分类处理,其中, 执行语音特征提取处理后,基于目标语音音频生成对应的语音特征信息; 执行语种嵌入提取处理后,基于语音特征信息生成对应的语种嵌入信息; 执行识别分类处理后,将语种嵌入信息映射为表征目标语音音频对应语种的语种分类信息,其中,所述语种分类信息为构建语种识别模型时所利用基准语种集中的一个基准语种; 所述语种识别模型包括依次连接的语音特征提取模块、语种嵌入提取模块以及识别分类模块,其中, 对目标语音音频进行语种识别处理时,利用语音特征提取模块执行语音特征提取处理,并将生成语音特征信息加载到语种嵌入提取模块; 利用语种嵌入提取模块执行语种嵌入提取处理,并将生成对应语种嵌入信息加载到识别分类模块; 利用识别分类模块执行识别分类处理,并生成语种分类信息; 所述语音特征提取模块基于wav2vec2.0模型构建生成,语种嵌入提取模块基于x-vector模型构建生成; 构建语种识别模型时,构建方法包括: 基于wav2vec2.0模型构建生成语音特征提取模块; 生成语音特征提取模块后,构建语种识别基本模型,其中,构建语种识别基本模型时,将语音特征提取模块与语种嵌入提取基本模块连接,且语种嵌入提取基本模块与识别分类基本模块连接; 构建模型训练样本集,并利用模型训练样本集对语种识别基本模型进行模型训练,直至将语种识别基本模型训练达到目标训练状态,此后,将达到目标训练状态的语种识别基本模型配置作为语种识别模型,其中, 模型训练样本集包括若干模型训练样本,利用模型训练样本集对语种识别基本模型训练时,冻结语音特征提取模块的网络参数,并利用语音特征提取模块提取模型训练样本的语音特征信息,且将提取的语音特征信息加载到语种嵌入提取基本模块内,其中, 所述模型训练样本包括训练语音音频以及与所述训练语音音频对应的标签信息,所述标签信息为所述训练语音音频所对应的基准语种; 训练语音音频与目标语音音频具有相同的语音特征参数,所述语音特征参数包括语音声道、采样率和或位深度; 构建语音特征提取模块时,包括: 构建基于wav2vec2.0模型的语音分类模块,并对所述语音分类模块依次进行预训练以及微调训练,且在微调训练后,基于语音分类模块生成语音特征提取模块,其中, 对语音分类模块进行预训练时,构建预训练样本集,利用预训练样本集基于自监督学习的训练方式对语音分类模块进行预训练,并在预训练达到预训练目标状态时,生成语音分类预训练后模块,其中,所述预训练样本集包括若干预训练样本,所述预训练样本为无标签的语音音频; 基于语音分类预训练后模块可得到相应的权重,微调训练时,对权重进行初始化,并继续进行自监督学习,其中,微调训练阶段的目标是使语音分类预训练后模块更好地适应语种识别任务的数据分布; 微调训练时,构建微调训练样本集,并利用微调训练样本集对语音分类预训练后模块进行训练,将语音分类预训练后模块进行微调训练达到目标微调状态时,将达到目标微调状态的语音分类预训练后模块配置作为语音特征提取模块,其中, 所述微调训练样本集包括多个语种的微调训练样本,所述微调训练样本为无标签的语音音频; 对达到目标微调状态的语音分类预训练后模块,关闭所述语音分类预训练后模块内的mask和量化模块,以此配置作为语音特征提取模块,由此即使得语音特征提取模块仅用于特征提取; 所述语种嵌入提取模块包括依次连接的语种局部特征提取层、统计池化层以及语种级别特征提取层,其中, 通过语种局部特征提取层与语音特征提取模块连接; 通过语种级别特征提取层与识别分类模块连接; 通过语种局部特征提取层从语音特征信息的帧级别提取局部特征,捕捉语音的短时信息;统计池化层对整个语音段的局部特征进行全局聚合,计算帧级别特征的均值和标准差,从而生成一个全局语音嵌入;通过语种级别特征提取层将统计池化层生成的全局语音嵌入提取生成语种嵌入信息,并加载到识别分类模块; 对语音分类模块进行预训练时,采用的损失函数为: 其中,为预训练损失函数值,是基于当前预训练样本生成第个时间步的潜在表示特征,是基于第个时间步的潜在表示特征生成的上下文特征,是基于负样本集合内第j个负样本生成的上下文特征,是当前预训练样本的目标时间步集合,是当前预训练样本的负样本集合,为余弦相似度计算; 对语种识别基本模型进行模型训练时,采用的批损失函数为: 其中,为模型训练时的批损失函数值,为批大小,是第个模型训练样本的正确类别的预测概率,表示第i个模型训练样本与同一批次内其他模型训练样本的最远正样本距离,表示第i个模型训练样本与同一批次内其他模型训练样本的最近负样本距离,是距离边界阈值。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国矿业大学,其通讯地址为:221116 江苏省徐州市铜山区大学路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。