北京海天瑞声科技股份有限公司王冠博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京海天瑞声科技股份有限公司申请的专利合成数据驱动的副语言标注方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121122249B 。
龙图腾网通过国家知识产权局官网在2026-04-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511668328.5,技术领域涉及:G10L15/06;该发明授权合成数据驱动的副语言标注方法、装置、设备及存储介质是由王冠博;黄宇凯;李科;邵志明;贺琳;崔向宇;杨福星设计研发完成,并于2025-11-14向国家知识产权局提交的专利申请。
本合成数据驱动的副语言标注方法、装置、设备及存储介质在说明书摘要公布了:本公开涉及语音识别技术领域,具体提供一种合成数据驱动的副语言标注方法、装置、设备及存储介质。合成数据驱动的副语言标注方法包括:获取待标注副语言的语言信息;通过预设的副语言标注模型识别语言信息,得到目标文本,目标文本含有副语言标注,副语言标注模型是通过语音识别模型架构所输出的输出文本和样本对所包括的标签数据对语音识别模型架构进行调整得到,输出文本是通过融合语音特征向量和语义特征向量,并将得到的融合向量转换为文本得到,语音特征向量和语义特征向量是通过对样本对中所包括的语音和文本分别进行特征提取,并将得到的语音特征和语义特征转换为向量得到。通过本公开可以准确标注语音中的副语言。
本发明授权合成数据驱动的副语言标注方法、装置、设备及存储介质在权利要求书中公布了:1.一种合成数据驱动的副语言标注方法,其特征在于,所述方法包括: 获取待标注副语言的语言信息,所述语言信息包括文本和或语音; 通过预设的副语言标注模型识别所述语言信息,得到目标文本,所述目标文本含有副语言标注,所述副语言标注模型是通过语音识别模型架构所输出的输出文本和样本对所包括的标签数据对所述语音识别模型架构进行调整得到,所述输出文本是通过解码器的交叉注意力层融合语音特征向量和语义特征向量,并将得到的融合向量转换为文本得到,所述语音特征向量是通过编码器提取样本对中语音的语音特征,并将所述语音特征转换为语音特征向量得到,所述语义特征向量是通过解码器提取提示文本的语义特征,并将所述语义特征转换为语义特征向量得到,所述提示文本为所述样本对所包括的文本去除副语言得到; 所述样本对采用如下至少一种方式确定:基于生成模型生成文本,并生成语音,将所述文本和所述语音组合为样本对;在语音中嵌入副语言语音流得到合成语音,并在文本中嵌入副语言文本得到合成文本,将所述合成语音和所述合成文本组合为样本对;标注语音中的副语言语音流得到标注语音,并将所述标注语音转换为标注文本,将所述标注语音和所述标注文本组合为样本对; 其中,所述生成模型基于文本和副语言文本组合成的样本训练得到;所述合成文本是通过在语音中嵌入副语言语音流得到合成语音,并在文本中嵌入副语言文本得到的;所述标注语音基于预设的副语言语音标注模型标注语音中的副语言语音流得到,所述副语言语音标注模型是通过语音和副语言标注组合成的样本对对标注模型进行训练得到的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京海天瑞声科技股份有限公司,其通讯地址为:100083 北京市海淀区知春路68号院1号楼4层401;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励