国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司李伊玲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司申请的专利一种模态失真语音识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120544547B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511046685.8,技术领域涉及:G10L15/06;该发明授权一种模态失真语音识别方法及系统是由李伊玲;林少娃;沈然;侯素颖;曹瑞峰;袁婷;叶盛;吴伟玲;郭烨烨设计研发完成,并于2025-07-29向国家知识产权局提交的专利申请。
本一种模态失真语音识别方法及系统在说明书摘要公布了:本发明公开了一种模态失真语音识别方法及系统。本发明通过簇权重提取网络计算视听特征的软分配,并结合聚类中心矩阵生成每层的提示向量;采用前缀提示策略或前置提示策略将提示向量插入到自注意力层中;在特征解码器中自回归生成输出序列,并计算其与真实标签之间的交叉熵损失;将每种任务的提示向量拆分为通用子空间表示和特定子空间表示,并对三种任务的特定子空间表示进行对比损失计算;加权融合交叉熵损失和对比损失,之后进行反向传播,联合更新所有提示向量和语言模型的参数。本发明在减少模态缺失提示与无失真提示差异的同时,增加了不同模态任务的提示之间的差异,从而改善了音频‑视频多模态语言模型在不同模态任务下的识别效果。
本发明授权一种模态失真语音识别方法及系统在权利要求书中公布了:1.一种模态失真语音识别方法,其特征在于,包括步骤: 1在音频-视频多模态语言模型中加载已预训练的音频编码器、视频编码器、音视频特征融合模块、特征编码器和特征解码器,并加载对齐参数; 2采用音频编码器和视频编码器对音频-视频多模态语言模型的输入同时进行音频和视频编码,并在音视频特征融合模块中融合得到时序特征,该时序特征再通过特征编码器编码后得到视听特征; 3通过簇权重提取网络计算视听特征的软分配,并结合聚类中心矩阵生成每层的提示向量; 4采用前缀提示策略或前置提示策略将提示向量插入到自注意力层中,再进行自注意力计算;在插入自注意力层之前初始化聚类中心矩阵、通用子空间表示及无失真任务、仅音频失真任务和仅视频失真任务下的特定子空间表示; 5在特征解码器中自回归生成输出序列,并计算其与真实标签之间的交叉熵损失; 6将每种任务的提示向量拆分为通用子空间表示和特定子空间表示,并对三种任务的特定子空间表示进行对比损失计算; 7加权融合交叉熵损失和对比损失,之后进行反向传播,联合更新所有提示向量和音频-视频多模态语言模型的其余参数; 8循环执行上述步骤,直至在验证集上性能收敛或达到预定训练轮数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司,其通讯地址为:311100 浙江省杭州市余杭区云联路138号5幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励