北京万讯博通科技发展有限公司王平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京万讯博通科技发展有限公司申请的专利基于多模态处理的自动语音工单生成系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120766676B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511033369.7,技术领域涉及:G10L15/22;该发明授权基于多模态处理的自动语音工单生成系统及方法是由王平设计研发完成,并于2025-07-25向国家知识产权局提交的专利申请。
本基于多模态处理的自动语音工单生成系统及方法在说明书摘要公布了:本申请提供了基于多模态处理的自动语音工单生成系统及方法,涉及语音工单生成技术领域,该系统包括:多模态输入层,用于采集语音数据、设备元数据和辅助模态数据;语音处理层,用于对语音数据进行音频预处理以提取音频特征信息,转写为文本信息;语义解析层,用于接收设备元数据和辅助模态数据,以及音频特征信息和转写文本信息,结合历史工单数据进行多模态领域自适应解析;工单输出层,用于接收结构化工单要素后,转换为标准化工单。通过本申请可以解决现有技术中由于人工干预依赖高且多模态数据处理割裂,导致语音识别准确性低,进一步影响工单生成效率的技术问题,通过实现语音数据到结构化工单的端到端自动化转换,提高了工单生成效率。
本发明授权基于多模态处理的自动语音工单生成系统及方法在权利要求书中公布了:1.基于多模态处理的自动语音工单生成系统,其特征在于,包括: 多模态输入层,用于采集语音数据、设备元数据和辅助模态数据; 语音处理层,用于对所述多模态输入层传递的语音数据进行音频预处理以提取音频特征信息后,将所述语音数据转写为转写文本信息; 语义解析层,用于在接收所述多模态输入层传递的设备元数据和辅助模态数据,所述语音处理层输入的音频特征信息和转写文本信息后,结合历史工单数据进行多模态领域自适应解析,输出结构化工单要素; 工单输出层,用于在接收所述语义解析层传递的所述结构化工单要素后,基于标准化工单模板将所述结构化工单要素转换为标准化工单,其中,所述标准化工单自动填充至运维工单系统; 其中,所述多模态输入层、语音处理层、语义解析层和工单输出层级联; 所述多模态输入层还用于: 通过预置的液晶屏输入接口接收所述辅助模态数据; 当所述语音数据为实时通话语音流时,通过软电话客户端监听RTP协议所述实时通话语音流捕获,其中,所述实时通话语音流存入环形缓冲区; 当所述语音数据为SIP电话录音文件时,通过SIP协议解析接口进行所述SIP电话录音文件导入; 在采集所述语音数据时,同步关联所述设备元数据; 所述语音处理层还用于: 当所述语音数据为实时通话语音流时: 步骤a:基于预设时间窗从所述环形缓冲区读取语音片段,并驱动FunASR引擎流式识别模块执行语音片段的语音转写,输出增量识别文本; 步骤b:调用电话场景适配模型对所述增量识别文本进行语音转写词错误修正,输出所述转写文本信息; 当所述语音数据为SIP电话录音文件时: 步骤c:通过异步队列调度机制,驱动FunASR引擎离线识别模块执行并行语音转写,得到初始转写文本; 步骤d:调用录音场景适配模型对所述初始转写文本进行语音转写词错误修正,输出所述转写文本信息; 从所述多模态输入层传递的语音数据中提取电话录音频段特征、口音变化特征、语速变化特征和环境噪声特征; 根据所述电话录音频段特征、口音变化特征和语速变化特征,对所述电话场景适配模型或录音场景适配模型的调参优化; 依据所述环境噪声特征,对所述语音数据协同执行谱减法降噪和深度学习降噪,输出所述音频特征信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京万讯博通科技发展有限公司,其通讯地址为:100095 北京市海淀区北清路81号一区4号楼4层402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励