浪潮云信息技术股份公司张栋梁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮云信息技术股份公司申请的专利基于多模态融合的操作意图识别方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120873982B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511368523.6,技术领域涉及:G10L15/18;该发明授权基于多模态融合的操作意图识别方法、系统、设备及介质是由张栋梁;王文强设计研发完成,并于2025-09-24向国家知识产权局提交的专利申请。
本基于多模态融合的操作意图识别方法、系统、设备及介质在说明书摘要公布了:本发明涉及数据处理技术领域,具体提供一种基于多模态融合的操作意图识别方法、系统、设备及介质,包括:同步采集用户的至少两种模态的交互数据,所述模态包括手势、语音和眼神注视中的至少两种;对所述交互数据进行对齐处理,包括时间同步和空间映射至统一坐标系;分别从对齐后的各模态数据中识别出结构化语义信息,包括手势类型、语音文本和注视点坐标;基于预设的语义规则和上下文记忆,对所述结构化语义信息进行语义关联与指代消解,得到操作意图。本发明有效克服了单模态交互不自然、易歧义及容错性差的固有缺陷。
本发明授权基于多模态融合的操作意图识别方法、系统、设备及介质在权利要求书中公布了:1.一种基于多模态融合的操作意图识别方法,其特征在于,包括: 同步采集用户的至少两种模态的交互数据,所述模态包括手势、语音和眼神注视中的至少两种; 对所述交互数据进行对齐处理,包括时间同步和空间映射至统一坐标系; 分别从对齐后的各模态数据中识别出结构化语义信息,包括手势类型、语音文本和注视点坐标; 基于预设的语义规则和上下文记忆,对所述结构化语义信息进行语义关联与指代消解,得到操作意图; 对所述结构化语义信息进行语义关联与指代消解,包括: 当语音语义信息中包含指代词时,检索同一时间窗口内的手势语义信息与视线语义信息;计算视线注视点与场景中物体的空间距离,以及手势指向向量与场景中物体的空间关系,以基于空间距离和空间关系确定视线指向的物体和手势指向的物体;确认视线指向的物体和手势指向的物体为同一物体,则将所述指代词与由视线和手势共同指向的同一物体进行绑定; 当视线指向的物体与手势指向的物体不是同一物体时,启动冲突消解过程;所述冲突消解过程基于手势、视线各模态识别结果的置信度进行加权投票,或基于概率图模型计算各目标假设的后验概率;选择置信度加权得分最高或后验概率最大的目标作为最终指代对象; 所述方法还包括: 实时监测各模态数据的健康状态,所述健康状态至少包括置信度是否低于预设阈值或数据是否缺失; 根据模态失效的组合情况,调用预定义的降级策略调整语义融合的规则或权重; 所述降级策略包括以下至少一种: 当语音模态失效时,提升手势与视线模态在融合中的权重,并请求用户通过手势确认动作; 当手势模态失效时,强化基于语音和视线模态的指代消解,并请求用户通过语音描述动作; 当视线模态失效时,忽略基于空间指代的融合规则,并向用户提供候选目标列表进行选择; 所述上下文记忆包括短期记忆模块与长期记忆模块;所述短期记忆模块用于存储近期交互记录,以在指代消解过程中回溯查询最近提及的实体对象;所述长期记忆模块为基于知识图谱的存储器,用于存储场景物体的属性及关系,以在语义关联过程中验证动作与对象之间的合理性; 所述指代消解过程还包括: 当所述结构化语义信息中存在指代词时,优先查询所述短期记忆模块中最近提及的实体对象进行匹配; 查询所述长期记忆模块,基于动作与对象之间的合理性对指代消解的结果进行验证与优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮云信息技术股份公司,其通讯地址为:250101 山东省济南市高新区浪潮路1036号浪潮科技园T03号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励