山东大学李可获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利基于多智能体强化学习的智能抓取控制方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120056123B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510419585.9,技术领域涉及:B25J9/16;该发明授权基于多智能体强化学习的智能抓取控制方法及系统是由李可;王加帅;李光林;岳寿伟;陈永源;彭福来;侯莹设计研发完成,并于2025-04-03向国家知识产权局提交的专利申请。
本基于多智能体强化学习的智能抓取控制方法及系统在说明书摘要公布了:本发明提供了一种基于多智能体强化学习的智能抓取控制方法及系统,将仿人灵巧手的每根手指视为独立的智能体,基于各自的策略网络生成控制动作,形成多智能体系统;利用回放池机制存储多智能体系统中各智能体与环境交互过程中生成的经验数据,每个智能体回放池的采样优先级根据其任务目标、学习进度和任务重要性动态调整,回放池之间共享经验数据;采用阶段性奖励机制,通过个体奖励和全局奖励共同引导多智能体系统中各智能体在抓取任务不同阶段,分别优化位置、关节角度和接触力;利用多智能体深度确定性策略梯度算法进行训练,利用训练后的多智能体系统进行智能抓取控制。本发明显著提高抓取过程的精确性和稳定性。
本发明授权基于多智能体强化学习的智能抓取控制方法及系统在权利要求书中公布了:1.一种基于多智能体强化学习的智能抓取控制方法,其特征是,包括以下步骤: 将仿人灵巧手的每根手指视为独立的智能体,从全局状态中获取自身的局部状态信息,并基于各自的策略网络生成控制动作,形成多智能体系统; 利用回放池机制存储多智能体系统中各智能体与环境交互过程中生成的经验数据,每个智能体回放池的采样优先级根据其任务目标、学习进度和任务重要性动态调整,回放池之间共享经验数据; 采用阶段性奖励机制,通过个体奖励和全局奖励共同引导多智能体系统中各智能体在抓取任务不同阶段,分别优化位置、关节角度和接触力; 利用多智能体深度确定性策略梯度算法进行训练,利用训练后的多智能体系统进行智能抓取控制; 采用阶段性奖励机制,通过个体奖励和全局奖励共同引导多智能体系统中各智能体在抓取任务不同阶段,分别优化位置、关节角度和接触力的过程包括:所述阶段性奖励机制包含两个阶段,第一阶段为关节位置奖励和手指位置奖励阶段,第二阶段为接触力奖励阶段,在抓取过程中,智能体根据当前阶段的任务目标自动切换奖励计算方式,各阶段通过个体奖励和全局奖励共同引导; 所述个体奖励通过综合考虑关节角度、手指位置和接触力确定,以确保每个手指能够在抓取任务中表现出最优的行为,具体为: 其中,是第个手指的当前位置,是目标位置,是第个手指的关节角度,是关节的初始角度,是第个手指的接触力,是期望接触力,是相应的权重系数,用于控制不同因素的影响; 所述全局奖励是所有智能体的个体奖励的和,代表整个多智能体系统的任务完成情况,全局奖励用于反映所有手指协同完成任务的整体效果,全局奖励为: ; 其中,是第个手指的个体奖励,表示系统中的手指数量; 在第一阶段,手指未与物体接触时,奖励由手指位置和关节角度的差异决定,手指位置越接近目标位置,位置奖励越大;关节角度越大,关节奖励越大;在第二阶段,手指与物体接触时,奖励只由接触力决定,接触力越接近期望接触力,奖励越大;根据手指的接触力是否超过设定的阈值,确定奖励阶段,若手指的接触力小于等于设定的阈值,则处于第一阶段,否则处于第二阶段; 总体奖励考虑每个手指的任务完成情况和整个系统的抓取效果,并通过权重系数调整不同任务目标的优先级,具体为: ; 其中,是第个手指在时间步t的个体奖励,是权重系数,控制个体奖励和全局奖励在总体奖励中的贡献比例,在训练初期,个体奖励占据比重更大,随着训练的进行,逐步增加全局奖励的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250061 山东省济南市历下区经十路17923号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励