大连海事大学赵娜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连海事大学申请的专利一种结合深度强化学习的可重构轮式机器人越障控制方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121061865B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511306325.7,技术领域涉及:B25J9/16;该发明授权一种结合深度强化学习的可重构轮式机器人越障控制方法及系统是由赵娜;赵恺杰;何志鹏;孙崇萍;骆煜东;张程伟设计研发完成,并于2025-09-12向国家知识产权局提交的专利申请。
本一种结合深度强化学习的可重构轮式机器人越障控制方法及系统在说明书摘要公布了:本发明提供一种结合深度强化学习的可重构轮式机器人越障控制方法及系统,涉及机器人越障控制的技术领域,方法包括以下步骤:构建并初始化地面物理越障仿真环境;建立可重构轮式机器人的运动学模型和动力学模型;构建可重构机器人的状态空间和动作空间;引入多目标奖励函数;构建深度强化学习PPO算法的策略与价值网络架构;将所述优化策略模型加载并配置于所述仿真环境中的可重构轮式机器人的控制器中,实现对机器人的越障控制。本发明能够自适应复杂多变地形、具备强鲁棒性、实时决策能力强且能有效优化能量消耗的可重构轮式机器人地面越障控制方法。
本发明授权一种结合深度强化学习的可重构轮式机器人越障控制方法及系统在权利要求书中公布了:1.一种结合深度强化学习的可重构轮式机器人越障控制方法,其特征在于,包括以下步骤: 步骤1、构建并初始化地面物理越障仿真环境; 步骤2、建立可重构轮式机器人的运动学模型和动力学模型; 步骤3、构建可重构机器人的状态空间和动作空间; 步骤4、引入多目标奖励函数;所述多目标奖励函数包括:基于机械功耗的量化奖励、目标趋近引导奖励以及稀疏事件约束奖励;所述机械功耗的量化奖励包括:机器人移动能耗、折叠臂机构能耗以及可变径轮形态调整能耗;所述步骤4中,所述多目标奖励函数在每个时间步t的总奖励包括:稀疏奖励分量和稠密奖励分量; ; 其中,所述稀疏奖励分量定义为: ; 所述稠密奖励分量的总体结构为: ; 其中,稠密奖励分量的数值与计算出的机器人在越障过程中的总机械能耗成正比,即=-; 所述为: =+; 其中,表示折叠臂伸展能耗: =; 其中,表示折叠臂关节扭矩,表示折叠臂折叠角度变化量; 表示车轮驱动能耗: =; 其中,表示驱动关节扭矩,表示驱动关节角度变化量; 表示轮径变化能耗: =; 其中,表示伺服电机扭矩,表示完成变径轮形态切换所需转动的恒定角度值; 辅助与约束项集合包括多个子项通过其各自的权重加权求和: =+++; 其中,=表示目标趋近奖励,表示当前位置与目标点距离,3表示斜率调节参数;表示动作平滑度惩罚,用于抑制剧烈动作;=;表示当前时间步机器人执行的连续动作向量,包括基础移动动作及可重构部件动作;表示该动作向量的L2范数的平方,表示惩罚系数; 表示机体后仰姿态惩罚: =; 其中,表示机器人的实时俯仰角,表示预设的安全俯仰角阙值,表示惩罚系数; 表示折叠关节角度限位惩罚: =-0,; 和分别是所述折叠关节的最大和最小预设物理角度限位,表示惩罚系数;表示各惩罚项对应的权重系数,每个惩罚项在计算总奖励时均与其对应的权重相乘; 步骤5、构建深度强化学习PPO算法的策略与价值网络架构,并对其网络参数进行初始化,并通过与地面越障仿真环境进行课程学习驱动的交互式强化学习训练,获得优化策略模型; 步骤6、将所述优化策略模型加载并配置于所述仿真环境中的可重构轮式机器人的控制器中,实现对机器人的越障控制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连海事大学,其通讯地址为:116026 辽宁省大连市甘井子区凌水街道凌海路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励