当前位置 : 首页 > 专利喜报 > 长春工业大学张秀梅获国家专利权

长春工业大学张秀梅获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉长春工业大学申请的专利一种基于深度强化学习的机器人路径规划方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120215511B 。

龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510681542.8，技术领域涉及：G05D1/43；该发明授权一种基于深度强化学习的机器人路径规划方法是由张秀梅;赵新元;李慧;车柏乐;王大楠设计研发完成，并于2025-05-26向国家知识产权局提交的专利申请。

本一种基于深度强化学习的机器人路径规划方法在说明书摘要公布了：本发明公开一种基于深度强化学习的机器人路径规划方法，涉及智慧农业，路径规划，机器人等领域。首先进行农场环境感知与定义机器人状态空间与动作空间，并设置多模态加权组合奖励机制与经验回放缓冲区。在传统DDPG算法中的Critic网络损失函数中引入可学习的权重系数，并在Actor网络的目标函数中加入熵正则化项，再通过自适应衰减贪心策略选择微分博弈生成控制策略或DDPG算法生成动作，最后执行动作或控制策略，更新网络参数与目标网络参数，并动态更新经验回放缓冲区。与其他路径规划方法相比，本方提高了路径规划对动态环境的适应性，在复杂的农业环境下，也具备良好的效率及安全性。

本发明授权一种基于深度强化学习的机器人路径规划方法在权利要求书中公布了：1.一种基于深度强化学习的机器人路径规划方法，其特征在于，包括如下步骤：步骤1：机器人R0在农场中通过激光雷达进行环境感知，根据感知信息定义当前状态，并定义动作空间；步骤2：设计多模态加权组合奖励机制，在此奖励机制的基础上通过双曲正切函数与障碍物密度函数进行动态权重的调整，并设置经验回放缓冲区；步骤2.1：奖励机制含三个子奖励项，分别为路径引导奖励rmotion，避障约束奖励rsafety和平稳约束奖励rstable，通过动态权重αt和β调整子奖励的优先级，综合奖励函数rtotal为： rtotal＝αt·rmotion+1-αt·rsafety+β·rstable，步骤2.2：路径引导奖励函数rmotion为：其中dT是机器人R0与目标点T的距离，A1是路径引导奖励函数的奖励最大值，A2是增长速率常数，dmax是起点至终点的预估最大距离；避障约束奖励函数rsafety为：其中dOi是机器人R0与障碍物Oi的距离，B1是碰撞约束奖励函数的奖励最大值，B2是增长速率常数；平稳约束奖励函数rstable为： rstable＝-C1|Δκ|+C2|az|，其中C1，C2为奖励权重系数，Δκ为曲率变化率，az为轴向加速度；动态权重自适应机制中权重αt与β的调整方法分别如下： β＝β0+χ·dobs，其中αmin是初始权重，αmax是最终权重，β是时间缩放系数，β0是基础时间系数，χ障碍物影响因子，dobs是农场环境中的障碍物密度函数，tanhβ·t是双曲正切函数；步骤2.3：设置经验回放缓冲区D，机器人根据当前状态st选择动作at，根据预设的奖励机制计算奖励Rt，进入下一个状态st+1，并将信息存储到经验回放缓冲区D；步骤3：初始化Actor-Critic网络，在Critic网络的损失函数中引入可学习的权重系数m，动态调整不同状态与动作对损失的贡献，在Actor网络的目标函数中加入熵正则化项，并初始化目标网络；步骤3.1：Critic网络的目标是学习Q值函数，即在给定当前状态st和动作at时，计算长期累计奖励，表达式为：其中Qst,at；θCritic是在状态st下执行动作at后的期望累计奖励，是平均期望值，Rt是在状态st下执行动作at后立即获得的奖励，γ为折扣因子，平衡即时奖励和累计奖励的权重，是在下一个状态st+1下执行动作at+1后的累计奖励，at+1是下一个状态下由Actor网络产生的动作，是在下一个状态所有动作中的最大Q值估计，θCritic是Critic网络参数，是Critic目标网络参数； Critic网络的损失函数LθCritic如下：其中m是可学习的权重系数，根据样本的重要性，动态调整当前状态下的损失对整体优化的贡献度，yt是目标Q值，通过最小化损失函数来优化Critic网络的参数，从而减小TD误差，表示对从经验回放缓冲区D中采样的状态s计算期望； Actor网络的目标是通过最大化Critic网络给出的Q值来优化策略，在目标函数中加入熵正则化，提高探索性，目标函数JActor为：其中是动作at的熵，α是正则化系数；步骤3.2：为判断在当前状态是选用微分博弈生成控制策略或选用深度确定性策略梯度算法进行产生动作，引入自适应衰减ε-贪心策略，表达式为： εcurrent＝maxεmin,εinitial·e-λ·gs，其中gs是状态s的环境复杂度函数，λ是衰减调节参数，εcurrent是当前状态的探索率，εmin是最小探索率，εinitial是初始探索率，εswitch是预设的策略切换阈值，μ是由均匀采样产生的随机数，argmaxQs,a是Q值最大的动作，DGa是微分博弈生成的控制策略；步骤4：若当前状态通过自适应衰减ε-贪心策略选择微分博弈进行动态避障，通过建立微分博弈模型，生成控制策略；步骤4.1：建立微分博弈模型，定义1号机器人是R0，定义2号机器人是R1；定义R0和R1控制策略分别为u0＝[v0,ω0]与u1＝[v1,ω1]；步骤4.2：设置R0的成本函数J0表示为：其中w1，w2，w3是权重参数，平衡成本函数不同项的重要性，w1d-1使两机器人尽量远离，w2‖u0‖2平衡能量消耗，使机器人R0靠近目标点，d是两机器人间的距离；设置机器人R1的成本函数J1表示为：其中w4，w5同样为权重参数，w4d-1使两者尽量远离，w5‖u1‖2控制能量消耗；步骤4.3：反馈纳什均衡确保机器人R0和机器人R1在微分博弈中互相优化策略，任何单方面的策略改变都不会使两者的成本函数更小，构造哈密顿量H0，H1：其中f0，f1是表示机器人的运动学方程，是机器人的共态变量；步骤4.4：将构造的哈密顿量对控制策略求导，令导函数为零，再通过求解哈密顿方程，求出反馈控制策略；步骤4.5：机器人R0与R1的控制策略通过梯度下降法进行更新：直至目标函数满足收敛条件，反馈纳什均衡收敛条件如下：其中为最终控制策略，η是更新参数；步骤5：机器人执行动作，获得奖励并进入下一个状态，将数据存储到经验回放缓冲区；计算目标Q值，再通过Actor网络生成下一个动作，并更新Actor-Critic网络与目标网络参数，反复循环直至机器人抵达目标点。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人长春工业大学，其通讯地址为：130012 吉林省长春市朝阳区延安大街长春工业大学南湖校区；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

长春工业大学张秀梅获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务