东南大学;鹏城实验室程光冉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东南大学;鹏城实验室申请的专利人群感知机器人的多目标强化学习导航方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116384477B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310185203.1,技术领域涉及:G06N3/092;该发明授权人群感知机器人的多目标强化学习导航方法是由程光冉;孙长银;王远大;蔡文哲;穆朝絮设计研发完成,并于2023-03-01向国家知识产权局提交的专利申请。
本人群感知机器人的多目标强化学习导航方法在说明书摘要公布了:本发明公开人群感知机器人的多目标强化学习导航方法。首先,初始化多目标强化学习参数。然后,采集得到当前环境下智能体的状态信息,并对数据进行相应的预处理。其次,将处理好的智能体的状态信息送入到价值网络输出智能体的决策动作,根据不同的目标奖励函数计算累计奖励对智能体进行评价,利用多目标强化学习算法进行价值网络参数更新。最后,判断是否到达最大训练次数,通过不断地试错学习得到良好的导航表现。本发明提出一种端到端的机器人导航框架,实现针对动态权重下多个目标间的权衡,提高了机器人在密集人群场所中的导航性能表现。
本发明授权人群感知机器人的多目标强化学习导航方法在权利要求书中公布了:1.一种人群感知机器人的多目标强化学习导航方法,其特征在于,该方法包含以下步骤: 1初始化多目标强化学习参数; 2采集得到当前环境下智能体的状态信息,并对数据进行相应的预处理; 3将处理好的智能体的状态信息送入到价值网络输出智能体的决策动作,根据不同的目标奖励函数计算累计奖励对智能体进行评价,利用多目标强化学习算法进行价值网络参数更新; 4判断是否到达最大训练次数,如果没有返回到步骤2; 步骤1中多目标强化学习的初始化参数为:价值评价网络Q和价值目标网络Q',经验回放池Dτ和权重采样分布Dω; 步骤2中智能体的状态信息和数据预处理的方法: 21智能体的状态信息包括空间信息、时间信息和与目标位置有关的信息,其中,智能体的空间信息通过密集的雷达光束测得,从0到2π之间共有200个分量表示为智能体的时间信息通过相邻两次雷达采集的空间信息相减获得,表示为sz=[s'o-so];对于路径规划方法,智能体与目标位置有关的信息表示为sg=[dx,dy],即为智能体与目标位置的距离向量;对于轨迹跟踪方法,智能体与目标位置有关的信息表示为de为机器人相对指导轨迹的偏离距离,为机器人相对指导轨迹的偏离距离的导数,为机器人航向角与指导轨迹的角度差,为机器人航向角与指导轨迹的角度差的导数,va为机器人的有效航速,vc为机器人的垂直航速,dg为机器人与目标位置的欧氏距离; 22对数据进行归一化的预处理方法,将所有的状态信息数据转换到[0,1]的取值范围内,即 步骤3中,通过价值网络输出机器人的决策动作以及奖励函数的设计以及多目标强化学习的更新方式如下: 31通过价值网络输出机器人的决策动作表示为: 其中,ω为针对不同目标的动态权重,上标T表示ω的转置,对于路径规划方法表示为ωpp,对于轨迹跟踪方法表示为ωpt,Q为强化学习方法的价值网络,s为智能体当前的状态信息,a为智能体当前的决策动作; 32对于路径规划方法,为了满足躲避障碍和到达终点两个目标,路径规划方法的奖励函数rpp被分为三个部分:行人碰撞惩罚rp、静态障碍碰撞惩罚rs和完成奖励rg,即ωpp为路径规划方法中针对不同目标的动态权重,行人碰撞惩罚被表示为距离行人越近惩罚越大,具体为: 其中,和为负常数,dp为机器人与最邻近行人的距离,行人碰撞惩罚只有当机器人与行人的距离在dp,min和dp,max内才会被考虑,dp,min和dp,max为设定的常数; 静态碰撞惩罚表示为当机器人与静态障碍物的距离小于ds,min时,认为其发生碰撞,此时静态碰撞惩罚为: 其中,为负常数,ds为机器人与最邻近静态障碍物的距离,ds,min为考虑静态碰撞惩罚的距离阈值; 完成奖励被表示为距离目标位置越近奖励越大,具体为: 其中,为正常数,和为负常数,dg为机器人与目标位置的欧氏距离,Δdg为相邻两次检测与目标位置的欧氏距离的差值,dg,r为考虑机器人到达目标位置的阈值; 33对于轨迹跟踪方法,为了满足躲避障碍和轨迹跟随两个目标,轨迹跟踪方法的奖励函数rpt被分为三个部分:行人碰撞惩罚rp、静态障碍碰撞惩罚rs和轨迹偏离惩罚rf,即ωpt为轨迹跟踪方法中针对不同目标的动态权重,其中行人碰撞惩罚和静态障碍碰撞惩罚与路径规划方法中的相同;轨迹偏离惩罚被表示为距离指导轨迹越远惩罚越大,具体为: 其中和为负常数,de,r为允许机器人偏离指导轨迹的最大距离; 34所述多目标强化学习方法用于参数更新的损失函数L为: 其中,K为用于更新的经验样本数,sj为样本j中机器人的状态信息,aj为样本中机器人的决策动作,yj为样本j中Q网络的目标更新值,yj的计算方式为: 其中,γ为折扣因子,对于路径规划方法,rj=rpp,对于轨迹跟踪方法,rj=rpt。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学;鹏城实验室,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励