Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京航空航天大学吴巧云获国家专利权

南京航空航天大学吴巧云获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京航空航天大学申请的专利基于脉冲混合强化学习的移动机器人避障运动规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120406474B

龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510926612.1,技术领域涉及:G05D1/43;该发明授权基于脉冲混合强化学习的移动机器人避障运动规划方法是由吴巧云;易程;汪俊;李祥雨;王为周设计研发完成,并于2025-07-07向国家知识产权局提交的专利申请。

基于脉冲混合强化学习的移动机器人避障运动规划方法在说明书摘要公布了:本发明涉及移动机器人避障运动规划技术领域,解决了移动机器人在灵活避障运动规划过程中面临能耗过高,以及自主导航能力和避障性能存在不足的技术问题,尤其涉及一种基于脉冲混合强化学习的移动机器人避障运动规划方法,通过将脉冲神经网络的低能耗特性与强化学习的灵活决策机制相结合,使移动机器人能够在复杂环境中自主生成最优路径,同时有效降低计算成本和能量浪费。本发明能够有效提升移动机器人在动态环境中的避障性能,使其在复杂多变的环境中实现安全、高效的自主导航,使移动机器人在降低能耗的同时,仍能保持优异的性能表现,从而推动智能装备在智能制造领域的广泛应用和实用化进程。

本发明授权基于脉冲混合强化学习的移动机器人避障运动规划方法在权利要求书中公布了:1.一种基于脉冲混合强化学习的移动机器人避障运动规划方法,其特征在于,该方法包括以下步骤: S1、移动机器人在任一次环境交互中,从传感器获取每一步场景中包括观测值以及动作空间的观测信息; S2、建立以观测信息作为输入,强化移动机器人在动态环境中对环境信息的感知,并输出移动机器人在动态环境中规避障碍物所需执行动作指令的混合脉冲强化学习模型;所述混合脉冲强化学习模型包括: 一个群体编码的编码模块,用以将观测信息映射为多通道神经元的活动激活值,并生成固定时间步长的脉冲序列; 以脉冲序列作为输入的脉冲神经网络模块,用于模拟生物神经元膜电位变化、突触电流积累与脉冲触发机制并输出编码活动; 以及,将脉冲神经网络模块输出的编码活动转换为更直观的动作空间表达的解码模块; S3、建立在移动机器人执行动作指令下用于引导移动机器人路径规划训练的奖励机制,具体过程包括: 如果移动机器人向目标移动,则按距离减小的比例给予正向奖励,具体更新规则如下: ; 其中,表示在时间步,移动机器人到目标的欧几里得距离; 若发现移动机器人越来越靠近障碍物时,则给予渐进的惩罚,具体公式如下: ; 其中,表示移动机器人距离障碍物的最小距离; 若移动机器人与障碍物的距离小于设定的障碍物半径,即移动机器人与障碍物发生了碰撞,则给予惩罚并结束,即: ; 其中,、分别为移动机器人和障碍物的尺寸大小; 移动机器人与目标的距离小于目标范围,即移动机器人成功到达目标点,则一次性给予大额奖励并终止任务,即: ; 其中,表示目标点的范围; 引入时间惩罚,并基于正向奖励、惩罚、惩罚以及大额奖励,获得用于引导移动机器人路径规划训练的总奖励,表达式为: ; 其中,表示奖励机制下的总奖励; S4、对混合脉冲强化学习模型的参数进行优化,获得用于指导移动机器人完成避障任务的最优运动路径,具体过程包括以下步骤: S41、基于最大熵强化学习算法建立用于对混合脉冲强化学习模型的参数进行优化的深度强化学习框架,所述深度强化学习框架包括生成一个概率分布用于决定移动机器人动作的策略网络,以及用来评估状态-动作对价值的价值网络; S42、以最小化策略损失和Q值损失来训练策略网络和价值网络作为深度强化学习框架的训练目标; S43、基于训练目标,以最大化策略的期望回报,并最小化策略的熵作为优化策略损失的目标,表达式为: ; 其中,表示从经验回放池D中随机抽取样本;表示熵正则化系数,用来平衡探索与利用;表示状态和动作的值,和是价值网络对同一状态-动作对的两个不同值估计; S44、基于奖励机制计算混合脉冲强化学习模型对未来奖励的预测,即: ; 其中,表示当前状态和动作所获得的奖励;表示折扣因子,决定了未来奖励的影响;表示当前策略下,动作在状态下的对数概率,用于鼓励移动机器人进行更多探索; S45、根据对未来奖励的预测,使用双Q网络最小化损失函数来训练价值网络,即: ; 其中,表示价值网络损失; S46、随机初始化整个深度强化学习框架的参数,并使用Adam优化器更新各模块的权重。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。