浙江工业大学蔡世波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于课程深度强化学习的多机器人路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119642843B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411737143.0,技术领域涉及:G01C21/34;该发明授权一种基于课程深度强化学习的多机器人路径规划方法是由蔡世波;朱迪;都明宇;张科文设计研发完成,并于2024-11-29向国家知识产权局提交的专利申请。
本一种基于课程深度强化学习的多机器人路径规划方法在说明书摘要公布了:一种基于课程深度强化学习的多机器人路径规划方法,利用课程学习的思想,设计课程学习的各个阶段,通过改变各阶段机器人数量,以及地图大小和障碍物数量,实现任务的由易到难;搭建强化学习环境,定义环境中机器人的观察空间、动作空间以及环境的奖励函数,制定机器人在环境中的运行规则;设计一种网络结构以适应环境中变化的机器人数量,运用Qatten算法训练网络模型,本发明能解决连续空间中的多机器人路径规划问题,其优势在于能够相对传统算法更快更好的实现路径规划,提高路径规划的效率。
本发明授权一种基于课程深度强化学习的多机器人路径规划方法在权利要求书中公布了:1.一种基于课程深度强化学习的多机器人路径规划方法,其特征在于,所述方法包括以下步骤: 步骤S1、引入课程学习的思想,设计课程学习各阶段任务; 步骤S2、搭建强化学习训练环境,针对机器人在连续空间中的路径规划问题,定义机器人的观察空间、动作空间和奖励函数,为后续的强化学习做准备; 步骤S3、训练网络模型,首先设计一个网络结构以适应环境中变化的机器人数量,其次使用基于值分解的多智能体强化学习算法Qatten算法训练网络模型; 所述步骤S3中,使用Qatten算法实现网络模型的训练,该算法是一种基于值分解的多智能体强化学习算法,使用多头注意力机制来建模每个智能体对整体的贡献,并通过一个可训练的超网络计算整体的Q值Qtot,损失函数计算以及网络参数更新方式与DQN算法相同;因此,当处于课程第一阶段时,环境中只有一个机器人,算法即退化为DQN算法,当处于课程第二阶段之后,环境中的机器人数量大于1,算法则为Qatten算法; 所述步骤S3中,首先在课程学习的第一阶段,环境中只有一个机器人,此时神经网络只需要输入与自己有关的观察消息oi,因此设计一个简单的串联结构,首先,将机器人与自身有关的观察信息oi输入一层全连接网络f,将所得到的输出foi与上一时刻的隐藏状态ht-1,一起传入一层GRU循环神经网络g中,将输出传入最后一层全连接网络fx中,最终输出每个动作的Q值Qi,课程学习第一阶段,网络表示为: Qioi=fxgfoi,ht-1 在课程学习的第二阶段及之后的阶段中,环境中的机器人数量大于1,此时神经网络不仅要输入自身有关的观察信息oi,还要输入与其他机器人有关的观察信息oj,此时,传入与自身有关的观察信息oi的全连接网络f,GRU循环神经网络层g以及最后动作Q值的输出层fx均直接重载第一阶段的网络结构的参数,额外增加一个超网络结构用于处理其他与其他机器人有关的观察信息,超网络的结构为,定义两个两层的全连接网络fw和fb,两个网络分别传入与自身有关的观察信息oi,得到W=fwoi,b=fboi,接着以W为权重,以b为偏置,进行如下计算: hoj=W·oj+b 将foi与hoj拼接,传入一个新的全连接网络fh,然后再进入GRU循环神经网络层g,最后传入全连接层fx,输出每个机器人的动作Q值Qi,网络表达式为: Qioi,oj=fxgfhcatfoi,hoj,ht-1 课程学习第二阶段以后,每一阶段都重载前一阶段的网络参数,同时为了保证参数量不受机器人数量变化的影响,所有机器人网络参数共享; 利用ε-greedy方法,选择动作,即设定一个不断衰减的参数ε,每次选择动作时,生成一个随机数d,将d与ε对比,当dε时,从动作空间中随机选择一个动作,否则,用greedy方法选择Q值最大的动作; 机器人按照神经网络选出的动作在环境中运行,并输出一组数据,包括全局状态s,局部观察o,动作a,全局奖励R,以及是否完成,将这些输入存入经验回放池中,用于后续训练网络模型; 当经验回放池中的数据量达到minibatch时,开始训练网络模型; 神经网络的训练使用基于值分解的多智能体强化学习算法Qatten算法,该算法基于集中训练,分散执行的框架,每个智能体根据自身的局部观察计算得到动作Q值Qi,集中训练器再根据每个智能体的动作Q值计算全局Q值Qtot,Qatten算法引入多头注意力机制分析每个机器人的状态对全局状态的贡献,计算每个注意力头的权重,求和得到Qtot,计算方式为: 其中,wh和cs分别由一个两层的全连接神经网络输入全局状态s得到,H为注意力的头数,N为机器人的数量; 最后利用DQN算法计算损失函数,训练网络参数: ytot=R+γmaxa′Qtoto′,a′,s′;θ-。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励