Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学刘成菊获国家专利权

同济大学刘成菊获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利一种基于双智能体竞争强化学习的机器人路径探索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114372520B

龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111637946.5,技术领域涉及:G06F18/214;该发明授权一种基于双智能体竞争强化学习的机器人路径探索方法是由刘成菊;陈启军;张浩设计研发完成,并于2021-12-29向国家知识产权局提交的专利申请。

一种基于双智能体竞争强化学习的机器人路径探索方法在说明书摘要公布了:本发明涉及一种基于双智能体竞争强化学习的机器人路径探索方法,包括以下步骤:S1、构建马尔科夫决策模型,初始化智能体和经验池;S2、记录智能体Agent1当前状态st,探索k步记录当前轨迹序列至经验池Buffer1;S3、将智能体Agent2置于状态st处,智能体Agent2探索k步,记录当前轨迹序列至经验池Buffer2;S4、以探索轨迹之间的相似度作为智能体Agent1的额外奖励,相反数作为智能体Agent2的额外奖励;S5、当经验池中数据数数目满足要求,更新智能体Agent1与Agent2的策略;S6、重复执行步骤S2‑S5,直到智能体Agent1到达目标状态或超出设定时间tlimit;S7、重复执行步骤S1‑S6直到完成设定训练剧集数。与现有技术相比,本发明使智能体能够更有效的探索,加快训练速度,提升样本的利用效率,同时能够有效消除随机噪声,更具有鲁棒性。

本发明授权一种基于双智能体竞争强化学习的机器人路径探索方法在权利要求书中公布了:1.一种基于双智能体竞争强化学习的机器人路径探索方法,其特征在于,该方法包括以下步骤: S1、构建马尔科夫决策模型,初始化智能体Agent1与智能体Agent2,并初始化经验池Buffer1与Buffer2; S2、记录智能体Agent1当前状态st,智能体Agent1依照现有策略探索k步,记录当前轨迹序列至经验池Buffer1; S3、将智能体Agent2置于状态st处,智能体Agent2依照其策略探索k步,记录当前轨迹序列至经验池Buffer2; S4、使用交叉熵函数评估两个智能体的探索轨迹之间的相似度作为智能体Agent1的额外奖励,相似度的相反数作为智能体Agent2的额外奖励,并更新经验池Buffer1与Buffer2中对应轨的奖励信息; S5、当经验池中数据数数目满足要求,更新智能体Agent1与Agent2的策略; S6、重复执行步骤S2-S5,直到智能体Agent1到达目标状态或超出设定时间tlimit; S7、重复执行步骤S1-S6直到完成设定训练剧集数;所述的步骤S1中,构建马尔可夫决策模型,以智能体在当前位置可观测的区域图像作为当前状态,在给定当前状态st下,智能体按照策略πa|s选择当前动作at与环境交互,并达到下一状态st+1,获得奖励rt,智能体的目标是得到最优策略π★使得累计奖励最大,所述的奖励rt具体设置为: 当智能体到达目标位置,给予+100的奖励,其余位置均给予-1的奖励;所述的步骤S1中,智能体采用DDQN强化学习方法,初始化网络Q,智能体的策略πa|s按照DDQN强化学习方法给定,具体选择∈-greedy策略,则有: 其中,m为智能体的动作数目,即动作集合A={a1,a2,a3,a4,a5,a6,a7}的动作总数,a1,a2,a3,a4,a5,a6,a7分别表示智能体向前、向后、向左、向右移动一格、左转、右转及停在原地,∈为常数;所述的步骤S2中,设定步长k,智能体Agent1探索k步得到轨迹序列{s1 t,a1 t,s1 t+1,r1 t},{s1 t+1,a1 t+1,s1 t+2,r1 t+1}…{s1 t+k,a1 t+k,s1 t+k,r1 t+k}并存储到经验池Buffer1,智能体Agent1每一步的探索策略使用贪婪算法获得当前动作;所述的步骤S3中,将智能体Agent2的位置至于Agent1的当前段探索初始位置探索k步得到轨迹序列{s2 t,a2 t,s2 t+1,r2 t},{s2 t+1,a2 t+1,s2 t+2,r2 t+1}…{s2 t+k,a2 t+k,s2 t+k,r2 t+k}并存储到经验池Buffer2,智能体Agent2每一步的探索策略使用贪婪算法获得当前动作;所述的步骤S4中,从经验池Buffer1和Buffer2中分别取出探索轨迹 将其分别标准化后得到轨迹T1和T2,获取两轨迹间交叉熵绝对值clipabs-∑T1logT2,0,1作为两个轨迹T1和T2的相似度并更新轨迹奖励λ为衰减系数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。