Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学吴迪获国家专利权

大连理工大学吴迪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利一种结合改进人工势场法和深度强化学习的多机械臂路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119658694B

龙图腾网通过国家知识产权局官网在2025-10-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510007568.4,技术领域涉及:B25J9/16;该发明授权一种结合改进人工势场法和深度强化学习的多机械臂路径规划方法是由吴迪;葛佳琦;王欣设计研发完成,并于2025-01-03向国家知识产权局提交的专利申请。

一种结合改进人工势场法和深度强化学习的多机械臂路径规划方法在说明书摘要公布了:本发明涉及机械臂运动规划领域,涉及一种基于改进人工势场法和深度强化学习多机械臂运动规划方法,针对深度强化学习在多机械臂系统中,前期奖励稀疏,训练速度较慢,难以学习到有效策略的特点,本发明提出了改进的动态人工势场专家演示方案,通过在训练过程中,添加随着训练进程动态改变的人工势场奖励函数和动态人工势场专家演示机制,使得机械臂在前期的训练过程中获得更高的学习效率并获得更多的正样本,在后期训练中辅助机械臂到达高精度目标,进而加快机械臂的学习速度。训练过程主要包括以下步骤:构建仿真环境,对多机械臂路径规划任务进行描述和建模,生成训练样本,执行训练任务并进行仿真,根据仿真结果动态调整专家数据,经验收集和策略更新。相比于传统方法,本方法具有更快的收敛速度,更短的训练时间以及更高的精度,尤其是具有更快的前期收敛速度和较高的拟合精度。

本发明授权一种结合改进人工势场法和深度强化学习的多机械臂路径规划方法在权利要求书中公布了:1.一种结合改进人工势场法和深度强化学习的多机械臂路径规划方法,其特征在于以下步骤: 步骤1:进行环境配置 选择仿真平台和对应的机械臂模型,搭建对应的物理环境计算方法和机械臂操纵方式,以确保能够正常模拟电机驱动下机械臂的各关节活动以及机械臂各个组成部分和末端执行器发生的移动,以及与其它机械臂或障碍物实体发生碰撞; 步骤2:进行任务定义 将多机械臂路径规划任务看作多智能体深度强化学习任务的一种;多机械臂路径规划任务的目标是为所有机械臂找到从初始位姿到目标位姿的无碰撞路径;在多智能体深度强化学习问题中,环境由多个智能体共享,每个智能体都通过与环境交互来学习最优策略;多智能体深度强化学习问题是一个多智能体部分可观测马尔科夫决策过程,被表述为一个元组M=N,S,A,R,O,T,γ; 其中: N是智能体的数量; S代表一个包含智能体所有可能状态的集合,用来描述智能体状态; A代表一个包含智能体可能动作的集合,用来描述智能体可能采取的动作; R代表一个函数Rs,a,代表智能体在集合S中的一个状态s下,执行集合A中动作a所能获得的奖励值;O代表观测空间,用以表达智能体对周围环境信息的观测和总结结果; T代表任务运行的时间; γ代表折扣因子,用以限制智能体获得的奖励值; 步骤3:进行训练数据生成 根据机械臂构型和多机械臂路径规划的任务要求,生成任务数据和静态专家数据以供多机械臂路径规划智能体进行学习和训练;任务数据和静态专家数据一一对应,其中任务数据包含机械臂的数量、基座位置、起始构型、末端执行器起始位姿、目标构型、末端执行器目标位姿;静态专家数据包括一系列动作值;任务数据用于描述一次任务的起始状态和目标状态;静态专家数据代表一条从起始状态到达目标状态的可行动作序列;在多机械臂任务中,规定当所有的机械臂都在不发生碰撞的前提下从起始状态到达目标状态时,该任务被视为顺利完成;若过程中有一个机械臂发生碰撞或到达规定时间内任务未完成时,则任务视为失败; 步骤4:进行模拟和交互 根据加载的任务,初始化模拟环境和经验池,为每个机械臂配置一个策略;在一个时间步t内,机械臂i在与环境进行交互时,先收集自身状态作为状态值si,然后再额外收集自身一定范围内其它n个机械臂状态值s1,……,n,将自身状态值和其它机械臂的状态值si,1,……,n依照与自身关节基座的距离从小到大进行排序并经过处理之后作为观测值oi;根据状态值和观测值得到对应的动作值ai;随后执行动作,进入下一个时间步t′,得到对应的奖励值r和下一个状态的状态值和观测值;进行完当前时间步t模拟后,将当前时间的观测值,动作值,奖励值,下一个时间的观测值四个信息组合为一个经验,并将这个经验储存在经验池中; 步骤5:动态演示和奖励 若当前时间步t的模拟任务失败,则读取步骤3中生成的当前任务数据对应的静态专家数据,机械臂根据专家任务数据执行动作并获得状态值和观测值,将步骤4中执行失败的任务的经验池,以及执行专家数据的经验池加入经验回放缓冲区中; 若步骤4中正在执行的任务成功,则直接将经验池加入经验回放缓冲区中;若当前任务尚未成功或者失败,则根据当前经过的时间和各个机械臂的当前状态,进行动态势场奖励函数和动态专家演示调整,调整之后继续模拟过程;动态奖励函数分为三部分:集体奖励、接近奖励和碰撞奖励;碰撞奖励为负值,作为惩罚项;根据机械臂接近目标位置的程度给予不同的正向奖励,根据机械臂与其它实体的接近程度以及是否发生碰撞给予不同的负碰撞奖励,这些奖励随着机械臂的移动和时间步的推移动态调整;动态专家演示同样包括两部分,判别专家和演示专家,判别专家负责判定机械臂在什么情况下激活动态专家演示,演示专家负责在机械臂靠近目标点时诱导机械臂向目标状态靠拢;随着时间步的推移和机械臂的移动,专家演示产生的效果不同;判别专家负责平衡智能体自身的探索行为和专家演示行为,演示专家主要在末期以及机械臂靠近目标点时产生作用; 步骤6:经验收集和策略更新 根据步骤4和步骤5中操作后获得的经验,不断填充经验回放缓存区;在执行一定数量的任务,积累足够的交互和经验数据后,从经验回放缓冲区中随机抽取一定数量的经验,作为深度强化学习策略的训练数据,按照指定方法对深度强化学习策略进行更新,使得深度强化学习策略对环境的评估结果更接近实际环境,输出的动作值能获得更多的回报值; 步骤7:循环执行 重复执行步骤4到步骤6,不断更新经验来更新深度强化学习网络,提升深度强化学习网络的性能;随着循环的进行,深度强化学习网络的性能不断提升,循环可以手动终止或者在达到指定的时间或性能时停止,以保证学习效果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。