北京熠视科技有限公司张子萱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京熠视科技有限公司申请的专利一种针对不固定障碍的空间机械臂强化学习运动规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116619380B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310687696.9,技术领域涉及:B25J9/16;该发明授权一种针对不固定障碍的空间机械臂强化学习运动规划方法是由张子萱;王春彦;施熠设计研发完成,并于2023-06-12向国家知识产权局提交的专利申请。
本一种针对不固定障碍的空间机械臂强化学习运动规划方法在说明书摘要公布了:本发明公开了机械臂路径规划技术领域的一种针对不固定障碍的空间机械臂强化学习运动规划方法,包括如下具体步骤:S1、建立空间机械臂模型;S2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息;S3、设计空间机械臂运动规划任务的状态空间;S4、设计空间机械臂运动规划任务的动作空间;S5、设计空间机械臂运动规划任务的奖惩函数;S6、利用合适的强化学习方法所建立的模型进行训练求解;S7、得到空间机械臂运动规划结果,使用强化学习的方法来完成空间机械臂运动规划,在方法中考虑了空间中障碍物被碰撞后会漂浮的情况。
本发明授权一种针对不固定障碍的空间机械臂强化学习运动规划方法在权利要求书中公布了:1.一种针对不固定障碍的空间机械臂强化学习运动规划方法,其特征在于:包括如下具体步骤, S1、建立空间机械臂模型:用于进一步对运动规划算法进行设计,保证规划内容符合机械臂模型的动力学与运动学约束,步骤S3至S5的设计中都涉及机械臂模型; S2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息; S3、设计空间机械臂运动规划任务的状态空间:选取任务对象获取信息,以反映空间下的状态; S4、设计空间机械臂运动规划任务的动作空间:动作空间的设计需要能够符合对象模型、可以合法执行、且能够完备描述任务,达到目标; S5、设计空间机械臂运动规划任务的奖惩函数,由主线奖励、接近目标奖励、接近障碍惩罚、障碍移动惩罚来构成总奖励函数; 所述S5包括如下步骤:S51,主线奖励设计思路,假设目标goal位于一有高度的平面上,空间机械臂需要抓持住物体并搬运,若能完成此任务则给与空间机械臂一个正向奖励,内容具体如公式3: Rlift=hgoal-htable-goalsize>03 得到的Rlift为一表示任务是否完成的布尔值0或1,在子奖励中不体现权重,最终在步骤S55的总奖励设计中集中体现各项权重; S52,接近目标奖励设计思路,接近目标奖励设计为一个使得动作规划有目标倾向性的塑性奖励,即当空间臂末端距离目标越近时,接近目标奖励越大,如公式4: 接近目标奖励Rgood_dis中,dee、dl、dr分别表示目标中心与机械臂末端、抓持机构左侧、抓持机构右侧的欧氏距离,mgoal_dis是用于调节此项奖励变化范围的调节系数,tanh为激活函数;如公式4,接近目标奖励Rgood_dis的范围在0,1,在步骤S55中统一设计权重; S53,接近障碍惩罚设计思路,接近障碍惩罚用于躲避空间中的障碍,设计了机械臂在执行任务过程中趋向于接近障碍时的塑性惩罚项,如公式5: 接近障碍惩罚Rob_dis中,为使当机械臂末端移动到距离障碍物等效的球体半径2倍范围内时,才产生接近障碍惩罚,而距离障碍物较远时空间机械臂可以自由探索,其中,do_ee、do_l、do_r分别表示障碍物等效球体球心与机械臂末端、抓持机构左侧、抓持机构右侧的欧氏距离,mob_dis为用于调节此项奖励变化范围的调节系数,tanh为激活函数;如公式5,接近障碍惩罚Rob_dis的范围在0,1,与S52中奖惩项的范围统一,后续在步骤S55中统一设计权重; S54,障碍移动惩罚设计思路,空间机械臂在工作时,除了步骤S53所考虑的机械臂末端碰撞,其连杆、关节也可能与障碍物发生碰撞; 由于空间中为微重力环境,当机械臂碰撞障碍物时,障碍物将开始运动,产生位移,因此使用障碍物的移动来判断是否发生碰撞,如公式6: 障碍移动惩罚Rob_move中,obpos与obpos_init分别表示障碍物当前与初始位置;考虑环境轻微扰动与测量误差,设置一个门限参数来判断障碍物是否被碰撞,为一个接近零的极小正数,障碍移动惩罚Rob_move为布尔值,在障碍物受到碰撞时Rob_move=1,反之Rob_move=0,如公式6,障碍移动惩罚Rob_move的范围为0或1,后续在步骤S55中统一设计权重; S55,总奖励R设计为步骤S51至S54四项奖惩内容的线性叠加,由于S51至S54的四项奖惩结果输出范围一致,范围均在[0,1]内,而每项奖惩对任务达成的相关度不同,因此通过权重值来反应每项奖惩的重要性,如公式7: R=slift·Rlift+sgoal_dis·Rgoal_dis-sob_dis·Rob_dis-sob_move·Rob_move7 其中slift、sgoal_dis、sob_dis、sob_move分别为S51至S54的四项奖惩内容的权重系数,每项均为正常数,且根据每项与最终任务目标的相关程度,设置slift>>sob_move≥sob_dis≥sgoal_dis; S6、利用合适的强化学习方法所建立的模型进行训练求解:由于S3、S4步骤中,任务的状态空间与动作空间设计为连续状态空间与连续动作空间,需要选择可以处理连续空间的强化学习算法; S7、得到空间机械臂运动规划结果:通过S6步骤的训练,形成相应的模型,在不同环境下依然可以达到躲避障碍、规划空间机械臂达到目标的任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京熠视科技有限公司,其通讯地址为:100094 北京市海淀区永丰路5号院1号楼1层102;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励