中国科学技术大学秦家虎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利基于数据降维技术的机器人强化学习运动控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116834020B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311011642.7,技术领域涉及:B25J9/16;该发明授权基于数据降维技术的机器人强化学习运动控制方法是由秦家虎;虞健兰;刘轻尘;韩睿天;李曼设计研发完成,并于2023-08-09向国家知识产权局提交的专利申请。
本基于数据降维技术的机器人强化学习运动控制方法在说明书摘要公布了:本发明涉及安全强化技术领域,公开了一种基于数据降维技术的机器人强化学习运动控制方法,包括以下步骤,在非平衡位置采样具有高维状态空间的机器人运动控制轨迹样本,通过对状态空间样本数据进行降维处理;通过栅格法在低维空间中对机器人状态进行安全概率估计,采用强化学习方法对高维空间机器人进行运动策略训练;本发明可以直接应用于真实物理系统中,无需仿真建模训练,避免了仿真和实机之间的固有差距问题,减少了建模成本。
本发明授权基于数据降维技术的机器人强化学习运动控制方法在权利要求书中公布了:1.一种基于数据降维技术的机器人强化学习运动控制方法,包括以下步骤: 步骤A:采集机器人个非平衡点初始状态,得到具有高维空间的机器人初始运动轨迹样本集合,其中为第i个机器人运动轨迹样本,,为的大小,表示采用矫正控制器对随机给定的机器人初始状态进行控制后的机器人运动轨迹,是安全标签; 步骤B:用动态时间规整算法对合并数据集合中的运动轨迹之间的距离度量进行计算,未得到反馈运动轨迹样本集合时,合并数据集合中仅存在;距离度量的计算方式为:,同时对距离度量进行归一化得到距离矩阵;、分别表示合并数据集合中第i条、第j条轨迹的初始状态,在中为、,在中为、;表示动态时间规整算法; 步骤C:通过距离矩阵以及度量学习方法,在保持高维空间和低维空间之间的距离度量关系的情况下,将合并数据集合中的初始状态即原始高维状态空间中的状态进行降维处理,映射到低维状态,得到与高维状态点集一一对应的低维状态点集;是高维空间维度,是低维空间维度; 步骤D:采用多项式回归方法训练回归学习器得到高维空间和低维空间的映射关系:,,其中上标代表构建映射的次数;回归误差服从经验分布,依次求解的置信区间,得到预测的区间估计,其中表示置信水平;表示回归得到的点估计,统一记为,统一记为; 步骤E:根据当前状态的区间估计的安全概率得到安全的置信度,能够预测机器人当前状态是否安全,得到估计的安全区域D;若判断当前状态为安全,对机器人的强化学习运动控制策略进行训练; 若判断当前状态为不安全,启用矫正控制器,将机器人状态控制回安全区域内,并收集轨迹信息,得到反馈运动轨迹样本集合,其中,为反馈运动轨迹样本集合的大小,,是真实训练环境的机器人当前状态,表示采用矫正控制器对进行控制后的机器人运动轨迹,是安全标签;判断反馈运动轨迹样本集合的大小,当时,将反馈运动轨迹样本集合和初始运动轨迹样本集合合并,得到合并数据集合,,其中为初始状态,将合并数据集合作为步骤B中计算距离矩阵的数据来源,其中表示倍数,是一个指定的集合大小; 循环进行步骤B-步骤E,得到具有安全保障的机器人强化学习运动控制策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。