江西理工大学王碧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江西理工大学申请的专利一种基于值强化学习的连续控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115993779B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211643028.8,技术领域涉及:G05B13/04;该发明授权一种基于值强化学习的连续控制方法是由王碧;周镜;吴剑青;曾博文设计研发完成,并于2022-12-20向国家知识产权局提交的专利申请。
本一种基于值强化学习的连续控制方法在说明书摘要公布了:本发明提供了一种基于值强化学习的连续控制方法,包括:构建多层神经网络模型的值函数;对所述值函数搜索最优动作;基于所述最优动作,对所述样本数据进行GPU加速批量动作优化,获取批量最优动作;基于所述批量最优动作,构建候选动作集;根据所述候选动作集执行动作,并更新所述值函数;对更新后的所述值函数进行迭代,获取所述值函数的最优策略。本发明为复杂环境下的连续控制任务提供了基于学习的、数据驱动的、有效的控制方法。
本发明授权一种基于值强化学习的连续控制方法在权利要求书中公布了:1.一种基于值强化学习的连续控制方法,其特征在于,应用于二组机器人,所述二组机器人从上到下分别为:腿关节,左右膝关节,左右踝关节,各关节采用可控制开合的合叶连接;强化学习算法相关数据包括: 状态:各关节合叶开合的角度和相应的角速度,加上腿关节当前的高度和当前所处的位置; 动作:施加在各关节的扭矩,用于调整二足机器人的行走姿态; 奖励:与二足机器人移动水平距离和调整各关节姿态的代价,包括:动作的平方和; 所述连续控制方法包括: 构建以状态为输入的多层神经网络模型的值函数; 采用群智能优化算法搜索所述值函数在任意状态下的最优动作; 基于所述群智能优化算法,对批量状态下的动作最优化进行GPU加速,获取批量最优动作; 基于所述批量最优动作,构建候选动作集; 根据所述候选动作集,选择执行动作,并更新所述值函数; 更新所述值函数包括: 基于时间差分误差的平方作为损失函数,通过神经网络反向传播优化网络中各结点权重,获取最优值函数; 所述时间差分误差为: 其中,为折扣因子,视为数字; 对更新后的所述值函数进行迭代,重复状态输入-动作搜索-动作执行-状态输入这一循环,获取所述值函数的最优策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西理工大学,其通讯地址为:341099 江西省赣州市章贡区红旗大道86号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励