浙江大学陈为获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利面向动态动作空间的校准终身强化学习方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121303242B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511865125.5,技术领域涉及:G06N3/092;该发明授权面向动态动作空间的校准终身强化学习方法及系统是由陈为;蒋奇奇;石龙翔;朱闽峰;黄修齐设计研发完成,并于2025-12-11向国家知识产权局提交的专利申请。
本面向动态动作空间的校准终身强化学习方法及系统在说明书摘要公布了:本发明涉及人工智能技术领域,具体公开了一种面向动态动作空间的校准终身强化学习方法及系统。方法包括当检测到动作空间变化时,自动归档历史经验数据至离线缓冲区并保留网络参数;通过在线与离线缓冲区的混合采样策略获取训练数据;在价值函数更新中引入基于历史策略的参考价值作为校准约束,构建价值下限以防止系统性低估;策略网络依据校准后的价值函数进行稳定更新。本发明通过价值校准与双缓冲区协同机制,有效抑制了学习过程中的性能震荡,实现了智能体在动态环境中的平滑、快速适应,显著提升了终身学习的稳定性与样本效率。
本发明授权面向动态动作空间的校准终身强化学习方法及系统在权利要求书中公布了:1.一种面向动态动作空间的校准终身强化学习方法,应用于机器人控制系统,其特征在于,包括以下步骤: S1:控制所述机器人在初始动作空间环境下进行初始强化学习训练,所述初始动作空间包括所述机器人可执行的一组基础动作,训练过程中产生的状态、动作、奖励及下一状态的经验数据存储至在线回放缓冲区; S2:响应于检测到所述机器人的动作空间发生扩展事件,将在线回放缓冲区中存储的、与所述基础动作相关的历史经验数据转移至离线回放缓冲区进行归档存储,并保留当前已训练完成的策略网络与价值网络的参数; S3:控制所述机器人在包含至少一个新动作的扩展动作空间环境下进行交互,所述新动作为通过软件更新新增的机器人动作,交互过程中产生的新经验数据存储至所述在线回放缓冲区; S4:在模型更新阶段,从所述在线回放缓冲区和所述离线回放缓冲区中按预设比例混合采样,形成混合训练数据批次; S5:基于所述混合训练数据批次,并利用由历史策略确定的参考价值对当前价值函数估计进行校准约束,更新所述价值网络; 其中,步骤S5中,基于所述混合训练数据批次,并利用由历史策略确定的参考价值对当前价值函数估计进行校准约束,更新所述价值网络时,引入一正则化项,所述校准约束的数学表达式为: ; 其中,为学习到的价值,Vμs为由历史策略μ计算得出的参考价值,所述校准约束强制当前价值估计不低于所述参考价值; 所述参考价值的计算过程为: 基于所述离线回放缓冲区中存储的历史经验数据,利用所述历史策略μ对状态价值进行计算,作为所述价值函数估计的可靠下限基准; S6:利用更新后的价值函数,通过策略梯度方法或确定性策略优化方法,对所述策略网络的参数进行更新,以优化所述机器人在所述扩展动作空间下的决策控制策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310000 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励