中国人民解放军国防科技大学张龙飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利基于数据增强的逐像素Q值估计离线强化学习方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115272790B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210833694.1,技术领域涉及:G06V10/774;该发明授权基于数据增强的逐像素Q值估计离线强化学习方法和装置是由张龙飞;冯旸赫;张驭龙;刘忠;黄金才;程光权;陈丽;梁星星;吴克宇;阳方杰设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。
本基于数据增强的逐像素Q值估计离线强化学习方法和装置在说明书摘要公布了:本申请涉及一种基于数据增强的逐像素Q值估计离线强化学习方法和装置。所述方法包括:通过从离线数据集中采样小批量的原始输入观测,通过常见的图像变换算法对小批量的原始输入观测进行数据增强,并对输入观测的Q值进行正则化处理,最终训练得到用于决策的Q值网络。本发明通过使用标准增量方法扩大训练数据集,通过正则化输入观测的Q值避免高估离线数据集数据分布附近的数据,并显著提升了算法泛化性;将数据增强与基于像素观测的离线RL算法结合起来的方法,不需要对底层RL算法进行额外修改,使得该方法易于实现,并可扩展应用到其他基于Q值估计的离线RL算法,可扩展性强,实用性佳。
本发明授权基于数据增强的逐像素Q值估计离线强化学习方法和装置在权利要求书中公布了:1.一种基于数据增强的逐像素Q值估计离线强化学习方法,其特征在于,所述方法包括: 根据预先获取的智能体视觉控制的离线数据集,从所述离线数据集中采样小批量的原始输入观测; 通过常见的图像变换算法对所述小批量的原始输入观测进行数据增强;每一小批量的数据由batch个数据组s,a,r,s′组成,其中batch为小批量数据的数量,s代表当前时刻图像堆栈,s′代表下一时刻的图像堆栈,a表示当前时刻智能体采取的动作,r表示智能体在当前时刻s采取动作a后得到的环境奖励反馈;每个所述图像堆栈中包含若干个连续帧堆叠的原始观测图像;图像堆栈s和s′分别进行K次和M次数据增强后,分别得到第一扩充样本和第二扩充样本;所述第一扩充样本中包括K个输入观测,所述第二扩充样本中包括M个输入观测;每一图像堆栈内的图像变换算法的参数设置一致,各图像堆栈的图像变换算法参数随机设置; 通过预设的Q值估计网络得到所述第一扩充样本中K个输入观测的Q值,将K个输入观测的平均Q值作为对应原始输入观测的预测Q值;所述Q值估计网络为任意使用Q值估计的离线强化学习网络; 通过预设的Q值目标网络得到所述第二扩充样本中M个输入观测的Q值,根据M个输入观测的Q值,基于TD-error计算对应原始输入观测的目标Q值;所述Q值目标网络与所述Q值估计网络使用相同网络架构; 根据所述预测Q值和所述目标Q值,通过最小化MSE均方误差损失函数对所述Q值估计网络的参数进行更新; 根据更新后的所述Q值估计网络的参数对所述Q值目标网络的参数进行软更新,直到达到预设时间步停止更新; 以完成更新的Q值估计网络为最终学习到的Q值估计强化学习网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。