华侨大学黄德天获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华侨大学申请的专利基于多池优先经验回放的强化学习网络训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116796814B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310767100.6,技术领域涉及:G06N3/063;该发明授权基于多池优先经验回放的强化学习网络训练方法及装置是由黄德天;吴娇绿;黄小茜;曾焕强;朱建清;陈婧;施一帆设计研发完成,并于2023-06-27向国家知识产权局提交的专利申请。
本基于多池优先经验回放的强化学习网络训练方法及装置在说明书摘要公布了:本发明公开了一种基于多池优先经验回放的强化学习网络训练方法及装置,构建基于经验回放池和共享池的多池框架;将每个智能体对应的经验回放池中的样本按照采样概率采样至共享缓存区中,将共享缓存区中样本放入共享池中,将每个智能体从共享池中抽取的样本存放在各自的缓存区中;在共享池中采用K‑means算法进行聚类,得到聚类结果,以对共享池中的样本进行清理;对强化学习网络分阶段进行训练,在不同的阶段智能体分别从其对应的经验回放池或者缓存区中抽取样本进行学习,对经验回放池和共享池中样本的TD误差进行更新,并根据更新后的TD误差对共享池中的样本进行清理;重复交叉执行以上若干步骤,使智能体在环境异步环境下更好的探索最优策略。
本发明授权基于多池优先经验回放的强化学习网络训练方法及装置在权利要求书中公布了:1.一种基于多池优先经验回放的强化学习网络训练方法,其特征在于,包括以下步骤: S1,构建多池框架,所述多池框架包括一个共享池以及每个智能体对应的经验回放池,所述经验回放池中的样本包括环境进入终止状态的标识和TD误差,为每个智能体构建一个缓存区,并构建一个共享缓存区; S2,将所述每个智能体对应的经验回放池中的样本按照采样概率采样至所述共享缓存区中,将所述共享缓存区中样本放入所述共享池中,将每个智能体从所述共享池中抽取的样本存放在各自的所述缓存区中; S3,在所述共享池中采用K-means算法进行聚类,得到聚类结果,并根据聚类结果对所述共享池中的样本进行清理; S4,对强化学习网络分阶段进行训练,在不同的阶段所述智能体分别从其对应的所述经验回放池或者缓存区中抽取样本进行学习,对所述经验回放池和共享池中样本的TD误差进行更新,并根据更新后的TD误差对所述共享池中的样本进行清理;所述步骤S4具体包括: 将所述强化学习网络的训练分为第一阶段和第二阶段: 在所述第一阶段中,每个所述智能体从各自对应的所述经验回放池中抽取样本进行学习,重新计算抽取到的样本的TD误差并进行更新,在每个时间步中,强化学习网络中的每个智能体都与各自对应的环境进行交互,产生的样本放入所述经验回放池,所述经验回放池中的样本定义为<st,at,st+1,rt,done,TD-error>,其中,st和at表示t时刻的状态和动作,st+1表示t+1时刻的状态,rt表示t时刻的奖励,done表示环境进入终止状态的标识,TD-error表示TD误差; 在所述第二阶段中,每个所述智能体从各自对应的所述缓存区中抽取样本进行学习,重新计算所述共享池中所有样本的TD误差并进行更新,根据更新后的TD误差清理所述共享池的样本,具体包括: 对样本按照更新后的TD误差从小到大进行排序,按第一清理比例的数量从更新后的TD误差的最小值所对应的样本开始对其进行删除; S5,重复交叉执行步骤S2、步骤S3和步骤S4。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华侨大学,其通讯地址为:362000 福建省泉州市丰泽区城东城华北路269号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励