当前位置 : 首页 > 专利喜报 > 青岛理工大学;青岛海绿源循环科技有限公司;青岛瑞宏科技有限公司王金龙获国家专利权

青岛理工大学;青岛海绿源循环科技有限公司;青岛瑞宏科技有限公司王金龙获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉青岛理工大学;青岛海绿源循环科技有限公司;青岛瑞宏科技有限公司申请的专利基于进化辅助多智能体强化学习的库存优化方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120931208B 。

龙图腾网通过国家知识产权局官网在2025-12-23发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202511455118.8，技术领域涉及：G06Q10/087；该发明授权基于进化辅助多智能体强化学习的库存优化方法及系统是由王金龙;刘玉辉;任贤全;王爱玲;翟伟伟;董刚;赵小琪;赵浩然;熊晓芸;张媛媛设计研发完成，并于2025-10-13向国家知识产权局提交的专利申请。

本基于进化辅助多智能体强化学习的库存优化方法及系统在说明书摘要公布了：本申请涉及逆向供应链库存管理领域，公开了一种基于进化辅助多智能体强化学习的库存优化方法及系统，方法包括应用一经训练的进化辅助多智能体强化学习模型对供应链的实时运行数据进行处理，所述方法包括：获取供应链的实时运行数据，将所述供应链的实时运行数据输入至所述进化辅助多智能体强化学习模型进行处理，而后输出供应链库存最优策略。本申请通过进化辅助多智能体强化学习算法EAMARL结合多智能体强化学习算法MARL的在线适应能力和进化算法EA的全局搜索能力，使策略对逆向供应链中回收产品数量波动、定制订单需求不确定性及处理延迟等复杂动态具有更强的鲁棒性，显著提升库存管理效率。

本发明授权基于进化辅助多智能体强化学习的库存优化方法及系统在权利要求书中公布了：1.基于进化辅助多智能体强化学习的库存优化方法，其特征在于，包括应用一经训练的进化辅助多智能体强化学习模型对供应链的实时运行数据进行处理，所述方法包括：获取供应链的实时运行数据，将所述供应链的实时运行数据输入至所述进化辅助多智能体强化学习模型进行处理，而后输出供应链库存最优策略；训练所述进化辅助多智能体强化学习模型，包括以下步骤： S1、环境构建与问题定义：构建一个多智能体逆向供应链仿真环境，其中每个工厂被建模为一个智能体，用于模拟产品与零件在供应链中的正向流动与逆向回收、拆解、再利用流动；基于构建的所述多智能体逆向供应链仿真环境，为每个所述智能体定义状态空间、动作空间及奖励函数； S2、通过进化辅助多智能体强化学习算法EAMARL，训练全部所述智能体并输出最优策略：所述EAMARL的训练过程通过双层训练架构实现，以及，所述双层训练架构至少包括进化算法EA的种群进化过程与多智能体强化学习MARL的梯度学习过程，所述双层训练架构还包括所述EA与所述MARL进行周期性交互，两者之间形成双层次优化闭环；所述周期性交互包括种群进化过程与梯度学习过程之间的双向经验迁移与协同； S3、循环执行S2，直至满足终止条件，输出经训练后全部所述智能体的最优策略； S2中所述多智能体强化学习MARL的梯度学习过程，包括：基于S1所定义的状态、动作与奖励，通过多智能体深度强化学习算法MADDPG对全部的所述智能体进行集中式训练； S2中所述进化算法EA的种群进化过程，包括：通过粒子群优化算法PSO进行种群进化，所述种群进化的参数包括所述MADDPG算法的超参数和或Actor网络的策略参数；所述PSO为每个智能体初始化一个策略种群，所述策略种群包含若干个体，每个个体表示一个智能体具有随机权重的行动者网络，所述行动者网络采用速度-位置更新机制，每个个体的适应度计算为完整周期内智能体获取的利润，适应度高的个体作为群体搜索的引导，所述PSO通过更新每个个体的速度和位置，在全局最优与个体最优之间动态权衡，产生新一代候选策略；所述双层训练架构还包括所述EA与所述MARL进行周期性交互，两者之间形成双层次优化闭环，包括：在预设的交互节点暂停MADDPG算法的训练过程，评估当前所有智能体的策略性能，以建立性能基准；将当前所有智能体的Actor网络的策略参数提取出来，映射为所述PSO中的一个个体，每个个体代表一组完整的Actor网络的策略参数，进而生成包含多个个体的初始PSO种群，利用PSO的全局搜索能力在策略参数空间中进行探索与优化；将所述初始PSO种群中的每个个体解码为一组临时策略参数，并在仿真环境中进行分布式评估，评估时，保持其他所有智能体的策略为当前冻结的MADDPG策略不变，仅将目标智能体的策略替换为临时策略；记录目标智能体的性能表现，并将所述目标智能体经济效益转换为所述个体的适应度值；完成预设次数的PSO迭代后，比较初始种群中最优个体的适应度与所述性能基准，若最优个体的适应度显著优于所述性能基准，则触发策略注入机制，将所述最优个体的策略参数写入对应智能体的Actor网络，并通过软更新同步目标策略网络；若最优个体的适应度未显著优于所述性能基准，则放弃所述PSO的优化结果，所述智能体继续保留并使用原有MADDPG策略的参数；解除暂停状态，基于更新后的或保留的策略，恢复所述MADDPG算法的训练过程，进入下一优化周期。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人青岛理工大学;青岛海绿源循环科技有限公司;青岛瑞宏科技有限公司，其通讯地址为：266033 山东省青岛市市北区抚顺路11号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

青岛理工大学;青岛海绿源循环科技有限公司;青岛瑞宏科技有限公司王金龙获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务