湖南工业大学万烂军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南工业大学申请的专利基于深度强化学习的柔性作业车间调度策略训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117313792B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311118312.8,技术领域涉及:G06N3/045;该发明授权基于深度强化学习的柔性作业车间调度策略训练方法是由万烂军;付龙;宁佳恩;李长云;王志兵;吴岳忠设计研发完成,并于2023-08-31向国家知识产权局提交的专利申请。
本基于深度强化学习的柔性作业车间调度策略训练方法在说明书摘要公布了:本发明公开了基于深度强化学习的柔性作业车间调度策略训练方法,所述方法采用SDAC算法模型并进行训练,其方法的步骤如下:S1:构建SDAC算法模型;S2:在演员网络中设计两个策略网络用于分别训练工序选择策略和机器分配策略,通过最小化目标函数来训练演员网络;S3:在评论家网络中设计了目标Q函数和软Q函数,计算当前调度策略下某个状态‑动作对的Q值,通过最小化目标损失函数来更新评论家网络;S4:使用评论家网络来控制演员网络的训练,经过多次迭代训练后输出最终的工序选择策略网络和机器分配策略网络;综上所述,本发明不仅提高了调度策略的训练效率,而且经过本发明所训练的调度策略能高效求解各个规模大小的柔性作业车间调度问题实例。
本发明授权基于深度强化学习的柔性作业车间调度策略训练方法在权利要求书中公布了:1.基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述方法的步骤如下: S1:构建SDAC算法模型,所述SDAC算法模型包括演员网络、评论家网络、熵目标函数以及样本存放池; S2:在演员网络中设计工序选择策略网络和机器分配策略网络来分别训练工序选择策略和机器分配策略,并通过最小化目标函数来训练演员网络模型中的演员网络; 所述演员网络中的最小化目标函数的公式表达式为: 其中,表示工序,表示机器,表示策略的网络参数,为输入噪声向量;从固定分布中采样,表示样本存放池,其作用为对调度环境中使用的训练样本进行存储和重用,表示在时间步时执行完整的动作,表示在时间步时柔性作业车间调度环境状态; S3:采用熵目标函数平衡动作和奖励的相对重要性,以控制最优策略的随机性; S4:运用评论家网络中设计的目标Q函数和软Q函数,计算当前调度策略下某个状态-动作对的Q值,通过最小化目标损失函数来更新评论家网络; 所述评论家网络的目标损失函数的公式表达式为: 表示软Q网络的参数,通过软Q网络训练获得,为状态-动作值函数,用于获取Q值,为根据参数进行近似的状态-动作值函数,用于优化目标损失函数,以逼近状态-动作值函数; S5:使用评论家网络来控制演员网络的训练,经过多次迭代训练后输出最终的工序选择策略网络和机器分配策略网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南工业大学,其通讯地址为:412000 湖南省株洲市天元区泰山路88号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。