北京信息科技大学王红军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京信息科技大学申请的专利电子组件车间AGV复合作业模式下的改进PPO调度方法、系统、介质及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119417169B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411556169.5,技术领域涉及:G06Q10/0631;该发明授权电子组件车间AGV复合作业模式下的改进PPO调度方法、系统、介质及设备是由王红军;汪国安;张明亮;刘淑聪;韩凤霞设计研发完成,并于2024-11-04向国家知识产权局提交的专利申请。
本电子组件车间AGV复合作业模式下的改进PPO调度方法、系统、介质及设备在说明书摘要公布了:本发明涉及电子组件车间AGV物流调度领域,公开了一种电子组件车间AGV复合作业模式下的改进PPO调度方法、系统、介质及设备,其包括:利用栅格建模对车间环境地图进行栅格化,通过多个任务订单使AGV在栅格地图进行A*搜索算法,获取批量的样本数据,根据样本预训练策略网络的模型参数,完成预训练;根据新的任务订单,AGV与环境进行交互,获取观测状态、动作空间和奖励值,将观测状态进行矩阵化处理后,作为PPO算法的输入数据,计算PPO算法的策略网络和价值网络损失值,并通过梯度下降法更新网络模型参数,完成PPO训练;在线生成实时任务订单,通过前两个阶段训练好的决策网络模型指导AGV完成路径规划和调度任务。本发明能快速学习获得电子组件车间AGV调度策略,学习效率显著提升并兼具稳定性。
本发明授权电子组件车间AGV复合作业模式下的改进PPO调度方法、系统、介质及设备在权利要求书中公布了:1.一种电子组件车间AGV复合作业模式下的改进PPO调度方法,其特征在于,包括: 利用栅格建模对电子组件车间环境地图进行栅格化,通过多个任务订单使AGV在栅格地图进行A*搜索算法,获取批量的样本数据,根据样本预训练策略网络的模型参数,完成预训练,包括:利用A*算法指导AGV在栅格地图中连续完成批次任务,保存每次任务动作轨迹节点信息,获取批量的样本经验;抽取N个样本数据传入Actor网络,网络输出结果是多个样本动作空间的概率分布;依据概率选择动作从而计算动作的对数概率值,计算Actor网络的损失值,根据损失值进行反向传播求梯度,根据梯度更新模型的参数; 根据新的任务订单,AGV与环境进行交互,获取观测状态、动作空间和奖励值,将观测状态进行矩阵化处理后,作为PPO算法的输入数据,计算PPO算法的策略网络和价值网络损失值,并通过梯度下降法更新网络模型参数,完成PPO训练; 在线生成实时任务订单,通过前两个阶段训练好的决策网络模型指导AGV完成路径规划和调度任务; 其中,根据新的任务订单,AGV与环境进行交互,获取观测状态、动作空间和奖励值,将观测状态进行矩阵化处理后,作为PPO算法的输入数据,包括: 经过预训练后的模型参数,通过PPO算法继续训练Actor网络和Actor网络模型; 在训练之前,分配新的任务,由A*搜索算法指导AGV与栅格地图环境进行交互,保存每次交互的状态和动作轨迹节点信息,根据环境布局、AGV的状态和动作信息生成布局矩阵、当前位置矩阵、目标位置矩阵和动作列表,作为PPO算法的输入数据; 计算PPO算法的策略网络和价值网络损失值,并通过梯度下降法更新网络模型参数,包括: 根据连续的交互步数来存储当前观测状态、相应的动作、批量的动作概率分布和批量的奖励值; 根据和计算的新策略和旧策略计算比率,根据奖励值和折扣因子计算累计折扣奖励值R,从而计算优势函数值; 通过状态价值函数和截断域值计算Actor网络的损失函数和Critic网络的损失函数,利用梯度下降法更新Actor网络和Critic网络的模型参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京信息科技大学,其通讯地址为:100192 北京市海淀区清河小营东路12号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励