西北工业大学郭斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种基于分层内在激励的多AGV智能调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116466662B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310346390.7,技术领域涉及:G05B19/418;该发明授权一种基于分层内在激励的多AGV智能调度方法是由郭斌;张江山;於志文;孙卓;刘佳琪;王亮;李梦媛设计研发完成,并于2023-04-03向国家知识产权局提交的专利申请。
本一种基于分层内在激励的多AGV智能调度方法在说明书摘要公布了:本发明涉及一种基于分层内在激励的多AGV智能调度方法,首先,基于多AGV车间搬运场景,建立部分可观测的马尔科夫决策模型;其次,提出分层内在激励机制,用于实时调整AGV的两种内在激励权重;之后,基于多智能体深度强化学习方法BicNet进行训练,最终将训练好的策略网络部署到每个AGV,进行多AGV智能调度。本发明提出了基于多智能体强化学习的调度方法,各个AGV可以基于策略网络进行自组织地智能调度,提高了多AGV的自主调度能力与任务完成水平,为实现多AGV的自学习、自组织的智能调度提供了解决方案。
本发明授权一种基于分层内在激励的多AGV智能调度方法在权利要求书中公布了:1.一种基于分层内在激励的多AGV智能调度方法,其特征在于,包括 步骤1:基于多AGV车间搬运场景,建立部分可观测的马尔科夫决策模型;具体如下: 将多AGV智能调度问题建模为部分可观测的马尔可夫决策模型: 其中分别为智能体的数量、状态空间、动作空间、状态转换概率、奖励函数、部分观测空间和折扣因子; 针对多AGV车间搬运场景,将智能体对象、部分观测空间、动作空间和奖励函数定义如下: 智能体:在多AGV调度场景下,每个AGV都是智能体对象;假设在每个调度周期的开始,所有AGV的位置都被随机初始化;在车间搬运环境中有个AGV和个任务点,AGV目标是最大化完成任务数量,并最小化调度抵达任务点的时间; 部分可观测空间:由于AGV处于部分可观测条件下,其观测空间是全局状态空间的子空间,即,是全局状态到部分可观测空间的映射函数; 动作空间:每个AGV的动作空间为其运动状态的集合,包含三种离散动作:左转、右转和直行; 奖励函数:奖励函数用于激励AGV快速前往任务点;奖励函数分为外部奖励和内在奖励两部分,包括达到任务点的目标奖励、每步前行的衰减惩罚以及碰撞惩罚; AGV的观测空间限制为的三维观测矩阵,其中,代表AGV的视野宽度,即每个AGV可以观测到正前方的个网格信息;每个网格被编码为3维元组:观测范围内的对象编码、颜色编码以及状态信息; 步骤2:基于分层内在激励机制计算内在奖励,为AGV调度决策提供连续奖励;具体如下: 分层内在奖励机制包括顶层奖励平衡器和底层动作控制器两个模块; 步骤2-1:基于底层动作控制器计算两种内在奖励:引力奖励与覆盖奖励; 引力奖励计算:在AGV的部分观测范围内,基于AGV自身所在位置到所观测到的目标点的路线距离,建立引力奖励;具体计算方式如下式,其中数值用于约束奖励的范围; 覆盖奖励计算:AGV会随着步数增加不断存储历史覆盖范围,以当前动作的新增未探索区域范围的所占比重作为覆盖奖励,用于激励AGV探索新区域,便于发现远距离的目标点;具体计算方式如下式,其中数值用于约束奖励的范围; 步骤2-2:基于顶层奖励平衡器平衡两种内在奖励;顶层奖励平衡器根据AGV状态信息输出值,用于AGV调节两种内在奖励的权重;具体如下: 具体地,基于顶层奖励平衡器平衡两种内在奖励这个模块包含两种计算奖励权重的策略:基于规则判断与基于Actor-Critic; 基于规则判断的方案:AGV观测到目标时,以引力奖励为驱动;观测不到目标时,以覆盖奖励为驱动,同时覆盖奖励比重会随着步数增高而升高,以提高后期的区域探索度;具体利用下式计算值: 基于Actor-Critic的方案:即基于训练好的Actor-Critic网络输出值,从而完成两种内在奖励的有机结合;基于顶层奖励平衡器输出的权重,平衡之后的内在奖励由下式给出: 步骤3:基于多智能体深度强化学习方法BicNet进行训练;具体如下: 采用BicNet算法来分别进行顶层奖励平衡器和底层动作控制器的训练; 所述的顶层奖励平衡器的训练:AGV的决策目标是最大化其预期累积的个人外部奖励,其中是奖励平衡器中Actor网络的参数;因此,用表示的个AGV的目标如下: 顶层奖励平衡器中Actor网络采用策略梯度公式,由下式进行训练更新: 顶层奖励平衡器中Critic网络采用了时间差分法,由下式进行训练更新,其中是Critic网络参数: 所述的底层动作控制器的训练:底层动作控制器采用与顶层奖励平衡器类似的网络训练方法,区别在于顶层奖励平衡器基于外部奖励更新,动作控制器基于内在奖励和外在奖励的累计和来更新;具体地,底层动作控制器中AGV的决策目标是最大化其预期累积的全体奖励:,其中是动作控制器中Actor网络的参数,;用表示的个AGV的目标如下: 相应的,底层动作控制器中的Actor网络的训练更新公式如下: 类似顶层奖励平衡器中Critic网络的更新方式,动作控制器中Critic网络的训练更新公式如下,其中是Critic网络参数: 步骤4:将训练好的策略网络部署到每个AGV,每个AGV根据自身的局部观测做出决策动作,进行分布式协同调度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励