大连理工大学姚念民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种促进多智能体协作性的通讯强化学习算法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115982610B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310135523.6,技术领域涉及:G06F18/23213;该发明授权一种促进多智能体协作性的通讯强化学习算法是由姚念民;陈嘉义;赵剑;张亚楠设计研发完成,并于2023-02-20向国家知识产权局提交的专利申请。
本一种促进多智能体协作性的通讯强化学习算法在说明书摘要公布了:本发明属于多智能体协作与竞争领域,涉及一种基于深度学习的多智能体通讯强化学习算法。该算法首先根据当前观测到的环境状态和其他智能体发送过来的消息计算得出智能体之间的交互关系,然后基于智能体之间的交互关系为其他智能体分配注意力权重选择顶层策略。选择不同的顶层策略意味着智能体之间存在分工。然后在底层策略中,智能体根据选择的高级策略据与局部观测选择适当的动作。本发明基于分层深度强化学习模型,可以在大规模多智能体系统中实现良好的协作,与人类群体解决复杂问题的方式非常相似,通过沟通选择顶级策略,而不是直接决定行动。模型不仅具有较低的通信频率,而且具有较好好的可扩展性。
本发明授权一种促进多智能体协作性的通讯强化学习算法在权利要求书中公布了:1.一种基于深度学习的多智能体通讯强化学习算法,其特征在于包括如下步骤: 步骤1模型与环境进行交互获得每一时刻的全局状态和每个智能体的局部观测信息; 步骤2:训练动作语义表征编码模型,使用动作表征编码来分解智能体的动作空间; 步骤3:智能体选择顶层策略,智能体通过沟通提取智能体之间的关系选择角色,从而达到分工合作的目的; 步骤4:智能体根据顶层策略在子动作空间中选择适当的行动; 步骤5:将上述所有组件综合成一个协同学习框架,并采用端到端的训练方式优化损失函数; 所述步骤2,包括以下步骤: 2.1训练参数为的动作编码器;编码器的输入是智能体采取的离散的动作编码,输出是连续的d维动作表示 2.2给定智能体的当前时间步本地局部观测和所有其他智能体在当前时间步选择的动作表示同时作为输入传递给观察预测器和奖励预测器,以分别预测下一时间步的局部观测和环境的奖励; 2.3将参数化的动作编码器,和由参数化的观测预测器和奖励预测器同时进行更新,通过最小化以下损失函数进行端到端训练: ; 其中是经验重放缓冲区,是智能体的预测下一次局部部分观测,是预测的收到的奖励,是智能体真实的下一时间步的局部观察,是真实的收到的环境奖励;缩放因子平衡了预测下一次局部观测的误差和预测收到的回报的误差; 2.4训练的被用于将所有动作编码为其对应的动作表征,训练完成后动作编码器中的网络权重参数在接下来的动作Q值训练过程中被固定住,不进行更新; 2.5将智能体的所有可执行的动作输入至动作编码器获得每个不同的动作表征,使用k均值聚类方法通过测量动作表征的欧氏距离将智能体的整个动作空间划分为组,不同的组具有不同的子动作空间,数字是一个超参数;动作分组后,训练开始;智能体根据局部观测和其他智能体的消息选择高层策略,即选择k组子动作空间中的一个;在训练过程中,每组子动作空间的动作表征保持固定; 所述步骤3包括以下步骤: 3.1构建一个包含一层线性层和一层记忆单元网络的顶层策略观测编码器,将智能体的局部观测和循环网络记忆单元中隐藏状态同时输入进循环网络单元中编码输出为向量; 3.2在顶层策略网络中设置由参数化的多轮通信器;通信轮数被视为超参数;在通信结构中使用基于键值的自注意力机制,每个通信器由两个组件组成:发送器和接收器; 3.3每个智能体通过发送器生成消息,通过接收器接收和处理其他智能体的消息;智能体的通信器将观测编码和消息作为输入发送给其他智能体,并通过注意力模块抽象智能体之间的关系,最后将其他智能体的消息将它们集成到向量中;每条消息由两部分组成:和定义为: ;; 3.4在接收端,每个智能体首先从作为通信器输入的中预测的查询向量,该查询向量被定义为:; 智能体接收所有其他智能体发送过来的消息,使用查询并接收所有消息的键值来计算点积,以抽象智能体之间的交互关系;智能体与其他智能体之间的关系定义为权重向量,计算方式为: ; 其中是缩放因子,为智能体与智能体计算得出的注意力权重,经softmax函数后输出0到1之间的值,智能体与所有其他智能体计算得出的注意力权重和为1;然后通过以下方式聚合每条消息的值: 对于多轮通信,再次使用更新的隐藏状态进行重复通信; 3.5顶层策略输出角色值,角色选择器基于可执行动作的平均表示计算中可执行动作的平均表征的均值,其中是角色j受限的操作空间;角色选择器是一个以参数化的完全连接的网络,将和映射到,其中是通信器的最终隐藏状态,是观察编码器的输出,然后以下面公式计算选择角色的预期回报:; 3.6智能体选择最大的角色值来确定顶级策略,当分配顶级策略时,智能体在接下来的个时间步骤中保持不变,在此期间每个智能体只能根据顶级策略在子动作空间中选择适当的动作; 所述步骤4包括以下步骤: 4.1构建每个不同角色策略网络,每个角色策略都是一个由参数化的完全连接的网络,是观测编码器的输出,该编码器将本地观测编码为矢量; 4.2通过函数网络将映射到,是中的矢量; 4.3使用动作表示和来计算原始动作值,计算公式如下: ; 所述步骤5包括以下步骤: 5.1使用每个智能体来估计全局值; 5.2将值输入由参数化的混合网络,使用全局奖励来训练角色选择器; 5.3将以下TD损失降至最低,以更新高层策略: ; 其中,是目标网络,是所有智能体的联合角色,并且使用来自重放缓冲区的统一样本来估计期望值学习,再次将局部值输入到由参数化的混合网络中估计全局动作值;将下面TD损失降至最低学习底层策略:; 其中是一个目标网络,是所有角色策略的参数; 5.4通过反向梯度传播使总损失最小化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励