当前位置 : 首页 > 专利喜报 > 大连理工大学候亚庆获国家专利权

大连理工大学候亚庆获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉大连理工大学申请的专利一种基于图注意力网络的多智能体迁移强化学习方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115936058B 。

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211578473.0，技术领域涉及：G06N3/042；该发明授权一种基于图注意力网络的多智能体迁移强化学习方法是由候亚庆;于向超;张强;裴文彬;葛宏伟设计研发完成，并于2022-12-09向国家知识产权局提交的专利申请。

本一种基于图注意力网络的多智能体迁移强化学习方法在说明书摘要公布了：本发明公开一种基于图注意力网络的多智能体迁移强化学习方法。本发明计算智能体与环境交互的轨迹特征，根据智能体轨迹特征的相似程度构建智能体知识迁移关系图；在关系图上应用硬注意力机制切断无关的迁移关系，进一步应用软注意力机制选择注意权重最大的智能体作为知识迁移对象。在判断知识迁移时间的方式上，设计一个二分类神经网络，通过向网络输入智能体和知识迁移对象的动作及价值，输出本次知识迁移是否执行；通过设计基于动作价值方差的损失函数指导分类网络训练，实现自适应学习与判断知识迁移时间；该方式充分的减少了不必要的知识迁移，增加了知识有效迁移的效率，促使智能体在任务上得到收敛速度更快、表现更好的解决方案。

本发明授权一种基于图注意力网络的多智能体迁移强化学习方法在权利要求书中公布了：1.一种基于图注意力网络的多智能体迁移强化学习方法，其特征在于，具体步骤如下：步骤1、设定智能体强化学习模型；多智能体强化学习任务由一个元组表示；其中，表示环境的状态空间；、和分别表示智能体的动作空间、观察空间和奖励函数；为环境的状态转移函数，为奖励折扣因子，为环境中智能体的数目；所有的智能体都由结构相同的神经网络表示，每个智能体都可以获得自己的观察，所述智能体为无人车；所有智能体的动作构成一个联合动作，记为；每个智能体的策略建模为智能体在状态下采取动作的概率，智能体的联合策略定义为，即；每个智能体的奖励函数会受到环境状态和其他智能体动作的影响，即；奖励函数设置为只有智能体自己才能获得；环境的状态转换是由环境的前一个状态和智能体的联合动作决定的；针对多智能体系统，多智能体强化学习的目标是找到一组策略参数，使得累计奖励的期望最大化；具体步骤如下： 1.1通过随机初始化智能体网络参数，清空经验池； 1.2智能体与环境交互迭代； 1.2.1观测智能体的状态，计算其特征； 1.2.2将特征输入智能体网络，得到所有动作的估计值，使用-贪婪法选择执行动作； 1.2.3执行动作，获得环境奖励和新的环境状态，将存入经验池； 1.2.4从经验池中采集个样本；计算目标值，即状态时获得的真实奖励：；其中，为在状态时估计智能体会采取获得最大回报的动作，任务结束表示智能体到达终止状态； 1.2.5使用均方损失误差函数通过神经网络的梯度反向传播来更新网络的所有参数：；其中，为在状态时策略网络估计获得的价值；步骤2、选择知识迁移对象 2.1建立智能体迁移关系图：目的是构建智能体之间的相似关系；智能体观测的状态作为点的特征表示，采用长短期记忆网络LSTM提取智能体轨迹的隐藏特征，通过计算智能体隐藏特征之间的相似性确定迁移对象；智能体之间存在边，则表示智能体之间存在迁移关系；初始时，智能体之间边默认全部存在，即构建完全连接图； 2.2硬注意力机制：将步骤2.1建立的完全连接图输入硬注意力机制，输出为断开不必要进行知识迁移边后的关系图，实现知识迁移关系的数量约简；在硬注意力机制输出端使用Softmax函数归一化处理前，使用Gumbel-softmax函数添加Gumbel噪声信息输出具有随机性的样本，解决直接采样导致梯度无法反向传播的问题；；其中，和为硬注意力网络最后一层的输出；和为随机的噪声；为控制Gumbel-softmax函数输出结果表现形式的系数，其值越小，输出结果越接近one-hot向量；为输入隐藏特征的维度；为以为底的指数函数；为添加噪声后的采样样本；具体步骤为： 2.2.1将智能体的观测输入到LSTM网络获得隐藏特征； 2.2.2将隐藏特征依次与其他智能体的特征拼接，输入到双向LSTM实现的硬注意力机制中：；其中，为智能体与智能体之间的硬注意力权重，其值为0或1；0表示与之间不存在迁移关系，则断开智能体与智能体之间的边；1表示与之间具有潜在的迁移关系，则保留智能体与智能体之间的边；为Gumbel-softmax函数，为双向LSTM，为全连接层； 2.3软注意力机制：将经过步骤2.2处理后的智能体迁移关系图删除了不相关的边，只保留潜在的迁移关系；进一步通过软注意力机制计算保留边的权重，从而选择迁移目标；软注意力机制采用softmax函数计算智能体之间的重要性分布；；其中，和为智能体i和k的隐藏特征；为全连接层；以为底的指数函数；为输入隐藏特征的维度，为智能体i和j之间的注意力权重；具体步骤为： 2.3.1初始化查询向量和键值向量； 2.3.2将隐藏特征与其他智能体的隐藏特征，依次输入到软注意力机制中：；其中，为的转置，为的转置，为智能体与智能体之间的软注意力权重，其值属于0到1； 2.4计算迁移目标：将经过步骤2.2和步骤2.3得到的与融合，获得最终的注意力权重；；其中，为智能体与智能体之间的注意力权重，其值越大，表示智能体与智能体越相似；因此，对于智能体来说，选择最大的智能体作为迁移目标； 2.5更新注意力网络权重：使用智能体隐藏特征之间的JS散度作为智能体之间的相似性度量；；其中，为智能体的隐藏特征维度；为第i维的特征；为智能体和智能体的JS散度； 2.5.1计算相似度标签：利用JS散度计算智能体与智能体之间的相似度指标作为标签；；其中，为智能体与之间隐藏特征的JS散度，为智能体与相似程度的标签，用于指导注意力网络训练； 2.5.2梯度下降更新参数：采用2.5.1计算的相似度标签作为步骤2.4计算的注意力权重的真实标签，使用均方误差损失函数训练硬、软注意力机制；；步骤3、判断知识迁移时间在通过图注意力机制选择出知识迁移对象的基础上，应用二分类神经网络判断在当前状态下智能体是否需要接受迁移对象建议的动作；采用智能体动作估计值的方差作为智能体的状态信心，若在某一状态下，智能体的动作估计值方差较小，则智能体对所有可能的动作估计出相似的价值，智能体对该状态的处理信心不足，即所有动作价值相似，不知道应该采取何种动作；若对于所有可以执行的动作，智能体估计的动作值并不相似，即某个动作的价值明显大于其他动作价值，则智能体处理该状态的信心是足够的，即智能体明确知道选择最大价值的动作；；；其中，为智能体在状态下采取动作的估计价值，为智能体可以采取的所有可能动作数量，为智能体在状态下的价值期望，为智能体在状态下动作价值的方差，即状态信心；具体步骤如下： 3.1迁移时间判断网络输入：在状态下，向二分类神经网络中输入智能体与迁移目标智能体的所有动作估计值以及各自决定采取的动作价值； 3.2获得迁移时间判断结果：根据神经网络的输出，判断此次是否迁移；网络的输出为0或1，为0则代表此次不进行知识迁移，为1则代表执行知识迁移； 3.3神经网络梯度更新：每次进行神经网络的前向传播后，采用状态信心和动作价值等指标设计的规则计算标签，指导网络参数的反向传播；；其中，和分别为智能体和智能体在状态下的动作价值方差，和分别为智能体和智能体在状态下所采取各自执行动作的价值；步骤4、多智能体迁移强化学习将步骤1的多智能体强化学习中智能体根据自身策略选择动作的过程修改为：首先通过步骤2选择知识迁移对象，其次通过步骤3判断知识迁移时间以确定是否进行知识迁移；若进行知识迁移，则使用迁移的动作完成后续强化学习过程，否则使用智能体自身策略完成强化学习过程；智能体在迭代的强化学习过程中进行必要的知识迁移，优化智能体的策略，直到达到预设的任务完成能力指标或训练次数。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人大连理工大学，其通讯地址为：116024 辽宁省大连市甘井子区凌工路２号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

大连理工大学候亚庆获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务