北京工业大学李方昱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119376241B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411245871.X,技术领域涉及:G05B13/04;该发明授权一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法是由李方昱;刘金溢;孙浩源;韩红桂设计研发完成,并于2024-09-06向国家知识产权局提交的专利申请。
本一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法在说明书摘要公布了:本发明设计了一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法,实现在去中心化的场景下促进运动体合作。首先,采用一个实体图来建模复杂运动体系统,用于表示实体间的空间相关性,然后设计信息聚合策略,利用图神经网络和注意力机制来聚合邻居的消息并关注重要的邻居信息,此外,利用图信息瓶颈来减轻冗余信息对最优动作选择的影响。该方法可以解决在无法获取全局状态的场景中,传统的多智能体强化学习因观测信息有限,导致无法促进运动体之间协同的问题,提高了系统的协同性能,为各种无人运动体系统协同控制领域提供了一种有效的方法。
本发明授权一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法在权利要求书中公布了:1.一种基于去中心网络化多智能体强化学习的复杂运动体系统协同控制方法,其特征在于,设计任务环境及奖励函数,表征节点特征,进行信息聚合,训练算法,使用去中心网络化多智能体强化学习实现协同运动控制,包括以下步骤: 1设计任务环境及奖励函数 采用2维多智能体粒子环境作为基础,此环境中每回合最大时间步数T=25,环境的面积采用多智能体粒子环境的默认值,其面积为4×4,运动体数量为N,地标数量为D,障碍物数量为O;i表示任意运动体的编号,i∈{1,...,N};t表示环境的当前时刻,t∈{1,...,T};将第i个运动体Ai在运动过程中t时刻的奖励函数ri,t设计为: 其中,posi,t和分别表示Ai在t时刻的位置和目标的位置; 2表征节点特征 将运动体、障碍物和地标统一称为实体em,其中,m为任意实体的编号,m∈{1,...,N+D+O};使用集合{1,...,i-1,i+1,...,N+D+O}表示除了Ai以外的任意实体的编号,使用dmn,t∈R表示任意2个实体em和en之间的欧式距离,其中m≠n,n∈{1,...,N+D+O}为除m外任意实体的编号;定义位于Ai的感知半径ρ内实体的集合为Ni,t,将这些实体称为Ai的邻居,使用ej表示任意邻居,其中j为邻居的编号,用Vi,t={Ni,t∪Ai}表示Ai和其邻居的集合;使用图GtV,Et表示复杂运动体系统,其中V={e1,...,eN+D+O}表示所有实体的集合,表示t时刻边的集合,采用Ai和ej之间的欧式距离dij,t作为边的特征;Ai在t时刻形成一个图网络gi,t∈Gt,定义Ai在t时刻在二维坐标系中的位置、速度与目标相对自身的位置分别为posi,t∈R2、veli,t∈R2以及其中R代表实数; 用posi,t、veli,t,和表示观测信息定义和分别为ej相对于Ai的位置、速度以及ej目标相对于Ai的位置;如果ej是障碍物或目标,设置使用表示gi,t上每个邻居实体的节点特征,其中etj为实体类型,定义为etj∈{"agent":0,"landmark":1,"obstacle":2},{·}内的字符串代表文本,字典agent、landmark和obstacle分别代表运动体、地标和障碍物,数字0、1和2代表字典的索引; 3进行信息聚合 使用1个词典尺寸为3,输出维度为2的嵌入层编码etj从而获得编码后的实体类型etij,t,拼接etij,t和dij,t得到向量其中代表向量拼接操作;将输入到1个输入维度为9,输出维度为16的线性层进行特征提取,从而获得输入到图神经网络的节点特征采用3层图神经网络作为信息聚合模块,每层的编号为l∈{1,...,L},最大层数L=3,图神经网络的输入层维度设置为16; ①在图神经网络的第1层上,利用 计算注意力图其中,u和v分别为gi,t上的任意运动体和其邻居的编号,u∈{1,...,N},v∈Nu,t,Nu,t代表Au邻居的集合;为第l-1层任意编号为u的运动体的节点特征,为第l-1层的任意编号为v的邻居的节点特征;c为图神经网络每层输出的维度,当l=1或3时,c=16,当l=2时,c=32;WQ∈R16×c·h为查询的可学习权重矩阵,为键的可学习权重矩阵;利用 计算任意编号为u的运动体Au与其任意编号为v的邻居实体ev之间的注意力系数注意力头数设置为3;利用 计算第l=1层ev传递给Au的消息其中,和分别为第l=1层Au和ev的节点特征,WV∈R16×c·h为值的可学习权重矩阵;采用 计算Au聚合后的信息,其中Wx∈R16×c·h; ②在图神经网络的第2层上,采用式2和式3计算实体间的注意力系数,然后用 计算图信息瓶颈中的结构采样项 将Au的注意力系数的联合表示为其中,|Nu,t|代表Nu,t中包含的邻居的个数;对于注意力的每个头,生成|Nu,t|个服从0,1均匀分布的独立样本利用 计算耿贝尔分布利用 计算重参数化后的注意力系数其中,tem为温度参数,其值为0.1;最后,采用式4计算 计算高斯分布的均值和方差 其中,[·,·]代表将消息向量截取括号内特定的片段;利用均值和方差生成高斯分布,并利用从高斯分布中采样获取实际传递的消息;在的末尾增加1维,并利用 计算高斯分布下的对数概率利用 计算经过Softplus激活函数后的缩放参数列表其中,σu,z∈Rc×z为高斯混合模型中第个z高斯分布的缩放参数列表,在训练开始时初始化得到,为σu,z经过激活函数后的可学习参数,z为高斯混合模型中任意高斯分布的编号,z∈{1,...,Z},Z为高斯分布个数的最大值,设置为100;利用 计算任意高斯分布z下的对数概率其中,权重对数概率μu,z∈Rc×Z为可学习参数矩阵,其同样由训练开始时初始化得到;利用 计算高斯混合模型下的对数概率利用 计算图信息瓶颈中的节点特征采样最后,利用式5计算第2层的输出; ③在图神经网络的第3层上,首先,采用式2和3计算实体间的注意力系数,采用式4和6获取和其次,采用式5获取图神经网络模块的输出;然后,从节点数据中选出Ai的节点数据最后,获取作为行动者网络的输入,并计算评论家网络的输入: ④对所有的运动体A1,...,AN采用①至③的操作,从而获取每个运动体的行动者和评论家网络输入,将图神经网络和行动者-评论家网络的输入及输出数据保存到训练批次中,准备进行算法的训练; 4训练去中心网络化多智能体强化学习算法 ①设置算法训练参数:最大训练步数为2×106,近端策略优化算法训练次数为10,并行环境数为128,训练批次的大小B=25×128=3200,ρ=1,N=D=O=3; ②设置行动者-评论家网络的超参数:1层多层感知机,其输入层维度为22,隐含层维度为64,输出层维度为64;1层门控循环单元,其输入层、隐藏层和输出层维度均为64;演员网络的全连接层输入维度为64,输出维度为5;评论家网络的全连接层输入维度为64,输出维度为1;激活函数为ReLU函数,学习率为7×10-4; ③采用 对Ai的行动者网络进行训练;其中,clip·,·,·函数将第1项的数据限制在后2项的范围内,τ为批次中的每组数据的编号,θi是演员网络的参数,为策略更新范围限制参数,κ=0.01为策略熵系数,β1=0.001为行动者网络的图信息瓶颈优化项系数,为演员网络输出的动作条件概率分布,为θi更新前的演员网络输出Pi,τ为中每项的概率,和分别为第τ组存储的结构采样和节点特征采样数据,Ai,τ为优势函数,计算公式为 其中,λ=0.95为广义优势估计量系数,γ=0.99为折扣因子,为评论家网络的参数,为第τ组存储评论家网络的输出,为第τ+1组评论家网络的输出,ri,τ为训练批次中第τ组数据存储的奖励;采用 对Ai的评论家网络进行训练;其中 为Ai从t时刻开始回合奖励的期望,β2=0.001为评论家网络的图信息瓶颈优化项系数,为更新前评论家网络的输出,ξ=0.2为值函数更新范围限制参数; ④采用①和②的训练参数,以及③的优化目标对算法进行训练,训练达到最大步数后,终止训练,保存最后一次训练的权重参数,完成模型训练; 5使用去中心网络化多智能体强化学习实现协同控制 ①使用4的超参数和损失函数训练去中心网络化多智能体强化学习算法,保存回合奖励,输出奖励函数曲线; ②在完成算法训练后,保存训练好的模型,并将模型应用于协同控制任务环境中,完成复杂运动体系统协同控制。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。