Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学柏广庆获国家专利权

大连理工大学柏广庆获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利一种知识驱动的生物智能群体协同决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117610607B

龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311554290.X,技术领域涉及:G06N3/006;该发明授权一种知识驱动的生物智能群体协同决策方法是由柏广庆;于硕;李朋;张强设计研发完成,并于2023-11-21向国家知识产权局提交的专利申请。

一种知识驱动的生物智能群体协同决策方法在说明书摘要公布了:本发明属于强化学习技术领域,公开了一种知识驱动的生物智能群体协同决策方法。为了克服现有多智能体强化学习方法无法利用高阶逻辑关系、忽略不同智能体的重要程度以及无法捕捉多智能体系统的时间依赖性和动态图结构等问题,本发明提出了一种知识驱动的生物智能群体协同决策方法,结合高阶模体表示、注意力机制、长短期记忆网络等技术,最终实现对多智能体动态系统的充分学习和表示,并用于后续的强化学习流程中。

本发明授权一种知识驱动的生物智能群体协同决策方法在权利要求书中公布了:1.一种知识驱动的生物智能群体协同决策方法,其特征在于,首先建模多智能体系统,将多智能体间的空间关系和各自的观测值建构成图;其次,通过高阶模体表示来提取智能体之间的高阶逻辑关系,并将其作为智能体的高阶属性;接着,通过注意力机制计算其他相邻智能体的注意力权重系数,并通过多头注意力机制作为聚合器实现学习过程的稳定,得到两类属性的嵌入;之后,为了进一步表示实体,将实体的高阶属性嵌入以及观测值嵌入进行合并;然后,使用长短期记忆网络捕获系统的时间依赖性和复杂动态结构,以获得更有效的状态观测;最后,将这些观测值状态输入到策略优化网络中,去预测其状态以及所有可能动作的概率分布; 具体步骤如下: 步骤一:多智能体系统建模,将每个智能体定义为动态图中的一个节点;具体来说,定义智能体i在t时刻的观测向量oti作为其节点属性hti,并定义t时刻的N×N邻接矩阵At,其中,邻接矩阵的ij元素为aij,当智能体i与智能体j通信时aij=1,反之aij=0,N为节点个数; 步骤二:对于每一个智能体,定义其实体模体度=[E1,E2,…,Ep];式中Ep表明智能体i同时被包含于多个不同的第p种模体中;进一步,定义动态图实体模体度矩阵为M=[,…,]T;在本方法中,动态图实体模体度矩阵被用作高阶属性矩阵参与训练; 步骤三:计算节点j对于节点i的注意力权重系数eij=aWhi,Whj及注意力权重系数标准化形式αij=;其中,a代表单层前馈神经网络,W是线性权重矩阵,LeakyReLU是一个输入斜率为负值的非线性激活函数,代表节点i的邻居节点集合;节点i在t时刻的聚合表示ht’i=σ,其中,σ是一个非线性函数;之后,将多头注意力机制作为聚合器以稳定注意力学习过程,从不同的状态字空间中提取智能体的不同状态表示;此时节点i在t时刻的表示更新为ht’i=||Mm=1σ,其中,m代表多头注意力的数量;同样,步骤二生成的高阶属性矩阵M的每行在t时刻的表示为Et’i=||Mm=1σ; 步骤四:将步骤三得到的节点表示ht’i与行表示Et’i分别组成原始观测嵌入矩阵H和高阶属性嵌入矩阵Hs进行聚合,以更好地表示实体间关系和整体系统,得到特征聚合矩阵Hagg=H+Hs; 步骤五:使用LSTM刻画多智能体系统的时间依赖性以及动态拓扑结构;LSTM由三个门组成:遗忘门ft、输入门it和输出门ot,详细计算过程如下: ft=σWf·[ht-1,htagg]+bf; it=σWi·[ht-1,htagg]+bi; ot=σWo·[ht-1,htagg]+bo; 其中,σ·表示sigmoid函数,对于输入值x,sigmoid函数输出σx=,Wf,Wi,Wo分别代表遗忘门、输入门、输出门的权重矩阵,bf,bi,bo分别代表遗忘门、输入门、输出门的偏置向量,htagg代表t时刻的输入,ht-1代表t-1时刻LSTM隐藏层状态输出; 当前隐藏层定义为t=tanhWC·[ht-1,htagg]+bC,WC代表权重矩阵,bC代表偏置向量,tanhx==,输出值在[-1,1]区间内;于是,当前的记忆细胞由两部分组成,一是通过遗忘门筛选上一个单元记忆细胞需要保留的信息,二是通过输入门更新当前隐藏层信息;将上一个单元记忆细胞保留的信息与当前隐藏层信息相加得到当前的记忆细胞,即: Ct=Ct-1⊙ft+t⊙it; 其中,⊙为逐元素乘法; 通过输出门根据当前记忆细胞更新得到当前时刻LSTM隐藏层状态输出: ht=ot⊙tanhCt; 步骤六:智能体策略学习;首先,智能体初始化动作观测为随机过程,并获得初始状态值z;然后,对于每一个智能体i,根据参数为θi的策略网络μθi的输出选择其自身的动作ai=μθizi+;之后,执行所有智能体的动作a=a1,a2,…,aN,并且取得回报r和系统新一轮的状态值z’;之后,将四元组z,a,r,z’储存在经验重放缓冲区中并将变化后的状态值z’赋值给z;接着,对于每一个智能体,从经验重放缓冲区中随机抽取小批量S个四元组样本zj,aj,rj,z’j,其中j为样本序号,S,定义第j样本对于智能体i的对应回报,其中所有智能体动作由智能体i面对状态的新动作替换样本原有动作aj的对应位置组合而成,即,γ是0到1之间的折扣因子,为智能体i的动作值Q函数,其定义为,即给定状态和动作条件下总预期回报的期望,E为考虑所有可能情况的期望算子,智能体i的总预期回报,T代表时间范围,为折扣因子γ的t次方,作为回报权重,t越大即距离当前越远时越小,减弱远离当前的t时刻智能体i的回报的影响;最后,通过最小化损失函数来更新智能体i的动作值Q函数,即给定状态和动作条件下总预期回报的期望,其中,S为从经验重放缓冲区中随机抽取的小批量四元组样本的个数,为第j样本对于智能体i的对应回报,通过样本的策略梯度更新每一个智能体的策略网络参数,其中,为智能体i的策略网络,其参数为θi,接受状态,输出动作,与其它智能体动作组成所有智能体动作,为智能体i的动作值Q函数,即给定状态和动作条件下总预期回报的期望,与分别为策略网络与动作值Q函数对其参数θi和输入动作的梯度,策略网络新参数为旧参数θi与策略梯度的加权平均:,权重代表学习率; 步骤七:通过以上步骤不断进行迭代训练,直至本方法的策略优化网络模型收敛到最优。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。