沈阳航空航天大学王金涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉沈阳航空航天大学申请的专利一种基于键值对注意力机制的智能体博弈对抗方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116029377B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310073929.6,技术领域涉及:G06N5/04;该发明授权一种基于键值对注意力机制的智能体博弈对抗方法是由王金涛;屈嘉逸;赵龙;崔璨设计研发完成,并于2023-02-07向国家知识产权局提交的专利申请。
本一种基于键值对注意力机制的智能体博弈对抗方法在说明书摘要公布了:本发明公开了一种基于键值对注意力机制的智能体博弈对抗方法,提出了一种AT‑Double‑DQN‑OAP算法网络,具体包括环境信息提取模块,对手行为预测模块,我方行为学习模块;首先将当前对抗环境状态特征提取,将提取数据分别输入到OAP行为预测网络以及Double‑Q值学习网络;在OAP行为预测网络中加入键值对注意力机制,在行为预测模块中输入环境状态量SL,V键通过打分函数,利用查询向量r,对此时输入的环境状态量进行打分,通过softmax函数将环境状态量的不同得分作归一化处理,得到各个部分的注意力权重,通过输入的值结合注意力分布进行信息聚合时,重点学习该部分对手策略函数,提升了我方智能体对对手动作行为特征的捕捉能力。
本发明授权一种基于键值对注意力机制的智能体博弈对抗方法在权利要求书中公布了:1.一种基于键值对注意力机制的智能体博弈对抗方法,其特征在于,首先定义一个了AT-Double-DQN-OAP算法;所述AT-Double-DQN-OAP算法分为三个模块,分别是环境信息提取模块,对手行为预测模块,我方行为学习模块;环境状态特征提取模块对输入的环境状态S进行特征编码,其作为后面两个模块的共享输入以进行针对性的深入提取;对手行为预测模块以环境状态特征信息s作为输入,通过OAP网络预测对手动作的策略得到对手策略特征;我方学习模块用于拟合智能体的Q值函数,以便我方智能体根据地方动作选择最优动作执行; 步骤1:利用AT-Double-DQN-OAP算法对三种不同类别时间、空间、统计数据信息进行编码得到当前的环境状态S; 利用循环神经网络采集时间信息得到时间序列,采用卷积神经网络采集空间信息得到卷积图像特征,采用全连接神经网络提取数据统计信息;将使用三种网络提取到的三类信息来生成当前的环境状态特征提取编码后的特征信息s;并且AT-Double-DQN-OAP算法层面:初始化环境状态S,初始化价值网络参数,初始化OAP特征函数,初始化目标网络参数,初始化训练池参数; 步骤2:输入我方行为学习模块的环境量直接由特征信息s的全连接隐层表示,输入对手行为预测模块时,由于引入键值对注意力,需要将环境状态量表示为SK,V的向量表达; 步骤3:将环境状态量SK,V输入对手行为预测模块,对手行为预测模块将当前向量化后的环境特征信息SK,V中影响较大的信息进行键值对注意机制编码,将编码后的环境特征S′K,V作为输入,通过键值对网络提取特征信息; 步骤4:将步骤3提取的特征信息经softmax函数输出对手策略概率分布; 步骤5:将环境特征信息s输入到Double-DQN学习网络,相较于传统的DQN网络,Double-DQN引入目标网络Q′来解决智能体学习过程中Q值过估计问题,目标网络Q′产生当前动作的最大Q值,将最大值Q输入到价值网络y*产生最优Q*; 步骤6:对AT-Double-DQN-OAP算法进行损失函数计算。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人沈阳航空航天大学,其通讯地址为:110136 辽宁省沈阳市道义经济开发区道义南大街37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。