西北工业大学杨飞生获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利基于状态分流深度强化学习的无人系统火力资源分配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116699983B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310506990.5,技术领域涉及:G05B13/04;该发明授权基于状态分流深度强化学习的无人系统火力资源分配方法是由杨飞生;方城亮;潘泉;弓镇宇设计研发完成,并于2023-05-08向国家知识产权局提交的专利申请。
本基于状态分流深度强化学习的无人系统火力资源分配方法在说明书摘要公布了:本发明公开了一种基于状态分流深度强化学习的无人系统火力资源分配方法。针对具有连续状态空间的空域无人机强化学习环境,首先引入了威胁度的概念,其次采用DRL中的DQN算法,并对传统的DQN算法做出改进,设计了状态分流的DQN算法框架来训练智能体。本发明既具备强化学习ReinforcementLearning,RL的决策性又具备深度学习的感知性,有利于在不确定动态复杂环境下进行武器目标分配,且能够避免维数诅咒问题。
本发明授权基于状态分流深度强化学习的无人系统火力资源分配方法在权利要求书中公布了:1.一种基于状态分流深度强化学习的无人系统火力资源分配方法,其特征是包括以下步骤: 步骤一,针对WTA问题首先搭建一个可供无人机交互的强化学习的无人机空战环境 搭建无人机空战环境时,需要考虑敌机异构和己方子弹异构,要求己方无人机必须学会在哪个时刻向哪个敌方无人机分配哪种类型的子弹,从而实现评价指标函数最大化的成功穿越;在穿越过程中,己方无人机需要完成两类子任务,同时定义任务的失败;其中敌方无人机分为Ⅰ类型敌机和Ⅱ类型敌机;己方子弹分为B1类型子弹和B2类型子弹; 其中定义子弹发射动作为其中i=1,2,…,N,j=1,2,…,M,其中j代表敌方无人机,i代表己方无人机,k代表当前时刻,或0表示在k时刻己方无人机i发射或不发射子弹给敌方无人机j,它的值域在{0,1}; 定义选择子弹类型动作为其中i=1,2,…,N,j=1,2,…,M,其中或0表示在k时刻己方无人机i对敌方无人机j所选择发射的子弹类型为B2型或B1型,它的值域在{0,1}; 步骤二,采用模糊隶属函数构造总威胁度 敌方无人机相对己方无人机的威胁度取决于距离速度和航向夹角因此构建以下三个子威胁隶属度函数:距离子威胁隶属度函数速度子威胁隶属度函数记为航向子威胁隶属度函数在获得上述三个子威胁隶属度函数后,评估敌方无人机j相对己方无人机i的总威胁度考虑到速度和航向夹角存在耦合关系,对速度与航向夹角的乘积取tanh函数: 其中ωd和ωv,α是威胁子因素的权重系数,且δ是曲率调整系数,k是当前时刻; 步骤三,由总威胁度构造敌机价值 在总威胁度的基础上,如下评估敌方无人机j对己方无人机i的价值,即敌机的价值 其中n=1或2,value1是Ⅰ类型敌机的自身价值,value2是Ⅱ类型敌机的自身价值,b是威胁价值的调整因子,是一个常数;如果己方无人机击杀了敌方无人机,就会获得当前时刻k的对应价值,价值将进一步作为己方无人机神经网络的输入量; 步骤四,由敌机价值构造评价指标函数 其中包括最大化价值奖励的评价指标函数为: 最小化作战成本的评价指标函数为: 其中只能取值为0或1,C0是B1类型子弹的成本,C1是B2类型子弹的成本; 评价指标函数如下: 步骤五,构建Markov决策过程四元组 其中四元组分为状态集S、动作集A、奖励集R、转移概率P; 状态集S:状态集S由动态状态集S1和静态状态集S2组成,s1k∈S1,s2k∈S2,S=[S1,S2],S1=[距离己方无人机子弹射程,价值,S2=[敌方无人机机翼展长,敌方无人机机翼参考面积]=[cb,cs]; 动作集A:动作集A由动作集A1和动作集A2组成,a1k∈A1,a2k∈A2,A=[A1,A2],且是离散量;a1k表示子弹发射动作,发射为1,不发射为0,它的值域在{0,1}集合;a2k表示己方无人机发射子弹的类型,0为B1类型子弹,1为B2类型子弹,它的值域在{0,1}集合; 奖励集R:rk∈R,出于子弹损耗考虑,发射一枚B1类型子弹给-5的惩罚,发射一枚B2类型子弹给-10的惩罚,并且设定:子弹类型选择正确给1的奖励,否则没有奖励;己方无人机i击杀敌方无人机j则给予大小为的奖励,是指敌机的价值; 转移概率P:采用的深度强化学习算法是无模型的算法,无需确定转移概率P; 步骤六,采用状态分流的DQN算法框架,将动态状态与静态状态分离,分别输入到对应进程的神经网络,与无人机空战环境交互训练己方无人机; 具体过程如下: 动态状态指那些会随着无人机与环境交互而改变的状态,包括距离价值和死亡状态dead;而静态状态指不会改变的状态信息,包括敌方无人机机翼展长cb,敌方无人机机翼参考面积cs;采用Python的multiprocessing库,以pipe技术实现进程与进程间的数据通信,设计出了多进程并行训练的DQN算法,具体来说,采用状态分流操作对状态信息进行分离,把原有的一个己方无人机分解成两个子己方无人机,一个子己方无人机负责动作a1k,控制子弹发射,另一个子己方无人机负责动作a2k,控制子弹的类型;而两个子己方无人机由同一套奖励机制指导算法收敛,即奖励集R由两个子己方无人机共用; 既然采用状态分流方法后会得到两个子己方无人机,那么将负责动作a1k的子己方无人机放在主进程中训练,负责动作a2k的子己方无人机则放在子进程中训练,这样就可以用两个CPU同时训练两个子己方无人机,充分发挥计算机的多核优势。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励