北京理工大学盛永智获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种深度确定性策略梯度驱动的多约束制导律的设计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119644742B 。
龙图腾网通过国家知识产权局官网在2025-09-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411791783.X,技术领域涉及:G05B13/04;该发明授权一种深度确定性策略梯度驱动的多约束制导律的设计方法是由盛永智;张倬境;龚孝龙设计研发完成,并于2024-12-06向国家知识产权局提交的专利申请。
本一种深度确定性策略梯度驱动的多约束制导律的设计方法在说明书摘要公布了:一种深度确定性策略梯度驱动的多约束制导律的设计方法,属于导弹制导技术领域。所述方法包括以下步骤:S1:建立导弹拦截目标的三维相对运动学模型;S2:基于S1,进行分数阶滑模控制律的设计及其稳定性分析;S3:A3DPG算法的设计与优化;S4:在动力学环境中通过奖励机制诱导策略网络学习动作策略,实现时间最短、脱靶量小、视场角FOV约束、加速度变化抑制、滑模面收敛奖励、末端攻击角约束、总奖励的多约束制导律。本发明利用分数阶滑模理论设计了视线角收敛的制导律,然后利用强化学习算法对其滑模面参数和趋近律参数进行动态学习,从而实现动态调节的制导律。并在动力学环境中通过奖励机制等因素,诱导策略网络学习上述指标的评价下最优的制导律。
本发明授权一种深度确定性策略梯度驱动的多约束制导律的设计方法在权利要求书中公布了:1.一种深度确定性策略梯度算法驱动的多约束制导律的设计方法,其特征在于:所述方法包括以下步骤: S1:建立导弹拦截目标的三维相对运动学模型; S2:基于S1,进行分数阶滑模控制律的设计及其稳定性分析;包括: S21:分数阶滑模控制律推导; Caputo型分数阶积分定义为: 式中:t表示当前时刻;t0表示初始时刻; Caputo型分数阶导数定义为: 式中:t表示当前时刻;t0表示初始时刻;m为趋近律参数; 设计滑模面; 式中:S为滑模面;Dα为α次幂的分数阶求导;sign为符号函数;k1,k2,p,q为滑模面参数; 设计趋近律; 式中:S为滑模面;v为趋近律;η1,η2,m,n为趋近律参数;sign为符号函数; S22:稳定性证明; S221:趋近模态的稳定性证明; 对于S,考虑选择如下李雅普诺夫函数所设计复合滑模面,若控制律满足条件,使得满足趋近律时: 能够证明稳定性; 其中:V1为李雅普诺夫能量函数;S为滑模面;Dα为α次幂的分数阶求导;sign为符号函数;k1,k2,p,q为滑模面参数;η1,η2,m,n为趋近律参数; S222:趋近模态的有限时间收敛性证明; 令y=ln|s|,则s=ey 其中:S为设计的滑模面;η1,η2,m,n为趋近律参数;sign为符号函数;t0为初始时刻;ts为滑模面收敛时间; S223:滑动模态的收敛性证明; 当滑模变量收敛时,系统状态满足以下滑模面方程: 进一步分析上式的全局渐近稳定性,根据分数阶积分算子分布模型,上式等价于以下无穷维整数阶微分方程: 式中: 在上述频率分布模型中,ω为频率;zω,t为分数阶系统真实状态变量;xt为伪状态变量;构造如下两个Lyapunov函数; 选择李雅普诺夫函数对V2求导并化简得到: 式中:V2为李雅普诺夫能量函数; S23:滑模面设计; 式中:θlos为高低角;为期望的末端攻击角;为方位角;为期望的末端方位角;Sy为用于控制弹道倾角的滑模面;Sz为用于控制弹道偏角的滑模面;Dα为α次幂的分数阶求导;k1,k2,k3,k4,p1,q1,p2,q2为滑模面参数,sign为符号函数; S24:趋近律设计; 推出: 其中:S为滑模面;v为趋近律;r为弹目相对距离;为弹目相对速度;η1,η2,m,n为趋近律参数;ay为铅垂平面的法向过载;az为侧向平面的法向过载; S3:A3DPG算法的设计与优化;包括以下步骤为: S31:构建网络结构; S311:共享特征提取层; 输入状态经过一个自注意力层,自注意力层被策略网络和价值网络共享;自注意力层通过计算状态的加权平均,生成一个包含全局信息的表示; S312:策略网络; 策略网络第一层使用LSTM层,所述LSTM用于捕捉时间序列中的长期依赖; S313:价值网络; 价值网络第一层也使用LSTM层,对当前状态和策略网络生成的动作进行评估; S32:算法流程; S321:训练策略; 在每个回合结束后使用该回合的全部数据进行训练; S322:优化器更新机制; 策略网络、价值网络和注意力机制更新; S323:自适应的探索机制; 根据总的训练回合数,对高斯噪声的方差进行指数减少,达到随着训练次数增加,训练结果趋于稳定的效果; 式中:Episodes为总的训练次数;episodei为当前的回合次数; S33:训练过程; S331:初始化回放池,并选取所需容量,能够满足至少5个回合的序列长度; S332:初始化; S3321:在线网络模型; 包括自注意力网络Kst|θk,策略网络ust|θu,价值网络Qst,at|θQ; 其中,st为当前时刻的环境状态;θk为自注意力网络参数;θu为策略网络参数;θQ为价值网络参数;at为当前时刻策略网络产生的动作; S3322:目标网络模型; 包括目标自注意力网络、目标策略网络、目标价值网络K′,u′,Q′; 参数更新:K′←K,u′←u,Q′←Q; S3323:设置训练参数; α1=1×10-2,α2=1×10-2,γ=0.95,N~N0,σ2; 其中:α1为策略网络学习率;α2为价值网络学习率;γ为折扣因子;N为用于提升探索能力的随机噪声; S333:训练Episodes个回合,每个回合的训练过程如下: 从初始时刻到回合结束循环以下步骤,直至成功拦截弹击中目标或者脱靶为止; S3331:价值网络更新: 训练过程中,价值网络的目标是最小化TD误差,其目标如下: yi=ri+γQ′si+1,μ′si+1∣θμ′∣θQ′,θK′ 价值网络的评价指标: 导数为: 通过对评价指标的反向传播,更新价值网络: θQ,θK←θQ,θK-α2▽L 其中:yi为第i步的状态的期望价值;α2为价值网络学习率;L为价值网络的评价性能函数;▽L为L的导数;θQ为价值网络参数;θK为自注意力网络参数;Qsi,ai∣θQ,θK为价值网络估算的状态-动作对的价值; S3332:策略网络更新: 策略网络性能指标函数为: 导数为: 通过对评价指标的反向传播,更新策略网络: θμ,θK←θμ,θK+α1▽J 其中:Qsi,ai∣θQ,θK为价值网络估算的状态-动作对的价值;α1为策略网络学习率;J为价值网络的评价性能函数;▽J为J的导数;θμ为价值网络参数;θK为自注意力网络参数; S4:在动力学环境中通过奖励机制诱导策略网络学习动作策略,实现时间最短、脱靶量小、视场角FOV约束、加速度变化抑制、滑模面收敛奖励、末端攻击角约束、总奖励的多约束制导律;所述视场角FOV约束的奖励函数表达式为: R1=-1·GELUfov-fovlim,0.01,2,10 式中:R1为对于视场角约束的奖励值;fov为导弹视场角;fovlim为导引头视场角约束范围; 所述加速度变化抑制的奖励函数表达式为: R2=0.1·GELUΔacc,1,1,0.1 Δacc=Amax·dt-|Δay|+|Δaz| 式中:R2为对于过载变化抑制的奖励值;|Δay|为铅垂面的法向加速度变化率的绝对值;|Δaz|为水平面的法向加速度变化率的绝对值;Amax为导弹的过载最大值;dt为积分步长; 所述滑模面收敛奖励的奖励函数表达式为: 式中:R3为对于滑模面收敛的奖励值;Sy为用于控制弹道倾角的滑模面;Sz为用于控制弹道偏角的滑模面; 所述脱靶量小的奖励函数表达式为: 式中:R4为对于脱靶量的奖励值;Mdis为脱靶量;Kr为导弹杀伤半径; 所述时间最短的奖励函数表达式为: R5=-tf 式中:R5为对于制导过程时间的奖励值; 所述末端攻击角约束的奖励函数表达式为: 式中:R6为对于末端的攻击角约束的奖励值; 所述总奖励的奖励函数表达式为: Return=λ1R1+λ2R2+λ3R3+R4+R5+R6·done 式中:λ1=0.3,λ2=0.4,λ3=0.3,为对不同约束奖惩的权重分配。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100000 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励