Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西北工业大学赵力冉获国家专利权

西北工业大学赵力冉获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西北工业大学申请的专利一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115320890B

龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211000653.0,技术领域涉及:B64G1/24;该发明授权一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法是由赵力冉;党朝辉;唐生勇;卫国宁;许旭升设计研发完成,并于2022-08-19向国家知识产权局提交的专利申请。

一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法在说明书摘要公布了:本发明涉及航空航天技术领域,特别是涉及在空间轨道博弈的应用,公开了一种基于PRD‑MADDPG算法的脉冲式轨道追逃博弈方法,通过脉冲式轨道追逃博弈问题建模,并针对脉冲式轨道追逃博弈中双方航天器的任务目标,设计脉冲式轨道追逃博弈双方的奖励函数,基于所设计的博弈模型和奖励函数,设计预测奖励检测训练框架,基于所设计的预测奖励检测训练框架,结合MADDPG算法完成追逃博弈智能控制策略网络训练,航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现航天器脉冲式轨道追逃博弈的智能控制。

本发明授权一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法在权利要求书中公布了:1.一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,包括如下步骤: S1、对脉冲式轨道追逃博弈问题建模得到博弈模型,并根据脉冲式轨道追逃博弈中双方航天器的任务目标得到脉冲式轨道追逃博弈双方奖励函数; S2、根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框架; S3、将预测奖励检测训练框架结合MADDPG算法训练追逃博弈智能控制策略网络; S4、追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令,完成航天器脉冲式轨道追逃博弈控制; 脉冲式轨道追逃博弈问题建模的过程如下: 设计脉冲式轨道追逃博弈场景,并根据航天器间的相对距离相对于轨道半径选择两个航天器附近的圆轨道作为参考轨道,进行CW方程计算; 在CW方程下建立航天器脉冲式轨道机动模型,CW方程计算公式如下: φt,t0=[φ1Δtφ2Δt]; φvt,ti=φ2t-ti=φ2Δt; Δvi=[Δvi,xΔvi,yΔvi,z]T; 其中,φt,t0为根据CW方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵;Δvi表示航天器i的速度增量向量;φvt,ti表示从ti时刻到t时刻航天器速度增量部分的状态转移矩阵;N表示航天器总的脉冲机动次数;Δvi,x表示航天器i在x方向的速度增量;Δvi,y表示航天器i在y方向的速度增量;Δvi,z表示航天器i在z方向的速度增量;μ为引力常数,a为参考轨道的轨道半径;Δt表示脉冲之间的时间间隔; 预测奖励检测训练框架流程如下: S2.1、在ti时刻,双方航天器分别根据环境反馈的状态信息,基于自身当前的策略网络Actor进行决策,输出航天器所采取的脉冲控制,并将施加脉冲控制前的追逃双方航天器的状态改变为施加脉冲控制后追逃双方航天器的状态; S2.2、定义脉冲控制施加的时刻ti为决策点,两个决策点ti到ti+1之间每隔ΔTd时刻设立一个检测点,共设置σ个检测点,定义为决策点[ti,ti+1]之间第m个检测点,则m∈[1,2…,σ],σ的大小根据自然转移时间的长短、航天器的机动能力强弱、轨道转移范围的大小进行设计; S2.3、根据CW方程,通过ti时刻下施加脉冲控制前后的追逃双方航天器的状态,计算得到ti时刻决策点后第m个检测点的状态和 S2.4、根据脉冲式轨道追逃博弈双方奖励函数结合预测检测点的状态计算在检测点的即时奖励,并计算双方航天器的累计预测奖励; S2.5、根据预测检测点的状态判断追逃任务是否终止,若追逃任务终止则直接将当前环境信息、双方的累计预测奖励和任务终止信号存入经验池,该次任务过程结束;若追逃任务没有终止,则判断该检测点是否为最后一个检测点,若该检测点是最后一个检测点,则将当前环境信息、双方的累计预测奖励与任务继续的信号传递给各航天器的策略网络进行下一次决策,若该检测点不是最后一个检测点,则进入下一个检测点,重复执行S2.3至S2.5; 追逃博弈智能控制策略网络的训练过程如下: S3.1,初始化追逃双方航天器的策略网络Actor与评价网络Critic的参数与航天器的状态空间; S3.2,双方航天器按照所设计的预测奖励检测训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池; S3.3,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数; S3.4,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成; 所述PRD-MADDPG算法:预测奖励检测多智能体深度确定性策略梯度算法; 所述MADDPG:多智能体深度确定性策略梯度。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。