Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津大学王珂获国家专利权

天津大学王珂获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津大学申请的专利一种具有主动防御博弈系统的航天器及其方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119861567B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510033340.2,技术领域涉及:G05B13/04;该发明授权一种具有主动防御博弈系统的航天器及其方法是由王珂;穆朝絮;刘硕;鲁明;蔡光斌设计研发完成,并于2025-01-09向国家知识产权局提交的专利申请。

一种具有主动防御博弈系统的航天器及其方法在说明书摘要公布了:本发明公开了一种具有主动防御博弈系统的航天器及其方法,所述系统包括运动控制模型、“追‑防‑逃”博弈模型、主动防御博弈训练模块和优化的“追‑防‑逃”博弈模型;所述主动防御博弈训练模块由第一全连接神经网络和第二全连接神经网络构成;其中:所述运动控制模型是每个航天器在LVLH坐标系中追踪星、防御星和逃逸星的脉冲轨道数据;追‑防‑逃”博弈模型用于构建追踪星、防御星和逃逸星各自的博弈目标;所述主动防御博弈训练模块根据多智能体强化学习算法离线对所述“追‑防‑逃”博弈模型优化;所述优化的“追‑防‑逃”博弈模型根据航天器三方博弈场景在线输出防御博弈策略;本发明能够实现防御方航天器主动防御策略,有效提升航天器在轨的安全性能。

本发明授权一种具有主动防御博弈系统的航天器及其方法在权利要求书中公布了:1.一种具有主动防御博弈系统的航天器,其特征在于,所述主动防御博弈系统包括运动控制模型、“追‑防‑逃”博弈模型、主动防御博弈训练模块和优化的“追‑防‑逃”博弈模型; 所述主动防御博弈训练模块由第一全连接神经网络和第二全连接神经网络构成;其中: 所述运动控制模型是每个航天器在LVLH坐标系中追踪星、防御星和逃逸星的脉冲轨道数据;即: 其中:是位置和速度矢量,△vi=[△vi,x,△vi,y]T为速度增量矢量;t0是任务初始时间,ti是第i次机动时间;φt,ti和φvt,ti是CW方程的状态转换矩阵; 所述“追‑防‑逃”博弈模型通过如下公式构建追踪星、防御星和逃逸星各自的博弈目标: 其中:ui=P,E,D为三个航天器的控制策略,为速度增量,tf为终端时刻,rDP为防御星和追踪星的相对距离,rPE为追踪星和逃逸星的相对距离,△rmax为规定最小距离,和分别为单次机动量约束和总机动量约束,所述主动防御博弈训练模块根据多智能体强化学习算法离线对所述“追‑防‑逃”博弈模型优化; 所述优化的“追‑防‑逃”博弈模型根据航天器三方博弈场景在线输出防御博弈策略; 所述主动防御博弈训练模块根据多智能体强化学习算法离线对所述“追‑防‑逃”博弈模型优化过程,包括: 301、分别对第一全连接神经网络、第二全连接神经网络参数经验池空间初始化,所述初始化经验池的每组数据为: Dt={sP,t,sE,t,sD,t,sP,t+1,sE,t+1,sD,t+1,aP,t,aE,t,aD,t,rP,t,rE,t,rD,t}; 其中:sP,t,sE,t,sD,t为当前状态,sP,t+1,sE,t+1,sD,t+1新状态,aP,t,aE,t,aD,t当前机动值,rP,t,rE,t,rD,t当前奖励值; 302、在每个仿真回合中对三个航天器状态进行初始化,并将三个航天器初始状态输入对应的第一全连接神经网络和第二全连接神经网络;其中:所述第一全连接神经网络根据三个航天器输入状态输出机动值,所述第二全连接神经网络根据三个航天器整体输入状态输出评价值; 303、根据第一全连接神经网络输出的机动值输入运动控制模型获得每个航天器在LVLH坐标系中追踪星、防御星和逃逸星的脉冲轨道数据; 304、根据每个追踪星、防御星和逃逸星的脉冲轨道数据输入如下奖励函数模型获得每个追踪星、防御星和逃逸星从状态到行动的最优策略;其中: 距离奖励rL:距离奖励的计算公式为: 其中,αl、αg1和αg2是奖励系数;在时间t,追踪星和逃逸星之间的相对距离定义△LPEt=||rPt‑rEt||2,防御星和追踪星之间的相对距离定义为△LDPt=||rDt‑rPt||2; 时间奖励rt: 其中:ρ代表时间奖励值;对于追踪星和防御星来说,如果任务没有完成,在每个决策点都会给予固定的负奖励,而逃逸星则会在每个决策点获得正奖励;无论成功与否,“Done”标志着脉冲PED任务的结束; 燃料消耗奖励r△v: 终端奖励rDone,包括: a防御星成功捕获逃逸星的终端奖励函数,即: b防御星成功拦截防御星的终端奖励函数,即: c博弈时间超过最大时间的终端奖励函数,即: 最终总奖励为: 305、将每个追踪星、防御星和逃逸星从状态到行动的最优策略存储经验池; 306、判断每个追踪星、防御星和逃逸星从状态到行动的最优策略是否到达终端状态,如果未到达终端状态,则第一全连接神经网络与第二全连接神经网络继续与环境做互动; 返回步骤303;如果达到终端状态,则需要重新初始化三个航天器的状态; 307、判断经验池的数量,如果达到经验池的数量,则通过MAPPO算法更新第一全连接神经网络与第二全连接神经网络;否则系统继续收集数据,返回步骤302; 308、在训练时,采用梯度下降法对第一全连接神经网络和第二全连接神经网络进行更新;在更新过第一全连接神经网络和第二全连接神经网络之后清空经验池; 309、系统判断是否到达最大训练回合,如果到达则停止训练,否则继续训练,返回步骤301; 所述步骤307中通过MAPPO算法更新第一全连接神经网络与第二全连接神经网络过程,包括: 采用如下公式对所述第一全连接神经网络更新: 其中,rtθ为新旧策略的概率比值,为优势函数,其表征当前动作at相较于策略πθ的优势; 采用如下公式对所述第二全连接神经网络更新: 其中:Lcriticθ表示状态st对应的真实价值函数与估计值的差值,由于st对应的价值函数Vπst未知,θ表示为神经网络权值参数θ的函数,即对于某一条轨迹,状态st处的真实价值函数可由下式估算得到: 所述主动防御博弈训练模块根据多智能体强化学习算法离线对所述“追‑防‑逃”博弈模型优化过程,包括: 所述第一全连接神经网络采用Actor网络,其网络输入变量为航天器与其他两个航天器的相对位置和速度以及自身的能量损耗,具有三个个隐藏层,隐藏层节点为256,输出为航天器速度增量,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络; 所述第二全连接神经网络采用Critic网络,其网络输入变量为三个航天器整体的观测变量;输出层的节点数为一个评价值,该评价值用来评判当前状态的好坏;隐含层的层数与节点数可自行定义,此处设计三层隐含层,每层节点数为256,采用ReLU函数作为网络的激活函数,使用Adam优化器训练神经网络。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。