哈尔滨工业大学周栋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利一种基于深度强化学习的非合作航天器主动跟踪方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119002255B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410966496.1,技术领域涉及:G05B13/04;该发明授权一种基于深度强化学习的非合作航天器主动跟踪方法是由周栋;孙光辉;邵士博;邵翔宇;吴立刚设计研发完成,并于2024-07-18向国家知识产权局提交的专利申请。
本一种基于深度强化学习的非合作航天器主动跟踪方法在说明书摘要公布了:一种基于深度强化学习的非合作航天器主动跟踪方法,本发明涉及非合作航天器主动跟踪方法。本发明属于航天航空领域。本发明的目的是为了解决现有算法无法融合航天器动力学模型以及卫星轨道动力学,无法有效的在保证跟踪精度的基础上提升算法鲁棒性,无法有效的从训练样本中有效提取出关于目标的时序相关信息等缺陷。过程为:1、获得追逐航天器的位置以及速度;2、构建演员网络和评论家网络,以及损失函数;3、构建奖励函数,获得训练好的演员网络、评论家网络;4、获得目标航天器与追逐航天器之间位置与期望位置的差距,以及目标航天器与追逐航天器之间的速度差,输入训练好的演员网络,训练好的演员网络输出当前时间步的动作。
本发明授权一种基于深度强化学习的非合作航天器主动跟踪方法在权利要求书中公布了:1.一种基于深度强化学习的非合作航天器主动跟踪方法,其特征在于:所述方法具体过程为: 步骤1、基于目标航天器和追逐航天器的基础参数、目标航天器和追逐航天器的坐标系、目标航天器和追逐航天器所受万有引力,将目标航天器所受的万有引力转换为目标航天器的位置以及速度,将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度; 步骤2、设置状态空间和动作空间,构建基于Transformer的演员网络和评论家网络,以及演员网络的损失函数和评论家网络的损失函数; 步骤3、构建奖励函数,获得训练好的演员网络、评论家网络; 步骤4、获得目标航天器与追逐航天器之间位置与期望位置的差距,以及目标航天器与追逐航天器之间的速度差,输入训练好的演员网络,训练好的演员网络输出当前时间步的动作; 所述在步骤1中基于目标航天器和追逐航天器的基础参数、目标航天器和追逐航天器的坐标系、目标航天器和追逐航天器所受万有引力,将目标航天器所受的万有引力转换为目标航天器的位置以及速度,将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度; 具体过程为: 步骤11、定义目标航天器和追逐航天器的基础参数;具体过程为: 目标航天器的基础参数为:目标航天器自身质量、目标航天器最大推力、目标航天器调整频率; 追逐航天器的基础参数为:追逐航天器自身质量、追逐航天器最大推力、追逐航天器调整频率; 步骤12、设定目标航天器和追逐航天器的坐标系;具体过程为: 目标航天器与追逐航天器的坐标系使用地心惯性坐标系,并只考虑目标航天器与追逐航天器的二维运动,不考虑z轴上的位置变换、速度变换以及推力输出,地心惯性坐标系原点为地球球心; 步骤13、定义目标航天器和追逐航天器所受万有引力;具体过程为: 目标航天器所受万有引力Fg,tar和追逐航天器所受万有引力Fg,c如下式所示: rc=rtar+c,c∈[-150,150] 其中, rtar为目标航天器初始轨道半径,rc为追逐航天器轨道半径; G为引力常量,数值为6.67×10-11N·m2kg2; M为地球质量,数值为5.977×1024kg; mtar为目标航天器自重,mc为追逐航天器自重; c为随机变量; 步骤14、将目标航天器所受的万有引力转换为目标航天器的位置以及速度; 将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度; 具体过程为: 步骤141、将目标航天器所受的万有引力转换为目标航天器的位置以及速度;具体转换如下式所示: 其中,·表示矩阵点乘,Pt,tar表示t时刻目标航天器在地心惯性坐标系下的位置,Vt,tar表示t时刻目标航天器在地心惯性坐标系下的速度,Pt+1,tar表示t+1时刻目标航天器在地心惯性坐标系下的位置,Vt+1,tar表示t+1时刻目标航天器在地心惯性坐标系下的速度;Δt为调整频率;A为t时刻的航天器信息转换矩阵; 表示目标航天器在当前位置下的单位向量,具体形式如下式所示: 其中,r2,tar表示目标航天器在地心惯性坐标系下的矢量位置,r1为地球球心在地心惯性坐标系下的矢量位置; 步骤142、将追逐航天器所受的万有引力转换为追逐航天器的位置以及速度;具体转换如下式所示: 其中,FRL表示演员网络输出的动作,Pt,c表示t时刻追逐航天器在地心惯性坐标系下的位置,Vt,c表示t时刻追逐航天器在地心惯性坐标系下的速度,Pt+1,c表示t+1时刻追逐航天器在地心惯性坐标系下的位置,Vt+1,c表示t+1时刻追逐航天器在地心惯性坐标系下的速度;Δt为调整频率;A为t时刻的航天器信息转换矩阵; 为追逐航天器在当前位置下的单位向量;具体形式如下式所示: 其中r2,c表示追逐航天器在地心惯性坐标系下的矢量位置,r1为地球球心在地心惯性坐标系下的矢量位置; 所述t时刻的航天器信息转置矩阵A具体形式如下式所示: 所述步骤2中设置状态空间和动作空间,构建基于Transformer的演员网络和评论家网络,以及演员网络的损失函数和评论家网络的损失函数;包括以下步骤: 步骤21、设置状态空间; 状态空间包含目标航天器与追逐航天器之间位置与期望位置的差距,以及目标航天器与追逐航天器之间的速度差; 状态空间为连续状态空间; 步骤22、设置动作空间; 动作空间被定义为一个二维向量; 动作空间为连续动作空间:a=[ax,ay],ax∈[-4,4],ay∈[-4,4]; 其中,a为动作,ax为在地心惯性坐标系的x轴上对追逐航天器施加的动作,ay为在地心惯性坐标系的y轴上对追逐航天器施加的动作; 步骤23、构建演员网络和评论家网络; 演员网络依次包括:嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、第五全连接层、输出层; 演员网络的具体处理过程为: 将当前状态数据依次输入嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、第五全连接层、输出层,输出层输出当前状态下动作; 评论家网络依次包括:嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、拼接层、第五全连接层、输出层; 评论家网络的具体处理过程为: 将当前时刻状态数据依次输入嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层,第二降维层输出特征数据与当前时刻状态对应的当前时刻动作输入拼接层后依次输入第五全连接层、输出层,输出层输出当前时刻状态以及当前时刻动作的评估值数据; 步骤24、构建目标演员网络和目标评论家网络; 目标演员网络依次包括:嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、第五全连接层、输出层; 目标演员网络的具体处理过程为: 将下一时刻状态st+1数据依次输入嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、第五全连接层、输出层,输出层输出下一时刻状态st+1下动作at+1数据; 目标评论家网络依次包括:嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层、拼接层、第五全连接层、输出层; 目标评论家网络的具体处理过程为: 将下一时刻状态st+1数据依次输入嵌入层、位置编码层、第一编码层、第二编码层、第三编码层、第一全连接层、第二全连接层、第三全连接层、第一降维层、第四全连接层、第二降维层,第二降维层输出特征数据与下一时刻状态对应的下一时刻动作输入拼接层后依次输入第五全连接层、输出层,输出层输出状态动作对st+1,at+1的目标值数据; 步骤25、设置演员网络的损失函数;具体过程为: 演员网络的损失函数的表达式为: 其中,Jμ为演员网络的损失函数,Q为评论家网络,μ为演员网络,θ为网络参数,θμ为演员网络的参数,θQ为评论家网络的参数,ωt为权重,t为时间步,B为批数量,st为当前时刻状态; 所述演员网络的损失函数的获取过程为: 评论家网络所获得的Q值维度为B×1,基于评论家网络获得的Q值获得累积期望回报,将获得的累积期望回报进行排序,即: qqt=-Qst,μst|θμ|θQ qq1<qq2<...<qq64 其中,qqt为累积期望回报; 对Q值按照累积期望回报从小到大的排序赋予不同的权重值: ωq1>ωq2>...>ωq64 其中,ωqt为Q值对应的权重值; 基于qqt和ωqt构建演员网络的损失函数: 步骤26、设置评论家网络的损失函数;具体过程为: 评论家网络的损失函数的表达式为: 其中JQ为评论家网络的损失函数;rt为当前状态执行当前动作的奖励值;done是判定当前状态是否为结束状态;Q'为目标评论家网络;μ'为目标演员网络;γ为衰减函数;st+1为t+1时刻状态;at为当前时刻动作;θμ'为目标演员网络的参数;θQ'为目标评论家网络的参数; 所述评论家网络的损失函数的获取过程为: 首先用评论家网络计算出当前状态动作对st,at的评估值: qt=Qst,at|θQ 其中,qt为当前时刻的评估值,Q为评论家网络,st为当前时刻的状态,at为当前时刻的动作,θQ为评论家网络的参数; 通过目标演员网络,获得下一时刻的动作: at+1=μ'st+1|θμ' 其中,at+1为通过目标演员网络所预测出的下一时刻的动作,μ'为目标演员网络,st+1为下一时刻的状态,θμ'为目标演员网络的参数; 通过目标评论家网络,结合下一时刻动作、下一时刻的状态、当前步所获得的奖励以及是否为终止状态计算状态动作对st+1,at+1的目标值: yt=rt+γ1-doneQ'st+1,at+1|θQ' 式中,yt为状态动作对st+1,at+1的目标值,rt为当前状态st执行动作at的奖励值,Q'为目标评论家网络,θQ'为目标评论家网络的参数; 计算出目标值与评估值之后,对目标值与评估值进行相减: Lt=yt-qt 所得Lt为B×1维,最终获得评论家网络的损失函数:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励