北京航空航天大学张冉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利基于强化学习的火箭动力着陆段制导控制协作方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119245449B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311203717.1,技术领域涉及:F42B15/01;该发明授权基于强化学习的火箭动力着陆段制导控制协作方法及系统是由张冉;何林坤;李惠峰;薛文超设计研发完成,并于2023-09-18向国家知识产权局提交的专利申请。
本基于强化学习的火箭动力着陆段制导控制协作方法及系统在说明书摘要公布了:本发明公开一种基于强化学习的火箭动力着陆段制导控制协作方法及系统,属于制导控制技术领域。本发明提出一种基于强化学习的制导控制参数调节方法,将参数调节过程建模为马尔可夫决策过程,使用强化学习方法训练参数调节参数调节策略网络,实现模型不确定性和干扰作用下制导控制综合目标的期望最优,提高了火箭动力着陆段制导控制的精度,减少了着陆损耗。
本发明授权基于强化学习的火箭动力着陆段制导控制协作方法及系统在权利要求书中公布了:1.一种基于强化学习的火箭动力着陆段制导控制协作方法,其特征在于,所述方法包括如下步骤: 建立火箭动力着陆段的运动方程; 确定火箭动力着陆段的制导控制综合目标; 基于所述运动方程和所述制导控制综合目标,建立制导控制协作马尔可夫决策过程模型,所述制导控制协作马尔可夫决策过程模型包括参数调节策略网络、参数调节价值网络、制导模块仿真模型、姿控模块仿真模型及运动方程;参数调节策略网络、参数调节价值网络与制导模块仿真模型、姿控模块仿真模型及运动方程形成闭环系统,所述制导控制协作马尔可夫决策过程模型的奖励函数基于所述制导控制综合目标建立; 根据制导控制协作马尔可夫决策过程模型,采用邻近策略优化算法训练参数调节策略网络的参数,得到参数优化的参数调节策略网络; 基于参数优化后的参数调节策略网络生成的行为量进行火箭动力着陆段制导控制,所述行为量为控制参数; 确定火箭动力着陆段的制导控制综合目标,具体包括: 采用终端位置、速度误差表征终端质心状态量约束满足精度,即: ; 其中,为终端着陆时间; 采用动力着陆段飞行初末时刻质量之差表征燃料消耗最优性,即 ; 采用终端时刻火箭纵轴指向单位向量的水平分量表征终端绕质心状态量约束满足精度,即: ; 采用平均姿态跟踪误差和平均发动机摆角表征姿态控制品质,即 ; 其中,为姿态控制周期;和为制导律产生的姿态指令;和均为火箭发动机摆角;综上,动力着陆段制导控制综合目标可表示为如下矢量形式: ; 所述奖励函数为: ; 其中,为奖励函数,为t时刻的状态量,为t时刻的行为量,t为火箭动力着陆段内的时刻,为终端着陆时间,、、、、、为制导控制综合目标中不同目标的加权系数,为终端位置误差、为速度误差,为动力着陆段飞行初末时刻质量之差,为终端着陆时刻火箭纵轴指向单位向量的水平分量,为平均姿态跟踪误差,为平均发动机摆角; 所述运动方程为: ; 其中,为火箭位置;为火箭速度;为重力加速度;为火箭质量;为火箭发动机推力的幅值;指火箭发动机排气速度;和分别为火箭气动力与火箭发动机推力;指三轴角速度;、和分别为火箭俯仰角、偏航角和滚转角;为火箭滚转角绕x轴的基元旋转矩阵、为火箭偏航角绕y轴的基元旋转矩阵;为火箭转动惯量矩阵;和分别为火箭气动力力矩与发动机推力力矩; 所述根据制导控制协作马尔可夫决策过程模型,采用邻近策略优化算法训练参数调节策略网络的参数,得到参数优化的参数调节策略网络,具体包括: 基于制导控制协作马尔可夫决策过程模型进行N次闭环仿真,获得采样序列;所述采样序列中包括N组仿真序列,所述仿真序列包括仿真得到的火箭动力着陆段内不同时刻的状态量和行为量; 基于所述采样序列计算参数调节价值网络的参数更新梯度,并对参数调节价值网络进行参数更新,获得更新后的参数调节价值网络; 基于所述采样序列和更新后的参数调节价值网络,计算参数调节策略网络的参数更新梯度,并对参数调节策略网络进行参数更新,获得更新后的参数调节策略网络; 判断是否达到最大采样步数,获得判断结果; 若所述判断结果表示否,则返回基于制导控制协作马尔可夫决策过程模型进行N次闭环仿真,获得采样序列的步骤; 若所述判断结果表示是,则输出更新后的参数调节策略网络,作为参数优化后的参数调节策略网络; 所述基于制导控制协作马尔可夫决策过程模型进行N次闭环仿真,获得采样序列,具体包括: 基于状态转移的不确定性,将初始的状态量设置为;其中,为初始的状态量,为考虑状态转移的不确定性的状态量初始化函数; 将当前迭代时刻的状态量输入参数调节策略网络,获得当前迭代时刻的行为量; 将当前迭代时刻的行为量输入至所述制导模块仿真模型和所述姿控模块仿真模型进行仿真,获得当前迭代时刻的火箭发动机推力和火箭发动机摆角; 将当前迭代时刻的火箭发动机推力和火箭发动机摆角输入至所述运动方程,获得下一迭代时刻的状态量,返回将当前迭代时刻的状态量输入参数调节策略网络,获得当前迭代时刻的行为量的步骤,直到到达终端着陆时间,获得当前次闭环仿真的仿真序列; 计算参数调节价值网络的参数更新梯度的公式为: ; 其中,为参数调节价值网络的参数更新梯度,和分别为时刻和时刻的状态量,为参数调节价值网络的参数,为使用算数平均近似期望,为t时刻的状态量,为t时刻的行为量,为采样序列,为奖励函数,为以为参数的价值函数神经网络; 计算参数调节策略网络的参数更新梯度的公式为: ; ; 其中,为参数调节策略网络的参数更新梯度,为使用算数平均近似期望,为t时刻的状态量,为t时刻的行为量,为采样序列,为参数调节策略网络的参数,为关于参数的梯度,为策略输出行为概率比,为待训练的参数调节策略网络,为上一次梯度更新后的参数调节策略网络,为使用广义优势估计估计得到的优势函数,为价值网络的时序差分增量,为奖励函数,为加权系数,为更新后的参数调节价值网络,和分别为时刻和时刻的状态量,为参数调节价值网络的参数,为限幅函数,为指代函数,,为策略梯度更新的信赖域半径。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励