南京航空航天大学朱逸阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京航空航天大学申请的专利一种基于强化学习的涡扇发动机直接推力智能控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114527654B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210088552.7,技术领域涉及:G05B13/04;该发明授权一种基于强化学习的涡扇发动机直接推力智能控制方法是由朱逸阳;黄金泉;潘慕绚;高文博设计研发完成,并于2022-01-25向国家知识产权局提交的专利申请。
本一种基于强化学习的涡扇发动机直接推力智能控制方法在说明书摘要公布了:本发明公开了一种基于强化学习的涡扇发动机直接推力智能控制方法,包括以下步骤:步骤1,选取策略和评价网络结构和参数,设计考虑关键安全参数保护的直接推力制器形式和强化学习环境的奖励形式;步骤2,基于连续型策略梯度强化学习算法,利用部件级模型搭建环境进行探索,通过探索获得的经验训练智能体策略网络和评价网络;步骤3,测试智能体在全包线范围内的控制性能表现,优化网络结构和参数。本发明解决了涡扇发动机间接推力控制动态性能差、保守性高、推力控制不精确等问题,通过本发明设计的奖励激励智能体在全包线范围内搜寻动态性能最优的直接推力控制器,并且保证发动机关键安全参数在控制过程中不超限。
本发明授权一种基于强化学习的涡扇发动机直接推力智能控制方法在权利要求书中公布了:1.一种基于强化学习的涡扇发动机直接推力智能控制方法,其特征在于: 包括以下步骤: 步骤1,选取策略和评价网络结构和参数,设计考虑关键安全参数保护的直接推力控制器形式和强化学习环境的奖励形式; 步骤2,训练全包线智能直接推力控制器:基于连续型策略梯度强化学习算法,利用部件级模型搭建环境进行探索,通过探索获得的经验训练智能体策略网络和评价网络; 步骤3,测试智能体在全包线范围内的控制性能表现,优化网络结构和参数; 所述步骤1中的具体步骤如下: 步骤1.1,选取LSTMRNN网络作为强化学习的策略网络和评价网络,定义策略网络的输入和输出;选取大气环境参数和发动机可测量状态参数组成发动机t时刻状态st,选取发动机当前及前n个时刻的状态组成t时刻发动机状态组Xt=[st-2,st-1,st],作为策略网络的输入;策略网络的输出为两个维度为4的向量,分别表示当前状态Xt下策略网络给出的动作at的均值ut和方差σt,当前状态Xt下的动作at=[au,taσ,t];通过定义策略网络的输入和输出,得到由Xt=[st-2,st-1,st]→Yt=[au,taσ,t]构成的输入输出关系;评价网络的输入与策略网络的输入相同,输出为一个标量,表示当前发动机在状态Xt下采取动作at的价值vst|at,得到由Xt=[st-2,st-1,st]→Yt=[vst|at]构成的输入输出关系; 步骤1.2,定义控制器的形式,在控制器中加入积分环节,得到燃油流量Wfb和尾喷口面积A8的控制器表达式为 其中,g1和g2为燃油流量和尾喷口面积变化的惯性系数,Wfb,t表示t时刻燃油的归一化初始状态,A8,t表示t时刻尾喷口面积的归一化初始状态,eF表示推力误差,ΔWfb表示燃油流量增量,表示燃油积分参数,表示喷口积分参数; 步骤1.3,设计强化学习环境奖励形式,奖励由控制精度奖励re,t、控制稳定性奖励rs,t和关键参数超限惩罚rl,t三部分组成; 控制精度奖励re,t为 Fref表示推力指令,F表示推力的归一化指令; 控制稳定性奖励rs,t为常数 rs,t=0.1 关键安全参数超限惩罚rl,t为 分别表示风扇喘振惩罚、压气机喘振惩罚、高压压气机出口总压超限惩罚、低压涡轮出口总温超限惩罚、低压转子转速超限惩罚; t时刻的总奖励可写为 rt=re,t+rs,t+rl,t; 所述步骤2中全包线智能直接推力控制器训练方法的具体步骤如下: 步骤2.1,根据经验设定学习率、最大回合数、回合长度、策略更新频率、批处理数据维度、策略更新次数; 步骤2.2,在同一回合中,随机选取工作点、初始状态和推力指令,在设定的环境中进行探索,直到达到回合时间上限;记录探索过程中的状态、动作及奖励信息,生成经验池供智能体更新使用; 步骤2.3,重复步骤2.2的步骤,当达到更新回合数时,更新智能体的策略和价值网络; 所述步骤2.2中生成经验池的具体步骤如下: 步骤2.2.1,在包线内随机选取工作点H,Ma和初始状态,在该点找出可行推力范围,并在该范围内随机选取一个推力值作为推力指令Fref; 步骤2.2.2,在t时刻根据发动机状态,生成发动机状态组Xt=[st-2,st-1,st],并将其作为策略网络的输入,得到当前状态Xt下的动作at=[au,taσ,t];根据动作的均值ut和方差σt,在正态分布下采样获得当前的动作,通过步骤1定义的控制器形式,得到发动机控制量,将控制量作为部件级模型输入,动态计算后,通过t+1时刻部件级模型状态生成t+1时刻的发动机状态组Xt+1,根据步骤1确定的奖励形式计算t+1时刻的奖励rt+1;记录一步动态过程中,发动机状态组Xt和Xt+1、策略网络的动作at,以及奖励rt+1,将其视为一组数据加入经验池供智能体训练使用; 步骤2.2.3,根据步骤2.2.2所述的方法,在同一个工作点持续采样,直到达到回合时间长度上限; 所述步骤2.3中的策略网络和价值网络更新的具体步骤如下: 步骤2.3.1,步骤2.2针对经验池中的一组数据,求取回报Gt=rt+rt+1+…+rT;下标T表示一个回合中最后一时刻的时间序列;借助马尔可夫递归,可将该过程简化为Gt=rt+1+γGt+1,其中γ为折扣系数,表示未来时刻对于当前时刻的重要性;将t+1时刻的发动机状态组Xt+1作为评估网络的输入得到价值Vt+1,用Vt+1代替Gt+1,得Gt=rt+1+γVt+1; 步骤2.3.2,通过对比回报Gt和价值Vt,计算t时刻动作at|Xt的优势对比新策略和老策略选择当前动作的概率πθat|Xt和得到概率比通过设定的剪切参数ε,并将其限制在[1-ε,1+ε]之间,以限制策略更新幅度; 步骤2.3.3,基于PPO算法,计算损失函数,更新智能体策略网络和价值网络; 所述步骤3中智能体网络结构和参数优化的具体步骤如下: 步骤3.1,随机生成l组1×3的数组ci=[Wfb,i,A8,i,Fi],i=1,...,l,组成其中Wfb,i表示第i组试验中燃油的归一化初始状态,A8,i表示第i组试验中尾喷口面积的归一化初始状态,Fi表示第i组试验中推力的归一化指令,并且Wfb,i∈[0,1],A8,i∈[0,1],Fi∈[0,1]; 步骤3.2,在同一工作点H,Ma下,分别获取当前工作点的最大推力Fmax和最小推力Fmin,最大燃油流量Wfb,max和最小燃油流量Wfb,min,最大尾喷口面积A8,max和最小尾喷口面积,根据步骤3.1中的建立若干个测试样例,并且进行反归一化,得到初始燃油、初始尾喷口面积和推力指令值; Wfb,ini,i=Wfb,i·Wfb,max-Wfb,min+Wfb,min A8,ini,i=A8,i·A8,max-A8,min+A8,min Fref,i=Fi·Fmax-Fmin+Fmin 步骤3.3,基于得到的策略网络和步骤3.2中生成测试样例,对推力进行控制; 步骤3.4,根据步骤1中的奖励表达式计算控制过程中每一时刻的奖励值rt,t=1,...,T,将每一时刻奖励值的总和记为该测试样例在该工作点的评分 步骤3.5,在全包线范围内,按高度和马赫数划分出n×m个网格点,在这些网格点上分别进行测试,记录每个点的评分、全包线的平均评分以及方差; 步骤3.6,根据评分评估控制器性能,调整网络结构参数和训练参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。