北京理工大学侯晓慧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种面向自动驾驶赛车的极限驾驶规划控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117270527B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311173726.0,技术领域涉及:G05D1/43;该发明授权一种面向自动驾驶赛车的极限驾驶规划控制方法是由侯晓慧;甘明刚;陈杰;吴玮;马千兆设计研发完成,并于2023-09-12向国家知识产权局提交的专利申请。
本一种面向自动驾驶赛车的极限驾驶规划控制方法在说明书摘要公布了:本发明提供了一种面向自动驾驶赛车的极限驾驶规划控制方法,后退式强化学习模块设计难度逐步提升的多阶段强化学习课程,依次利用专家引导策略和强化学习策略完成整个赛道的车辆轨迹规划,并在训练过程中逐步后退提高强化学习策略的应用范围;风险感知变异模块结合好奇心驱动机制和变异算法,通过对关键风险状态和强化学习动作网络进行变异操作,促进强化学习算法学习关键风险状态中蕴含的极限驾驶知识,提升临界风险状态下的鲁棒性和安全性;模型预测控制模块:基于非线性模型预测控制算法生成局部最优控制命令,跟踪后退式强化学习模块提供的目标轨迹,使得满足车辆动力学约束并能够预测潜在风险,可以实现自动驾驶赛车的运动控制。
本发明授权一种面向自动驾驶赛车的极限驾驶规划控制方法在权利要求书中公布了:1.一种面向自动驾驶赛车的极限驾驶规划控制方法,其特征在于,包括如下步骤: 步骤1、将整个赛道T分为N个部分,表示为; T=[T1,T2,…,Ti,…,TN]1 式中,Ti表示第i个赛道阶段;在每个训练回合中,后退式强化学习模块采用强化学习算法在前h个阶段使用事先获得的专家引导策略πg,在剩余的N-h个阶段使用强化学习算法进行探索学习,直至总体性能Mπ达到预设的性能阈值或达到指定的训练回合数,将进入下一个课程学习阶段h=h-1;h逐渐从N-1迭代降低至0,由强化学习的探索范围从最后一个赛道逐步后退至整个赛道; 其中,强化学习算法的状态空间S设置为: 式中,h表示课程学习的迭代阶段;sF为沿着参考线方向的曲线长度,dF为偏离参考线的法向距离;β,ψ和分别表示车辆的质心侧偏角、航向角和横摆角速度;V表示总车速,Vs和分别表示当前状态和专家引导策略在sF=s处于参考路径相切的速度分量;ag表示车辆的总加速度大小,单位用重力加速度g表示,M为当前车辆状态模式; 强化学习算法的动作空间A设置为: A=[dF_com,ΔVs_com]T3 式中,dF_com表示当前目标位置到参考路径的法向距离,表示与参考路径相比的Vs残差项,其中Vs_com表示最终传递给模型预测控制模块的Vs速度分量命令值; 强化学习算法的奖励函数R由瞬时奖励Rw、阶段奖励Rp和终止状态奖励Rl三个奖励类型组成,表示为: R=Rw+Rp+Rl4 步骤2、对关键风险状态和强化学习动作网络进行变异操作,具体包括: 步骤21、识别风险状态 在强化学习训练过程中,将包含关键风险状态的四元组st,at,rt,st+1存储到另外一个经验池D′中,并通过代价函数Jc来识别风险状态,当JcJc0,st被定义为风险状态,其中Jc0代价函数的安全阈值; 步骤22、内在奖励设计 当从经验池D采样一批样本并识别到风险状态st时,通过对车辆关键运动状态叠加高斯噪声进行变异操作,得到M个增强状态gst;基于奖励函数R和代价函数Jc定义每两个增强状态gi*st和gj*st间的变异指数cij,其定义为: 选取对应cij最高值的两个增强状态gi*st和gj*st,并引入一个与cij的M个增强状态中最高值ci*j*成正比的好奇心驱动的内在奖励Rint,其定义为: Rint=λci*j*exp-ησ13 式中,λ为温度系数,η为衰减权重,σ为训练回合;对于Jc≤Jc0的状态,内在奖励Rint设置为0;将式4中的外部奖励R与内在奖励Rint相加,得到强化学习算法的总奖励 步骤23、网络权重变异 为分析风险状态的敏感度,每隔设定回合从经验池D′采样一批样本N′,设其由n个包括风险状态的四元组构成;计算当前动作网络权重φa的风险敏感性其定义为: 式中,∣s∣和∣a∣分别表示强化学习算法状态空间和动作空间的维数;随后基于高斯噪声和风险敏感性设置动作网络权重的扰动其定义为: 步骤24、网络权重更新 基于生成的n个扰动对应生成n个变异后的动作网络权重: 依据以上n个变异后的相似动作网络在各自风险状态下的性能表现,选择最佳动作网络权重,记为φbest;将其取代当前动作网络权重φa,并用于之后的迭代更新; 后退式强化学习模块基于更新后的动作网络权重,得到包括参考路径和参考车速的目标轨迹; 步骤3:基于非线性模型预测控制算法跟踪后退式强化学习模块提供的参考路径和参考车速,并生成局部最优控制命令,使其满足车辆动力学约束并能够预测潜在风险,该非线性模型预测控制算法表示为: s.t.xk+1=fxk,uk19 式中,k表示第k步,C为控制步长,与预测步长一致;为C个控制步长内的局部最优控制序列;和表示非线性模型预测控制算法的状态范围和控制变量范围;为目标纵向位移;W={wr,wv,wu}分别表示路径跟踪误差、速度跟踪误差和控制变量变化率Δu的代价函数权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励