江苏大学朱子轩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏大学申请的专利一种结合深度强化学习和RSS策略的商用车队列路径规划方法、控制器、存储装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115079697B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210748792.5,技术领域涉及:G05D1/43;该发明授权一种结合深度强化学习和RSS策略的商用车队列路径规划方法、控制器、存储装置是由朱子轩;蔡英凤;陈龙;孙晓强;何友国;袁朝春;方啸;陆文杰设计研发完成,并于2022-06-29向国家知识产权局提交的专利申请。
本一种结合深度强化学习和RSS策略的商用车队列路径规划方法、控制器、存储装置在说明书摘要公布了:本发明公开了一种结合深度强化学习和RSS策略的商用车队列路径规划方法、控制器、存储装置,引入A3C框架,利用多线程方法,让车队中的车辆同时在多个线程里面分别和环境进行交互学习,每个线程都把学习的成果汇总起来,整理保存在Global_net。并且,定期从Global_net把车队中不同车辆的学习成果拿回来,指导自己和环境后面的学习交互。同时,使用Lattice算法,取ST图进行速度规划,能够有效地提高车队行驶的稳定性和舒适性,保证商用车行驶轨迹的平顺性。最后,本发明结合一种安全约束RSS策略,基于数学公式的自动驾驶汽车安全策略为隐性规则提供了一个框架,从而实现了与道路上其他参与者的有机融合,可以有效地解决队列行驶遇到其他车辆汇入时的安全问题。
本发明授权一种结合深度强化学习和RSS策略的商用车队列路径规划方法、控制器、存储装置在权利要求书中公布了:1.一种结合深度强化学习和RSS策略的商用车队列路径规划方法,其特征在于,包括如下步骤: S1、设计时序鸟瞰图作为策略网络的状态量; S2、进行Frenet坐标变换,从特征鸟瞰图中获得当前时刻智能体的状态量并将动作空间设计为轨迹的纵向末状态:其中,s为Frenet坐标系下的纵向位移,为Frenet坐标系下纵向位移s关于时间t的一阶导数,为Frenet坐标系下纵向位移s关于时间t的二阶导数, S3、将所获得的状态量和动作空间作为策略网络输入,利用策略梯度算法改进Lattice规划算法,同时结合RSS策略设计奖励函数,训练出智能体的末状态纵向状态; 所述策略网络πθz,a包括卷积特征提取网络CNN和全连接网络FCN;其中z为策略网络的输入状态量,包括时序鸟瞰图矩阵和自车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数,卷积特征提取网络CNN的输入为上述的时空鸟瞰图矩阵,输出为最终提取的环境特征信息,全连接网络FCN的输入为卷积特征提取网络CNN输出的环境特征信息和自动驾驶汽车的历史轨迹信息,输出为轨迹的末状态 策略网络的卷积神经网络包括三层卷积层,两层池化层和三层全连接层,输入层将3个256*256*3的矩阵合并为256*256*9的矩阵;所述的卷积层Conv1由3*3*9*32,步长stride=2的卷积核组成,其输入是输入层的输出,为256*256*9的矩阵,其输出为128*128*32的特征;所述的池化层Pool1由2*2,步长stride=2的池化核组成,其输入是卷积层Conv1的输出,为128*128*32的特征,其输出为64*64*32的特征;所述的卷积层Conv2由3*3*32*64,步长stride=2的卷积核组成,其输入是池化层Pool1的输出,为64*64*32的特征,其输出为32*32*128的特征;所述的池化层Pool2由2*2,步长stride=2的池化核组成,其输入是卷积层Conv2的输出,为32*32*128的特征,其输出为16*16*128的特征;所述的卷积层Conv3由3*3*128*128,步长stride=2的卷积核组成,其输入是池化层Pool2的输出,为16*16*128的特征,其输出为8*8*128的特征;所述的全连接层FC的尺寸为8*8*128*512,其输入是卷积层Conv3的输出,为8*8*128的特征,其输出为1*1*512的特征,所述的全连接层FC-μ和全连接层FC-σ为并联结构,输入均是卷积神经网络提取的特征,为1*1*512的特征,全连接层FC-μ的输出为1*1*512的特征,全连接层FC-σ的输出为1*1*512的特征,全连接层FC-μ和全连接层FC-σ提取的特征共同构成状态特征z; 所述策略网络的奖励函数设计如下: reward=k1·rspeed+k2·racc+k3·rsafe 其中,k1~k3为每部分奖励对应的比例系数,rspeed为速度奖励,目标为将车速保持在目标车速,vtarget为期望目标车速,ttotal为该轨迹以时间为单位对应的轨迹点的个数,vt为规划轨迹在时间t处的车速: 其中racc为纵向舒适度奖励,目标为保持较小的纵向加加速度,为规划轨迹在时间t处的纵向加速度: 其中rsafe为安全奖励,目标为生成的轨迹符合安全标准; 纵向安全距离: vf为前车速度,vr为后车速度,ρ为驾驶员反应时间,amin,brake为最小刹车加速度,amax,brake为最大刹车加速度,amax,accel为最大加速度; 横向安全距离: v1为自车速度,v2为横向的别车速度,μ为两车横向速度为0时,横向距离的最小值,为横向最大加速度,为横向最小刹车加速度,ρ为驾驶员反应时间; 当按照策略网络生成的轨迹行驶时,与前后车或者加塞进车队的其他车辆的横纵向距离小于最小安全距离时,奖励为-100,否则为0: d为与其他车辆之间的距离; S4、利用当前自车的纵向状态和末状态纵向状态作为边界条件,进行纵向轨迹多项式拟合,得到最优轨迹。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏大学,其通讯地址为:212013 江苏省镇江市京口区学府路301号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。