江苏大学蔡英凤获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏大学申请的专利复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115145281B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210845539.1,技术领域涉及:G05D1/43;该发明授权复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法是由蔡英凤;陆思凯;廉玉波;钟益林;陈龙;王海;袁朝春;刘擎超;李祎承设计研发完成,并于2022-07-19向国家知识产权局提交的专利申请。
本复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法在说明书摘要公布了:本发明公开了复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法,提出基于路端静态处理模块和车端动态处理模块的车路协同控制框架,利用路端优势补全道路历史信息;提出联邦强化学习算法FTD3,用于连接强化学习模块和联邦学习模块,算法只传输神经网络参数而非车端数据,保护隐私。算法只选取部分神经网络用于聚合,降低通信开销,选取产生较小Q值的网络用于聚合,防止过拟合,实现联邦学习和强化学习的深度结合:RSU神经网络参与聚合但不参与训练,只使用聚合后的共享模型更新而非车端产生的经验。保护车端隐私,减缓神经网络的趋同;只选取部分神经网络参与聚合,减少网络聚合成本。
本发明授权复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法在权利要求书中公布了:1.复杂路口下基于多智能体联邦强化学习的车路协同控制系统,其特征在于,包括车路协同框架部分和FTD3算法部分;所述车路协同框架部分包括路端静态处理模块、传感器模块、车端动态处理模块,用于合成协同状态量,其中所述路端静态处理模块用于获取静态的道路信息,并从中单独分离车道中心线信息作为静态矩阵传送给车端动态处理模块;所述传感器用于获取车辆动态状态量;所述车端动态处理模块用于合成协同状态矩阵信息,将路端静态处理模块获得的静态矩阵依据车辆的位置信息进行裁剪,然后将连续两帧的矩阵和传感器信息堆叠,从而合成协同状态量,并将其传送给FTD3算法部分;所述FTD3算法部分,根据协同状态矩阵输出控制量,包括强化学习模块和联邦学习模块,其中所述强化学习模块用于输出控制策略,采用马尔可夫决策过程,所述联邦学习模块,用于获取强化学习模块训练好的神经网络参数,聚合共享模型参数,并下发共享模型参数给智能体用于本地更新; 所述强化学习模块包括:神经网络模块、奖励函数模块、网络训练模块; 所述神经网络模块,用于提取协同状态矩阵的特征,并根据特征输出控制量,FTD3中的单个智能体除了拥有演出网络和两个评论家网络外,还拥有他们各自的目标网络,6个神经网络结构除了输出层完全一样,使用1个卷积层和4个全连接层提取并整合特征,对于演出网络,输出层经过tanh激活函数后映射到[-1,1],神经网络输出at1代表CARLA模拟器中方向盘控制量,at2则拆分为[-1,0]、[0,1]分别代表刹车、油门控制量;对于评论家网络,输出层不使用激活函数,直接输出评价值; 所述奖励函数模块,依据执行动作后达到的新状态,评判神经网络模块输出值的好坏,指导网络训练模块进行学习,包含横向奖励函数rlateral和纵向奖励函数rlongitudinal: r=rlateral+rlongitudinal 所述横向奖励函数: r1lateral=-log1.1|d0|+1 r2lateral=-10*|sinradiansθ| rlateral=r1lateral+r2lateral 其中,r1lateral为横向误差相关奖励函数,r2lateral为航向角偏差相关奖励函数;所述纵向奖励函数: r2longitudinal=-|vego-9| rlongitudinal=r1longitudinal+r2longitudinal 其中,其中r1longitudinal为车距相关奖励函数,r2longitudinal为纵向速度相关奖励函数,其中d0表示自车到车道中心线的最小距离,θ表示自车的航向角偏差,dmin表示自车到他车的最小距离,vego表示自车此刻速度,d0、dmin由矩阵中元素的欧氏距离计算得到: d0=min||a28,28-bcenterline||2 dmin=min||a28,28-bx,y||2 其中,a28,28表示自车重心,bcenterline表示车道中心线在协同感知矩阵中位置,bx,y表示他车重心在协同感知矩阵中位置; 所述网络训练模块,用于按照设定方法训练神经网络模块中的神经网络,依据奖励函数模块的指导,演出网络和评论家网络通过反向传播更新参数,所有目标网络通过软更新更新参数,从而达到训练目的,找到最大化累积收益的最优解;从经验池中按照小批次抽样,计算目标函数y: 其中表示演出网络的目标网络策略,表示在常数-c,c之间的正太分布噪声,表示噪声后输出的动作,其中r表示即时回报、γ表示折扣因子、表示状态s'采取演出网络的双目标网络μ's'∣θμ'的动作所获得的较小价值、θμ'表示演出网络的目标网络的参数、θ'l表示评论家网络的目标网络参数,然后通过最小化损失loss更新评论家网络: 其中N表示小批次抽样个数、yi表示目标函数、表示状态s在策略π下采取动作a的价值、θl表示评论家网络的参数,使用策略梯度下降更新演出网络: 其中N表示小批次抽样个数、表示对动作a的偏分、表示对θμ的偏分,表示演出网络,θμ表示演出网络的参数,使用软更新,更新目标网络:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏大学,其通讯地址为:212013 江苏省镇江市京口区学府路301号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。