华南理工大学卢凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利一种结合Transformer与元强化学习的城市干道自适应信号控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120126311B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510223882.6,技术领域涉及:G08G1/01;该发明授权一种结合Transformer与元强化学习的城市干道自适应信号控制方法是由卢凯;樊舒颖;林晓鹏;丁聪;邢益玮设计研发完成,并于2025-02-27向国家知识产权局提交的专利申请。
本一种结合Transformer与元强化学习的城市干道自适应信号控制方法在说明书摘要公布了:本发明公开了一种结合Transformer与元强化学习的城市干道自适应信号控制方法。本发明提出了分类训练分散决策的多智能体协作结构,定义了绿波待行车辆,设计了能够通过历史状态捕获潜在绿波需求的Transformer模块,在建立单智能体的马尔可夫决策模型中设计了一种权衡协调方向效益和交叉口整体效益的奖励函数,提出了双层元学习Bi‑MAML框架,设计了基于Bi‑MAML的多智能体PPO算法训练流程,实现了城市干道自适应信号控制。本发明提出的干道自适应信号控制方法具有能捕获潜在的绿波需求、兼顾协调方向效益与交叉口整体效益、减少训练成本并保障智能体的针对性与有效性、解决多交叉口模型迁移性差等优点,在实现自适应信号控制的同时有效解决了城市干道多交叉口训练成本高的难题。
本发明授权一种结合Transformer与元强化学习的城市干道自适应信号控制方法在权利要求书中公布了:1.一种结合Transformer与元强化学习的城市干道自适应信号控制方法,其特征在于,包括下述步骤: S1、确定干道的协调方向; S2、对交叉口按类别进行分组; S3、确定各交叉口的检测范围,交叉口的检测范围包括各进口方向从路段停止线到路段起点的距离; S4、定义绿波待行车辆;从协调范围内的上游交叉口的协调方向上绿灯直行通过的车辆,到达下游交叉口时被定义为绿波待行车辆; S5、基于Transformer设计能够提取交叉口历史状态特征的神经网络结构,所设计的改进式Transformer模块包含编码器、解码器和最终输出层; S6、针对每个交叉口,建立单智能体的马尔可夫决策模型; S7、构建分类训练分散决策的多智能体协作结构,在该多智能体协作结构下,相同组别的交叉口进行集中训练,所有交叉口分散决策动作; S8、构建双层元学习Bi-MAML框架,在该框架下设定某个组别的交叉口作为元学习者,将其他智能体视为个体学习者;第一层元学习包括元训练和微调,元训练和微调均包含内层更新和外层更新;第二层元学习只有外层更新; S9、训练基于双层元学习Bi-MAML框架下的多智能体PPO算法模型; S10、利用训练完成的各智能体模型,实现城市干道自适应信号控制; 步骤S6中,建立单智能体马尔可夫决策模型具体包括如下子步骤: S6-1、设计动作为选择本地交叉口下一个执行相位; S6-2、设计状态包含本地交叉口的车辆密度矩阵、车辆速度矩阵、历史动作矩阵和历史状态特征向量; S6-3、对于每个交叉口而言,奖励函数是根据该交叉口的交通状态进行独立计算的,其奖励函数的计算公式如式1所示; 其中,Rt表示在t时刻的奖励值;表示在t时刻的绿波待行车辆的等待时间奖励值,计算公式如式2所示;表示在t时刻的其他车辆的等待时间奖励值,计算公式如式3所示;ρ为系数,用于调节其他车辆的等待时间奖励值的占总奖励的比值; 其中,wm表示车辆m的累计等待时间,表示t时刻绿波待行车辆的数量,表示t时刻其他非绿波待行车辆的数量; 步骤S8,当元学习者在训练中尚未达到设定的元训练回合Emeta时,进行元训练,本次训练只针对元学习者;将元学习者对应的每个交叉口视作一个独立的任务,对任务进行随机抽样,获得不同批次的任务;针对每个批次任务,获取对应的样本,并划分为两类,分别命名为支持集样本和查询集样本;对于每批次任务,分别进行内层更新和外层更新;复制元学习者的模型参数θ创建一个网络副本,内层更新在网络副本上进行,第一次更新,用支持集样本计算损失函数Lsuppθ,并通过公式4对网络副本进行参数更新获得θ′,随后网络副本参数θ′将在支持集上迭代更新多次; θ′=θ-α·▽θLsuppθ4 其中,α为内层更新的学习率,▽θ是参数θ的梯度; 外层更新中,使用查询集样本在内层更新后的网络副本上计算损失函数Lqueryθ′;对每个批次任务在查询集样本上计算的Lqueryθ′求均值得到Lθ′,用梯度下降法对原网络进行训练更新,其参数更新公式如式5所示; θ←θ-β·▽θLθ′5 其中,β为外层更新的学习率; 当元学习者在训练中达到设定的元训练回合Emeta时,进行微调;在微调中,需要对所有智能体,包括元学习者以及所有个体学习者,各自进行一次内层更新和外层更新; 当元学习者与所有个体学习者均进行了一次微调后,进行第二层学习;对所有智能体,包括元学习者以及所有个体学习者,各自从经验池采样,不划分支持集样本和查询集样本,用梯度下降法对各学习者自身的网络进行更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励