吉林大学杜昕祺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利基于多智能体强化学习的多路口交通信号灯公平控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118298648B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410269549.4,技术领域涉及:G08G1/083;该发明授权基于多智能体强化学习的多路口交通信号灯公平控制方法是由杜昕祺;陈贺昌;常毅;邢永恒;张斯诺设计研发完成,并于2024-03-11向国家知识产权局提交的专利申请。
本基于多智能体强化学习的多路口交通信号灯公平控制方法在说明书摘要公布了:本发明属于智能交通控制技术领域,具体公开了基于多智能体强化学习的多路口交通信号灯公平控制方法,设计了一种新型的公平性度量指标,并提出了一种公平性感知的多智能体强化学习方法,可以在确保模型性能不受影响的前提下,提供相对公平的动作决策;提出了反事实数据增强的模块,通过利用反事实思想,基于已有的交互数据实现数据集的扩展,有利于丰富交互数据的多样性,进而在交互数据收集受限的任务中提高训练样本效率;设计了辅助自监督表示学习任务,通过状态之间天然的时序关系构建自监督表示学习损失,额外训练损失的引入有利于状态信息特征提取,提升模型训练样本效率。
本发明授权基于多智能体强化学习的多路口交通信号灯公平控制方法在权利要求书中公布了:1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤: S100、建立多路口交通信号灯调度模型进行交通信号灯相位调度; S200、结合反事实数据增强过程和自监督状态表示学习过程建立公平性感知的动作决策模型衡量交通信号灯相位调度的不公平程度;其中: 反事实数据增强过程:通过生成对抗网络近似得到环境状态转移函数,然后利用反事实学习以推断未发生的交互数据,进而丰富交互数据的多样性,帮助提升模型训练的样本效率; 自监督状态表示学习过程:通过自监督学习方法训练状态编码器,通过将状态编码器网络从Q-网络中分离出来,并设置自监督学习辅助任务增加额外的网络训练损失,以改善状态表示,实现从高维交通数据中提取有效特征,进而提高模型的样本效率; 公平性感知的多智能体强化学习任务具体包括: 状态:在一个多路口交通信号灯控制任务中,每个智能体的局部观测值包含四种信息:1当前的信号灯相位,2当前路口所有入车道中的等待车辆的数目,3基于额外等待时间的公平性度量指标以及4邻居路口的路况信息;其中,等待车辆数目用于反映不同信号灯相位的性能需求,公平性度量指标用于体现动作决策的不公平程度,邻居信息用于实现多个路口交通信号灯的协作调度; 动作:动作定义为从候选的信号灯相位集合中选取下一个时段要调度的相位,即每间隔时长,每个智能体选择下一个时间间隔内要调度的信号灯相位,其中候选集合中共有四种可选的相位;在动作集合中,每个动作由一个8-维度的向量表示,分别对应不同的交通流方向,其中1表示允许相应的交通流通行,0表示禁止相应的交通流通行; 奖励函数:每个智能体将从环境中获得即时奖励,奖励函数定义为关于路口队列长度和公平性度量指标的函数,具体定义为:; 其中表示当前路口中入车道的队列长度,表示时刻的基于额外等待时间的公平性度量指标,是超参数用于权衡模型性能和决策公平性之间的重要程度; 在训练过程中,采取深度Q-网络算法用于模型训练,它包括一对Q-网络和目标Q-网络,分别被和参数化;Q-网络更新时采用时间差分法进行更新,其损失函数为: ; ; 其中,表示用于计算累积奖励的折扣因子,以平衡长期奖励和立即奖励; 反事实数据增强过程具体包括:定义表示一组观测变量,结构因果模型的定义为,其中表示的父变量,表示噪声,函数表示因果机制,它能够建立,和之间的关系;在强化学习中,智能体在给定状态执行动作,然后观察到环境反馈的后续状态;基于结构因果模型,通过推断事实情况的反事实结果,即通过在相同的环境状态中推断执行随机动作的影响,得到预测的下一时刻状态;假设时刻的状态满足结构因果模型,则它的定义如下:; 其中表示因果机制函数;和分别表示状态和动作变量;表示由于未观测因素导致的噪声,它独立于和; 通过生成对抗网络近似获得状态转移函数,即因果函数;交替地训练判别器和生成器,使得生成器生成的假样本能欺骗判别器,同时,训练后的生成器被用作因果函数,基于元组的前提下预测下一个状态,生成对抗网络的损失函数定义如下所示: ; ; 其中表示交互数据元组,包含状态,动作和噪声;函数用于区分生成数据和原始数据的差异;函数表示生成网络用于近似替代因果函数;函数示判别器网络,用于区分真实交互数据和生成的数据;定义和分别表示下一个状态和交互元组的分布情况; 给定一条交互数据,将动作替换原有动作,预测下一时刻的环境状态;其中,动作是从动作集中随机采样的,然后连同其他原始的交互信息和传入生成器网络中,输出反事实结果;奖励值从状态信息中计算得出;得到反事实数据增强数据集,有利于提高强化学习方法的样本效率; 自监督状态表示学习过程具体包括: 状态编码器网络采用了注意力机制以实现多个交通路口之间的协作,生成的状态表示向量的定义如下:; ; ; 其中,是表示函数;是相似度函数,用于评估两个输入之间的相似度;表示当前路口的邻居路口的集合;注意力权重用于计算最终的表示向量;参数,和是可学习的参数; 自监督状态表示学习包含状态编码器网络、目标状态编码器网络和转移网络;其中,状态编码器网络表示为负责将状态映射到状态表示向量,该表示向量同时也用作Q-网络的输入信息;目标状态编码器表示为,它和状态编码器网络的功能相同,即以原始状态为输入,输出状态表示向量,它们具有相同的网络结构;转移网络表示为,以状态表示向量和动作作为联合输入信息,然后预测下一时刻的状态表示向量,实现了自监督学习中正例构建的目的;最后,预期的状态表示和原始的状态表示将用于计算自监督学习的损失函数,其定义如下:; 其中,表示批数据的大小;在目标状态编码器网络的网络参数的更新采用指数移动平均值的方式,参考状态编码器网络的参数进行更新,更新方式的定义如下:;其中和分别表示状态编码器网络和目标状态编码器网络的参数; 最终的损失中函数包含强化学习的目标函数和自监督表示学习的目标函数,它们采用随机梯度下降的方式进行联合训练,总损失函数表示为:,其中是一个超参数用于调节两种目标函数的权重; S300、将不公平程度引入状态向量和奖励函数中实现公平的交通信号灯调度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130000 吉林省长春市前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励