Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连交通大学刘丽娟获国家专利权

大连交通大学刘丽娟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连交通大学申请的专利基于深度强化学习的多交叉路口交通信号控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117012044B

龙图腾网通过国家知识产权局官网在2026-01-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310889063.6,技术领域涉及:G08G1/081;该发明授权基于深度强化学习的多交叉路口交通信号控制方法是由刘丽娟;白光明设计研发完成,并于2023-07-19向国家知识产权局提交的专利申请。

基于深度强化学习的多交叉路口交通信号控制方法在说明书摘要公布了:一种基于深度强化学习的多交叉路口交通信号控制方法,路网中红绿灯作为智能体,该智能体运行一个深度强化学习算法,根据多叉路口的具体情况对红绿灯的相位选择进行训练,通过对红绿灯相位选择的调节可以完成车流调节。根据五进路口的交通状况输入深度强化学习算法中获得评分值最高的行动,从而对红绿灯的相位进行调节,并且不断的对采取行动进行调整,从而使得路网中的车流得到最优的调节,保证道路的通行效率最优,同时也可以经过适当的简化,应用于8相位、6相位的交叉路口。本发明解决车辆等待时间过长、车道被占有率过高、模型训练不稳定不合理的问题。

本发明授权基于深度强化学习的多交叉路口交通信号控制方法在权利要求书中公布了:1.一种基于深度强化学习的多交叉路口交通信号控制方法,其特征在于,包括如下步骤: 步骤一:定义状态空间S、动作空间A、奖励值函数r,设计车辆文件和搭建仿真环境:状态空间S具体为车辆和行人在交叉路口各车道上的位置,路口车辆排队长度,车辆速度,其中状态空间S为当前决策点所有车辆和行人在车道的位置,状态ss∈S为二进制一维数组,其中状态s为单个车辆或行人位置,队列长度和车辆速度从仿真软件中实时获取;动作空间A具体为信号控制的相位;奖励函数r具体为车辆等待时间、队列长度、车辆速度和行人等待时间,进行加权求和得到的奖励值函数r: r=μ1*rqueue+μ2*rv_waitTime+μ3*rspeed+μ4*rp_waitTime1 其中μ1、μ2、μ3、μ4为奖励函数的权重,权重之和为1,rqueue表示为决策点时各叉路口车辆排队的总长度,rv_waitTime表示为当前所有车辆的等待时间之和,rspeed表示为当前车辆的平均速度,rp_waitTime表示为该决策点行人在路口等待时间;设计车辆文件具体为交通控制模型训练使用的车流量数据;搭建仿真环境具体为在SUMO仿真软件中设计三车道五进路口的交叉路口;路口状况分为三种;五进路口且10相位,分别是向北直行右转、向南直行右转、南北直行、南北左转、向东1直行右转、向东2直行右转、向西直行右转、西东1直行、西东2直行、东西左;8相位的十字路口;6相位的三岔路口; 步骤二:初始化神经网络参数、经验池D、其他参数:初始化神经网络参数是定义对决双重深度Q网络的主网络Q、目标网络Q′,同时初始化主网络Q的网络参数θ,并将Q网络参数赋值给Q′,θ→θ′,其中主网络Q为神经网络技术和对决深度Q网络技术实现,神经网络连接方式均为全连接,其中拥有8个隐藏层来估算出当前状态的价值,目标网络Q′由主网络Q更新而来,θ为主网络Q的神经网络参数,θ′目标网络Q的神经网络参数;经验池D为存储主网络Q训练过程中的数据记录,把存储的记录标注优先级,形成优先级经验池D;其他参数为模型训练的总迭代轮数T,减少下一状态奖励的衰减因子γ,决定随机选择动作的探索率∈,目标网络Q′更新频率p,仿真模拟的最大步数Step,训练主网络Q时每次随机采样的样本数m; 步骤三:训练主网络将数据记录存储到经验池并对数据记录加入权重设置优先级,从优先级经验池中根据优先级取出m条记录更新主网络参数,随后判断是否满足更新目标网络参数条件,再判断是否完成总迭代轮数具体为使用SUMO仿真软件运行道路环境,将车辆数据导入进行模拟:使用SUMO中自带的traci接口,得到状态S,输入到当前主网络Q,计算出对应的Q值,然后使用∈-贪婪算法选择当前状态所对应的动作A,随后执行选择的动作得到新的状态S′和奖励R,并且将{S,A,R,S′}存储到经验池D中,同时为记录标记优先级,如果经验池D已经达到最大存储量,则删除最先存储的记录,随后计算当前Q网络的yj具体为从D中随机采样m个样本,{Sj,Aj,Rj,Sj′},j=1,2,3...m,通过公式: yj=Rj+γQ′Sj′,argmaxaQSj,Aj;θ;θ′2 计算出yj,其中yj为真实Q值,γ为衰减因子,Sj为j时刻的状态空间,Sj′为j+1时刻的状态空间,Rj为j时刻的奖励值,Aj为j时刻做出的动作,θ为主网络参数,θ′目标网络参数;随后使用MSE均方损失函数,计算出损失值Loss,反向传播更新参数θ,如果t%p==0∶θ→θ′,同时更新状态S′=S,其中t为当前训练步数,p为目标网络更新频率,S为当前状态空间,S′为下一个状态空间;以此步骤迭代训练最终交通信号控制模型; 步骤四:依据步骤三迭代训练后得到的交通信号控制模型,应用到多交叉路口:将训练得到的交通信号控制模型应用到多交叉路口当中,同时根据SUMO仿真软件获得不同时间段的交通环境下的流量状态S,将状态S输入到该交通信号控制模型,模型会选择合理的相位,从而获得下一个交通状态S′,重复此步骤。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连交通大学,其通讯地址为:116000 辽宁省大连市沙河口区黄河路794号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。