Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 兰州大学周睿获国家专利权

兰州大学周睿获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉兰州大学申请的专利一种风险敏感型多智能体强化学习的协同自动驾驶方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118569298B

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410616918.2,技术领域涉及:G06N3/006;该发明授权一种风险敏感型多智能体强化学习的协同自动驾驶方法是由周睿;张涵;王金强;周庆国;宋利蓉;郭岚;李善玺设计研发完成,并于2024-05-17向国家知识产权局提交的专利申请。

一种风险敏感型多智能体强化学习的协同自动驾驶方法在说明书摘要公布了:本发明公开了一种风险敏感型多智能体强化学习的协同自动驾驶方法,包括以下步骤:1使用Actor‑Critic框架和多智能体确定性深度策略梯度算法为虚拟车辆环境中的每个智能体训练策略网络。2为每个智能体构造单独的训练网络以及整个系统的风险敏感价值分解网络,使用训练好的策略网络来对这些网络中的参数进行迭代。3迭代一定次数后将策略换成每个智能体单独的训练网络继续迭代。4在现实环境中通过V2X系统构建车辆的局部观测信息和动作信息,并且通过蜂窝网络上传数据进一步训练。本发明结合了风险敏感型多智能体强化学习对车辆进行训练,适用于风险较高的多车自动驾驶领域。

本发明授权一种风险敏感型多智能体强化学习的协同自动驾驶方法在权利要求书中公布了:1.一种风险敏感型多智能体强化学习的协同自动驾驶方法,其特征在于:包括如下内容: 1基于Actor-Critic框架和多智能体确定性深度策略梯度MADDPG算法为每个车辆i训练参数为θi的策略网络设置车辆行驶的奖励函数为Rcar=rdistance+rspeed+rcrash,其中rdistance为车辆行驶过的总路程奖励,rspeed为车辆的速度奖励,rcrash为车辆与其他车辆或行人路标等碰撞的惩罚。设置全局奖励为初始化风险敏感训练过程中智能体网络和价值分解网络的参数θ-,由于在现实环境中进行训练的风险、代价都非常大,因此先在虚拟环境中训练好网络后再应用到实际环境中,在虚拟车辆环境中使用训练好的策略网络控制各个车辆在环境中行驶,对每个智能体i,在时间步长t处收集其局部观测信息和动作信息 2设计风险函数ψα和参数θ-为每个智能体i构建网络,向网络中输入1中收集的信息,输出智能体i的动作-观测奖励分布计算智能体i的风险敏感值取动作 3执行2中取的动作获取全局奖励rt和下一个状态s′,并将其更新至经验回放缓冲区中; 4以参数θ-构建风险敏感价值分解RiskQMixer网络。RiskQMixer网络结构定义如下: N个智能体的动作-观测奖励分布Zi、全局状态St、联合动作观测历史τ作为输入,通过多头注意力机制对权重ki进行建模,并且对N个智能体的动作-观测奖励分布Zi计算其分位函数θiτi,ui,ωj,通过下式: 来得到全局的动作-状态奖励分布Zjt的分位函数θτ,u,ωj,再通过下式: 来得到全局的动作-状态奖励分布Zjtτ,u作为输出。其中是在分位数θτ,u,ωj下的狄拉克δ函数,pjτ,u,ωj是估计奖励分布Zjt对应的概率。 随后从经验回放缓冲区中取出一批样本对中的每个样本,将其中的全局状态St,联合动作观测历史τ和各个智能体i的动作-观测奖励分布Zi输入到RiskQMixer网络中,输出全局的动作-状态奖励分布Zjt,并计算其风险敏感值ψα[Zjt],其计算公式为: 其中θω是分布Zjt的分位函数,gω是反映风险函数偏好的扭曲函数,g′ω是其导数; 5通过4中得到的Zjt和ψα[Zjt]来计算分位数回归损失QRloss,通过最小化QRloss来更新智能体网络和RiskQMixer网络的 6迭代过程1~5数个轮次后,将初始的MADDPG算法策略网络换成步骤2中的智能体网络继续进行迭代,即将每个智能体的局部观测信息和动作信息直接输入进2中的智能体网络而不是MADDPG网络,先用MADDPG算法训练是为了使智能体在虚拟环境中一开始就能有一个较高的奖励值,这样可以缩短RiskQ算法的迭代周期并且使训练出的结果具有更好的全局奖励,使用2和4中的两个网络迭代直至算法能较好地在虚拟环境中协同车辆自动驾驶; 7经过1~6的步骤后,如果训练出的网络已能较好地控制智能体在虚拟环境中协同行驶并且规避风险,此时可以将训练好的网络应用于实际环境中使得车辆与其他物体发生碰撞的风险降到最低并且有一个良好的奖励,实际环境中的车辆和全局奖励函数设置与1中一致,车辆i通过惯性测量单元、激光雷达以及V2X系统获取自身局部观测信息oi和动作信息ui,并将信息上传到蜂窝网络中进行混合训练以进一步优化网络。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人兰州大学,其通讯地址为:730000 甘肃省兰州市城关区天水南路222号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。