Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆大学张恺欣获国家专利权

重庆大学张恺欣获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆大学申请的专利一种基于离线在线融合强化学习的自动驾驶决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119670842B

龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411803331.9,技术领域涉及:G06N3/092;该发明授权一种基于离线在线融合强化学习的自动驾驶决策方法是由张恺欣;喻思九设计研发完成,并于2024-12-10向国家知识产权局提交的专利申请。

一种基于离线在线融合强化学习的自动驾驶决策方法在说明书摘要公布了:本发明涉及一种基于离线在线融合强化学习的自动驾驶决策方法,涉及自动驾驶和人工智能领域,包括离线训练和在线策略扩展两个阶段。初始化离线和在线强化学习的策略、离线值网络。在离线训练阶段,将静态数据集中的数据放入离线经验池,从离线经验池中随机采样得到静态数据并更新离线策略和离线值网络。在线策略扩展阶段,先冻结离线训练阶段得到的离线策略并将其与在线策略组合成扩展策略集,以一定概率从扩展策略集中选择策略与环境交互并将交互数据放入在线经验池,从在线经验池中随机采样得到静态数据并更新在线策略和在线值网络。本发明在保留离线强化学习安全性的同时,让决策智能体能够从进一步的在线学习中受益。

本发明授权一种基于离线在线融合强化学习的自动驾驶决策方法在权利要求书中公布了:1.一种基于离线在线融合强化学习的自动驾驶决策方法,其特征在于,包括离线训练阶段和在线策略扩展阶段,包括如下步骤; 步骤S1:初始化离线策略,离线值网络,离线经验池,在线策略,在线值网络,在线经验池,其中代表空集; 所述离线训练阶段包括步骤S2-步骤S4: 步骤S2:将存储格式为四元组的静态数据集中的数据放入离线经验池中,其中st代表当前时刻状态,at代表当前时刻动作,rt代表当前时刻奖励,st+1代表下一时刻状态,t代表时间; 步骤S3:从离线经验池中随机采样得到静态数据denv,静态数据denv以四元组{st,at,rt,st+1}的形式表示; 步骤S4:根据静态数据denv更新离线策略和离线值网络; 重复步骤S3-步骤S4,直至离线策略收敛; 所述在线策略扩展阶段包括步骤S5-步骤S11: 步骤S5:将离线经验池中的数据放入在线经验池Bo中; 步骤S6:冻结离线训练阶段得到的离线策略并将其与在线策略组合成扩展策略集P:P=[,]; 步骤S7:从在线经验池Bo中随机采样得到静态数据denv,静态数据denv以四元组{st,at,rt,st+1}的形式表示; 步骤S8:根据静态数据denv计算得到状态动作对st,af和st,ao;af表示离线动作,ao表示在线动作; 步骤S9:根据状态动作对st,af和st,ao计算得到在线策略选择概率Po;包括: S91:将状态动作对st,af和st,ao输入在线值网络,得到离线Q值st,af和在线Q值st,ao; S92:根据离线Q值st,af和在线Q值st,ao,通过公式(3)计算得到在线策略选择概率Po: (3) 其中,exp()表示指数函数,表示退火系数,; 步骤S10:根据在线策略选择概率Po从扩展策略集P中选择交互策略与驾驶环境进行交互,得到以四元组{st,at,rt,st+1}的形式表示的交互数据,并将其放入在线经验池Bo中; 步骤S11:从在线经验池Bo中采样得到静态数据denv,并利用其更新在线策略和在线值网络; 重复步骤S7-步骤S11,直至在线策略收敛。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:401331 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。