大卓智能科技有限公司任亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大卓智能科技有限公司申请的专利基于离线强化学习和师生智能体的自动驾驶方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118915537B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410990688.6,技术领域涉及:G05B19/042;该发明授权基于离线强化学习和师生智能体的自动驾驶方法和系统是由任亮;黄智超;陈远龙;谷俊丽设计研发完成,并于2024-07-23向国家知识产权局提交的专利申请。
本基于离线强化学习和师生智能体的自动驾驶方法和系统在说明书摘要公布了:本申请涉及自动驾驶技术领域,特别涉及一种基于离线强化学习和师生智能体的自动驾驶方法和系统,其中,方法包括:获取训练数据集,其中,训练数据集包括真实交通场景的驾驶数据;构建教师智能体,基于训练数据集,利用离线强化学习训练教师智能体;构建学生智能体,根据训练后的教师智能体的输出和训练数据集,利用模仿学习训练学生智能体;基于训练完成的学生智能体控制车辆进行自动驾驶。由此,解决了现有技术中泛化能力不足、监督学习方法的局限性、强化学习在实际应用中的高风险以及仿真与现实差异等问题。
本发明授权基于离线强化学习和师生智能体的自动驾驶方法和系统在权利要求书中公布了:1.一种基于离线强化学习和师生智能体的自动驾驶方法,其特征在于,包括以下步骤: 获取驾驶员在真实场景中驾驶车辆的行驶数据,将所述驾驶车辆的行驶数据处理成智能体训练所需的状态集,动作集和奖励集合,并存储为训练轨迹,其中,所述智能体包括教师智能体和学生智能体,其中,所述教师智能体的状态集为,所述学生智能体的状态集为,所述教师智能体的动作集为,奖励函数为,其中,l为轨迹数,t为每条轨迹的时间步; 构建所述教师智能体,所述教师智能体包括教师策略神经网络,教师价值神经网络和教师估计神经网络,其中,根据所述教师智能体的状态集、所述教师智能体的动作集和所述奖励函数利用离线强化学习对所述教师智能体进行训练,得到所述教师策略神经网络,所述教师价值神经网络和所述教师估计神经网络,其中,教师策略网络输出的车辆控制参数为,教师估计神经网络输出的道路信息的特征估计为; 构建所述学生智能体,所述学生智能体包括学生策略神经网络和学生估计神经网络,包括根据拟合函数构建所述教师智能体的所述教师估计神经网络,其中,所述教师估计神经网络的状态输入是道路交通环境的特权信息,是对特权信息的特征估计;根据拟合函数构建所述教师智能体的所述教师策略神经网络,其中,是教师策略网络输出的车辆控制参数;根据拟合函数构建所述教师智能体的所述教师价值神经网络,其中,为教师策略网络输出的车辆控制参数的评价;其中,根据所述学生智能体的状态集、所述教师策略网络的输出和所述教师估计神经网络的输出利用模仿学习对所述学生智能体进行训练,得到所述学生策略神经网络和所述学生估计神经网络,其中,所述学生策略神经网络输出的车辆控制参数为; 根据所述学生策略神经网络和所述学生估计神经网络部署到实车上,在实车上获取所述学生智能体的状态集,将所述学生智能体的状态集输入所述学生智能体,利用所述学生策略神经网络的输出对实车进行控制,其中,所述学生智能体的状态集为。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大卓智能科技有限公司,其通讯地址为:241000 安徽省芜湖市鸠江区瑞祥路88号(皖江财富广场B1座10楼);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励