Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东南大学张亚获国家专利权

东南大学张亚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东南大学申请的专利一种基于人机共驾的自动驾驶安全训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117236415B

龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311184463.3,技术领域涉及:G06N3/092;该发明授权一种基于人机共驾的自动驾驶安全训练方法是由张亚;陈国浠;吴铁军设计研发完成,并于2023-09-13向国家知识产权局提交的专利申请。

一种基于人机共驾的自动驾驶安全训练方法在说明书摘要公布了:本发明公开了一种基于人机共驾的自动驾驶安全训练方法,将上层的离散控制动作映射成底层的物理控制信号;设置超参数,搭建双深度Q网络,对受控车辆进行基于人机共驾的深度强化学习训练;训练中,先将受控车辆的动作经过人类专家判断,如果动作被判断为安全,则直接被使用;如果动作被判断为危险,由人类专家提供示范动作,并将状态、危险动作和人类专家的示范动作存到监督缓冲区;本方法旨在充分利用人类干预的样本,将人类的示范动作和拒绝的危险动作都添加到损失函数中,共同用于参数更新,克服现有技术的缺陷,提高训练速度和最终结果。

本发明授权一种基于人机共驾的自动驾驶安全训练方法在权利要求书中公布了:1.一种基于人机共驾的自动驾驶安全训练方法,其特征在于,包括如下步骤: S1:定义上层的离散控制器对应车辆底层的控制信号,将上层的离散控制动作映射成底层的物理控制信号;所述上层的离散控制动作确定目标值,底层的物理控制信号由比例控制器获得; S2:设置超参数,搭建双深度Q网络,对网络参数进行初始化并确定参数复制的周期; S3:基于步骤S2搭建的网络模型,对受控车辆进行基于人机共驾的深度强化学习训练;所述训练中,先将受控车辆的动作经过人类专家判断,如果动作被判断为安全,则直接被使用;如果动作被判断为危险,由人类专家提供示范动作,并将状态、危险动作和人类专家的示范动作存到监督缓冲区; S4:设计奖励函数,将经过人类专家评判之后的动作部署到环境中,与环境交互,得到状态、动作和奖励值对,并存到Q-学习缓冲区; S5:从Q-学习缓冲区中获取状态、动作和奖励值对,按照Q-学习的标准形式计算Q-学习损失值,从监督缓冲区得到状态、危险动作和人类专家的示范动作对,并计算监督损失值,两者相加并回传更新网络权重,如果到达参数复制的周期点,将网络的权重赋值给目标网络;其中,损失函数为: ; 其中,Q是的简写,表示用参数拟合的动作-价值函数,标准的Q-学习损失值,和分别表示专家示范动作和被专家拒绝的危险动作的监督损失,是L2正则化损失,和均为权重因子; 所述使用Q-学习缓冲区的样本进行计算,并具有以下形式 ; 其中,是折扣因子,是目标网络,它周期性地从主网络中复制参数,是s的后继状态,是以目标状态当前的参数计算,后继状态的最大价值动作对应的q值; 和均用监督缓冲区的样本计算,它们分别表示专家示范动作和被专家拒绝的危险动作的监督损失,的表达式为 ; 其中,表示专家针对状态s提供的示范动作,是边界函数,在时取0,在为其他数时取; 的表达式为: ; 其中,表示被专家标记的危险动作,是一个边界函数,在时取0,在为其他数时取; S6:重复步骤S3-S5,直到训练时间结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:211189 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。