Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京计算机技术及应用研究所桓琦获国家专利权

北京计算机技术及应用研究所桓琦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京计算机技术及应用研究所申请的专利基于对抗地图的深度强化学习导航应用鲁棒性增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115032980B

龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210447172.8,技术领域涉及:G05D1/43;该发明授权基于对抗地图的深度强化学习导航应用鲁棒性增强方法是由桓琦;郭敏;马晓军;曾颖明;方永强设计研发完成,并于2022-04-19向国家知识产权局提交的专利申请。

基于对抗地图的深度强化学习导航应用鲁棒性增强方法在说明书摘要公布了:本发明涉及一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,属于人工智能安全技术领域。本发明针对深度强化学习导航应用,为提高真实环境下DRL导航系统的鲁棒性,保证DRL导航模型在多种地图上均可安全导航,基于对抗样本的基本原理,提出了对抗地图的定义以及生成方法,并在此基础上通过“以攻促防”的方式,从对抗样本攻防角度出发,设计了一种基于对抗地图的鲁棒性增强方法,能够解决在真实环境下如何将对抗扰动添加到智能模型输入的问题,为真实环境下DRL导航模型的鲁棒性增强提供了一套可用的方案。

本发明授权基于对抗地图的深度强化学习导航应用鲁棒性增强方法在权利要求书中公布了:1.一种基于对抗地图的深度强化学习导航应用鲁棒性增强方法,其特征在于,包括以下步骤: 步骤一、基于对抗样本的基本原理,定义对抗地图并提出对抗地图生成方法; 步骤二、安全加固训练:使用步骤一的对抗地图生成方法,通过生成对抗地图对导航智能体进行重训练; 步骤一中,首先定义DRL导航系统包括DRL导航模型、传感器、移动机器人,其中,DRL导航模型是指用于导航的DRL模型,传感器搭载在移动机器人上,DRL导航模型可根据传感器的数据进行决策,使移动机器人做出各种动作,所述移动机器人是导航智能体,指使用DRL算法进行导航的移动机器人,根据传感器的不同,DRL导航系统分为视觉和激光两类; 其次,对于使用激光传感器的激光DRL导航系统,执行如下步骤: 对所述对抗地图进行如下定义:通过对原始地图中的障碍物进行修改,可使导航智能体在修改位置附近的决策发生不必要的变化,偏离原导航路径,最终导航失败的地图; 针对每一个原始地图,基于对抗样本的基本原理,提出以下步骤用于生成相应的对抗地图: 1收集导航智能体的交互信息:在原始地图上对DRL导航模型进行多次导航测试,记录每一次导航过程中导航智能体与环境的交互信息,包括移动机器人的姿态信息、传感器数据、做出的动作; 2基于所述交互信息确定安全脆弱区域: 2a从所述交互信息中提取导航智能体的观测信息作为原始样本,使用对抗样本生算法进行攻击,记录每次导航、每个时间步中,每种目标动作的攻击结果,在攻击时仅对传感器数据添加对抗扰动; 2b根据记录的交互信息,以及步骤2a的攻击结果,生成脆弱区域分析图;在所述脆弱区域分析图上,从攻击成功位置聚集的多个区域中选取若干个,作为DRL导航模型在该原始地图上的安全脆弱区域;选取规则如下:在该区域攻击成功后,导航智能体的动作会使移动机器人偏离当前导航路径; 3基于所述安全脆弱区域计算对抗扰动: 3a令[a,b]表示所述安全脆弱区域的时间步范围,再重新从步骤1收集的交互信息中随机选择某次导航的观测信息作为原始样本,用JSMA算法计算时间步范围[a,b]内的对抗扰动δa,δa+1,…,δb,使得在激光传感器数据上添加相应扰动后导航智能体将连续地做出目标动作t,其中,由于输入特征数量较少,因此对JSMA算法的特征图S的计算过程进行改进,公式如下: 其中,πt表示导航智能体策略函数π的第t个输出;lk,i为时间步k时激光传感器数据lk的第i个元素,k∈[a,b];S+ok,t和S-ok,t分别表示两种不同方法计算的特征图,其中S+ok,t中仅保留了偏导数大于0的输入特征,也就是说,只要增加满足S+ok,t[i]0的输入特征大小,就可使πt变大,S+ok,t[i]值越大,则增加lk,i数值后DRL导航模型输出结果更倾向于目标动作t,类似地,S-ok,t[i]值越大,则减小lk,i数值后模型输出结果更倾向于目标动作t;在每个时间步中,JSMA算法都根据相应的特征图S计算对抗扰动; 3b根据上一步计算的对抗扰动,按下式计算通用对抗扰动δ,作为最终得到的对抗扰动,其中,δk,j表示第k个时间步的对抗扰动δk的第j个分量; 4基于步骤3计算出的对抗扰动修改障碍物实现扰动:通过修改原始地图中安全脆弱区域附近障碍物的位置,将对抗扰动添加到导航智能体的观测信息中,即,使移动机器人在该区域的激光传感器数据变为lk+δ,从而得到对抗地图; 步骤二基于对抗训练的思想,通过将多个对抗地图加入到训练集合对导航智能体进行重训练,进而使导航智能体可以在各种对抗地图上安全导航; 步骤二具体包括: 1令Mo表示原始地图集合,对于每一个原始地图m∈Mo,使用步骤一的对抗地图生成方法生成多个对抗地图,构成对抗地图集合最终得到所有地图集合 2对所有地图m∈M,测试导航智能体在该地图上的导航成功率pm; 3将导航成功率小于参数p的地图形成集合,即训练集合ME={m|m∈M且pmp},对导航智能体进行重新训练,直到DRL导航模型在地图形成集合ME上收敛; 4重复步骤二的步骤2和3,直到对于所有的地图m∈M,均有pm≥p; 对训练后的DRL导航模型的性能进行测试; 所述安全加固训练方法通过调整参数p控制DRL导航模型的鲁棒性。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京计算机技术及应用研究所,其通讯地址为:100854 北京市海淀区永定路51号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。