西安爱生技术集团有限公司祝小平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安爱生技术集团有限公司申请的专利一种基于改进强化学习的无人机自主图像导航与避障方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115903880B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211002222.8,技术领域涉及:G05D1/46;该发明授权一种基于改进强化学习的无人机自主图像导航与避障方法是由祝小平;王飞;祝宁华设计研发完成,并于2022-08-21向国家知识产权局提交的专利申请。
本一种基于改进强化学习的无人机自主图像导航与避障方法在说明书摘要公布了:本发明涉及一种基于改进强化学习的无人机自主图像导航与避障方法,提出了一种基于图像和经验池存入机制的无人机自主图像导航与避障方法,即FRDDM‑DQN方法。在本发明中,通过FRDDM‑DQN方法训练出满足要求的智能体;在执行任务时,通过训练出的智能体控制无人机实现自主图像导航与避障。有益效果:通过在DQN算法中引入FasterR‑CNN模型,并对FasterR‑CNN模型的识别结果进行转化,获得了在复杂环境下的无人机自主图像导航与避障的能力。通过在DQN算法中引入本发明提出的经验池数据存入机制,提升了在复杂环境下无人机自主图像导航与避障能力。通过分部训练的方法,降低应用场景更换时的重训练耗时。
本发明授权一种基于改进强化学习的无人机自主图像导航与避障方法在权利要求书中公布了:1.一种基于改进强化学习的无人机自主图像导航与避障方法,其特征在于步骤如下: 步骤1:无人机自主图像导航与避障问题建模; 1设定无人机的运动学模型; 其中,Pu=[xut,yut,zut]为无人机的位置,V为无人机的速度,χt与γt分别为无人机的航向角与爬升角,[uγ,uχ]是无人机的控制量; 2到达定义; 目的地的位置为Pg=[xgtygtzgt]T,目的地影响区域的半径为Rg;无人机与目的地的距离Dg定义为 当Dg≤Rg时,无人机到达目的地; 3碰撞定义; 障碍物的位置为Pobs=[xobstyobstzobst]T,障碍物产生的禁飞区半径为Robs;无人机与障碍物的距离Dobs定义为 当Dobs<Robs时,无人机进入障碍物产生的禁飞区,无人机与障碍物发生碰撞; 4出界定义; 无人机执行任务时,其可飞行范围为 Prange={x,y,z|Xmin≤x≤Xmax,Ymin≤yt≤Ymax,Hmin≤z≤Hmax 时,无人机出界; 步骤2:从机载相机采集的图像s中提取障碍物位置信息; 1通过FasterR-CNN模型识别图像s中的障碍物; 其中,obsposImage是FasterR-CNN模型的识别结果,下标i代表了FasterR-CNN模型识别出的第i个障碍物;xi,1,yi,1和xi,2,yi,2分别代表了障碍物左上角与右下角坐标; 2对FasterR-CNN模型的识别结果进行处理; obs′pos=x′,y′=τ×xoInImage,-1×τ×yoInImage U′pos=x′,y′=τ×ximage2,-τ×yimage+d 其中,ximage和yimage是图像的尺寸,τ是图像的比例尺,d是无人机与视野框之间的距离; 3障碍物的位置信息为 其中,θ′为障碍物-无人机前置角;D′OtoU为无人机与障碍物之间的距离;χ′是视线框中无人机的相对航向角; 步骤3:制定训练智能体时的经验存入机制 1所述智能体 智能体决策网络的结构为29×512×128×6,其中29是输入节点的数量,6是输出节点的数量; 2智能体输入s′t 假设无人机的位置为Pu=[xut,yut,zut],预指定的目的地位置为Pg=[xgtygtzgt]T;无人机与目的地的距离Dg与无人机在XOY平面内的前置角θg_XOY定义为: 智能体的输入为 s′t=[zut,HUtoGt,Dgt,θg_XOYt,χt,s′ot] 其中,HUtoGt是无人机与目的地的高度差,s′o=[D′OtoU,θ′o]; 3定义奖励函数rU; 将无人机到达目的地奖励定义为 将无人机发生碰撞的奖励定义为 将无人机出界的奖励定义为 因此,奖励函数rU为 rUst+1,aU=rarrived+rcollision+rout 4经验的分类 在智能体的训练过程中,存入经验池的经验RM为 其中,上标i代表当前经验在经验池中的编号;sia-和sia+分别代表执行动作aU前和执行动作aU后的状态,RMCapacity是经验池的容量; 在单条经验中,状态sit代表的任务状况定义为 其中,是获取指定状态代表的任务状况;eo,ec,eout,eg是用于描述任务状况的参数:eo用于描述智能体是否检测到障碍物;ec用于描述智能体是否发生碰撞;eout用于描述智能体是否出界;eg用于描述智能体是否到达目的地; 在无人机训练过程中,智能体的状态sit可以分为以下几类:无人机未检测到障碍物、未发生碰撞、未出界且未到达目的地的状态ssafe;无人机检测到障碍物、未发生碰撞、未出界且未到达目的地的状态sobs;无人机与障碍物发生碰撞的状态scollision;无人机出界的状态sout;无人机到达目的地的状态sarrival;即: t∈{ssafe,sobs,scollision,sout,sarrival 因此,对于任意经验RMi=sa-,a,sa+分为以下几类: ①结果经验RE:分为到达经验REarrival、碰撞经验REcollision、出界经验REout,即: RE={REarrival,REcollision,REout},RE∈RM REarrival={RMi|{sa-∈ssafe,sa+∈sarrival}∪{sa-∈sobs,sa+∈sarrival}} REcollision={RMi|{sa-∈ssafe,sa+∈scollision}∪{sa-∈sobs,sa+∈scollision}} REout={RMi|{sa-∈ssafe,sa+∈sout}∪{sa-∈sobs,sa+∈sout}} ②危险经验DE:代表智能体已经检测到障碍物,即: DE={RMi|{sa-∈sobs,sa+∈ssafe}∪{sa-∈ssafe,sa+∈sobs}∪{sa-∈sobs,sia+∈sobs}} ③安全经验SE:是无人机向目的地航行过程中远离障碍物的中间状态,即: SE={RMi|{sia-∈ssafe,sia+∈ssafe}} 5经验的处理 分别给RE类型的经验、DE类型的经验、SE类型的经验设定存入比率pRE、pDE、pSE; 在训练过程中,根据经验类型的定义对生成的经验进行分类,并根据所属类型的经验存入比率对经验进行随机筛选,部分存入经验池,其余经验丢弃;经过经验池经验存入机制调整后的经验池RM′中各种类型经验的数量关系为: |RM′|=pRE×|RE|+pDE×|DE|+pSE×|SE| 其中,|·|为经验池中指定经验的数量; 步骤4:根据FRDDM-DQN算法训练智能体 1训练Faster-RCNN模型识别指定的障碍物; 通过预训练模型VGG16初始化Faster-RCNN模型; 设定Faster-RCNN模型的初始学习率、延迟系数与延迟权重; 通过无人机采集包含障碍物的图像,并对图像中障碍物的位置、障碍物的类型进行标注; 通过包含障碍物的图像与对应的标注信息训练Faster-RCNN模型; 训练完成后获得识别障碍物的Faster-RCNN模型; 2基于Faster-RCNN模型的输出训练智能体; 步骤2.1:初始化相关参数 设定奖励函数rU、经验池经验存入机制中的经验存入比率p=pSE:pDE:pRE; 初始化经验池容量RMCapacity、衰减系数γ、单幕最大步数Te、最大有效训练步数Tt、网络更新频率C; 初始化探索率ε、探索率最小值εmin、探索率重置周期N、探索率重置值εreset; 初始化学习率α,分段学习率[α1,α2,α3,α4],分段学习率的边界n1,n2,n3,n4; 智能体的决策网络分为预测网络和目标网络;初始化预测网络Q与目标网络的参数θ与θ-; 步骤2.2:初始化训练场景; 初始化无人机的起点、目的地位置,初始化障碍物的位置; 将单幕已执行步数te、有效训练步数tt重置为0; 获取初始状态s′t; 步骤2.3:根据状态s′t选择动作aU; 取随机数p∈[0,1],若p>ε,根据预测网络Q选择动作;否则选择随机动作; 步骤2.4:执行动作aU后,获取奖励rU与新的状态s′t+1,并得到当前时间步产生的经验RM=s′t,aU,rU,s′t+1; 步骤2.5:处理经验RM; 根据经验池存入机制,将经验RM存入经验池或丢弃; 步骤2.6:更新学习率: 学习率采用分段固定学习率,根据调整策略更新学习率; 步骤2.7:更新探索率; 根据探索率更新策略更新探索率; 步骤2.8:执行网络优化; 如果不执行网络优化,则转入步骤2.9;否则执行网络优化: 从经验池中随机采样m组经验; 如果经验是结束经验,令目标网络预测的Q值y=rU;如果经验非结束经验,令目标网络预测的Q值为 计算损失Lθ=Ey-Qst,aUt,θ; 通过梯度下降算法根据损失值Lθ对预测网络的参数θ进行优化; 每隔C个有效步用预测网络的参数覆盖目标网路,即θ-=θ; 步骤2.9:更新状态s′t←s′t+1,te←te+1; 步骤2.10:判断训练状态; 如果有效步数tt≥Tt,则训练结束,保存此时的智能体;否则继续判断当前时间步无人机是否到达目的地、或无人机是否发生碰撞、或无人机是否出界、或到达单幕最大步数Te,如果是则当前幕结束,转至步骤2.2;否则转至步骤2.3; 步骤5:通过步骤4保存的智能体控制无人机进行自主图像导航与避障。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安爱生技术集团有限公司,其通讯地址为:710065 陕西省西安市沣惠南路34号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励