Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京理工大学孙健获国家专利权

北京理工大学孙健获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京理工大学申请的专利一种基于连续动作优势函数学习的无人机轨迹规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116700327B

龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310612411.5,技术领域涉及:G05D1/46;该发明授权一种基于连续动作优势函数学习的无人机轨迹规划方法是由孙健;李卓;赵若男;吴蔚然;王钢;陈杰设计研发完成,并于2023-05-29向国家知识产权局提交的专利申请。

一种基于连续动作优势函数学习的无人机轨迹规划方法在说明书摘要公布了:本发明公开了一种基于连续动作优势函数学习的无人机轨迹规划方法,属于机器人智能决策与控制领域;首先构建无人机轨迹规划的马尔科夫决策过程模型,分别得到无人机轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过连续动作优势函数学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明在无人机动力学模型与所处环境完全未知的情况下实现无人机的轨迹规划,使其以最短时间抵达预定目标,具有很高的实用价值。

本发明授权一种基于连续动作优势函数学习的无人机轨迹规划方法在权利要求书中公布了:1.一种基于连续动作优势函数学习的无人机轨迹规划方法,其特征在于,包括: 步骤1、构建无人机的最短时间轨迹优化问题,包括确定目标函数和约束条件: 1-1确定目标函数; 无人机的最短时间轨迹优化问题的目标函数J的表达式为: 其中,表示求均值算子,rk表示无人机的奖励函数,k表示状态转移的第k步,kf为终点步数,uk≥1表示步数k≥1的无人机控制输入序列,γ表示对未来损失的权重的衰减因子,0γ1; 1-2无人机的轨迹优化问题的约束条件的表达式为: sk+1=gsk,ak,k=1,…,kf,kf为终点步数; 其中,sk和sk+1分别为无人机在第k步和第k+1步的状态向量,ak表示第k步的控制变量,函数g·,·表示无人机的动力学模型,即转移模型; 步骤2、根据步骤1构建的无人机的最短时间轨迹优化问题,建立无人机轨迹规划的马尔科夫决策过程模型; 马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数,构建的具体步骤如下: 2-1确定状态变量; 在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量sk表达式为: sk=[ρk,θk,ψk,fpk,k]T 其中,pk=ρk,θ,ψ表示无人机在当前第k步的球坐标位置,fp,k表示无人机在当前第k步所获知的障碍信息表示; 2-2确定控制变量; 控制变量表达式为无人机的航向角速度a=[ω,φ],即θ,ψ随时间的变化率; 2-3转移模型的表达式为: k+1=gs,a; 该转移模型表示在给定当前k步状态变量与控制变量,返回下一时刻的状态变量; 2-4确定损失函数; 损失函数用于评价无人机状态s下执行控制变量a的效果,表达式为: 其中,ρ,λ分别表示各项的权重系数; k=‖x-x,y-y,z-z′‖-‖xk-1-x,yk-1-y,zk-1-z′‖, k=1‖x-x,y-y,z-z′‖ 其中,“′”表示转置;x,y,z为无人机当前球坐标位置p在平面直角坐标系下的表示,x,y,z为直角坐标系下无人机的目标位置;x,y,z为直角坐标系下的障碍坐标,当无人机靠近至障碍一定范围内,指示函数取值1;设奖励量rk为负的损失函数,即rk=-csk,ak; 步骤3、设计强化学习求解算法并训练规划策略; 3-1构建包括评价网络和策略网络的强化学习神经网络; 评价网络与策略网络共享一个两层的全连接网络,采用ReLU激活函数;两层全连接网络之后分出两个分支,其中一个分支连接单层全连接网络,连同两层全连接网络构成评价网络,该单层全连接网络采用Identity激活函数;另一个分支也连接单层全连接网络,连同两层全连接网络构成策略网络,该单层全连接网络采用Tanh激活函数; 评价网络:使用ωs,ωc参数化评价网络Vsk|ωs,ωc,ωs表示与策略网络共享的权重参数,ωc表示评价网络独有的权重参数;评价网络Vsk|ωs,ωc的输入为状态变量sk,输出为累计奖励量,累计奖励量的函数表达式如下: 策略网络:采用ωs,ωa参数化一个策略网络ωs表示与评价网络共享的权重参数;ωa表示策略网络独有的权重参数;策略网络的输入为状态变量sk,直接输出为动作均值μsk|ωs,ωa和协方差矩阵Lsk|ωs,ω,由此构造控制变量a,表示为: 其中,a由均值为μs|ω,ω,协方差为Σs|ω,ω的多维高斯分布采样得到;Σs|ω,ω=Ls|ω,ωLs|ω,ω 3-2更新评价网络的方法是最小化如下贝尔曼残差: 其中,ω,ω,ω分别为共享层参数、策略网络参数和评价网络参数;D为存储历史数据s,a,cs,a,sk+1的回放记忆;s,a~D表示s,a为D中提取的数据;Cω,ω,ω表示与目标神经网络的TD误差表达式: Cω,ω,ω=rk+1+γV′sk+1|ω,ω-Vs|ω,ω-As,a|ω,ω Ys,a=L-1s|ω,ωa-μs|ω,ω 其中,目标神经网络与当前的强化学习神经网络结构相同,其参数更新较当前网络有延迟,评价网络和策略网络也对应有自己的目标网络;V′sk+1|ωs,ωc为目标评价网络输出的累计奖励量;Ask,ak|ωs,ωc表示无人机在当前状态下采取当前动作相较于其他动作的优势函数估计,采用二次型的形式近似,Ysk,ak是优势函数Ask,ak|ωs,ωc计算过程的中间变量,Vsk|ωs,ωc由评价网络输出得到; 步骤4、得到无人机最短时间轨迹规划的具体步骤如下: 4-1参数设置; 设置评价网络和策略网络的最大训练次数M,每次训练的最大更新步数T,经验回放抽取的训练集大小N,目标神经网络的追踪比率β,评价网络与策略网络的同步更新学习率为α,衰减因子为γ; 4-2初始化; 共享部分层数的评价网络和策略网络的权重参数初始值均为0;将初始化后的策略网络记为当前策略网络将初始化后的评价网络记为当前评价网络Vsk|ωs,ωc; 设空的经验队列集合D; 4-3迭代开始,令初始化迭代次数为m=1; 4-4初始化时刻为k=0,初始化无人机当前位置,、障碍位置和目标位置; 4-5使用当前策略网络生成k时刻控制变量;输入控制变量ak与状态sk,无人机通过转移模型返回下一时刻状态变量sk+1,利用奖励函数计算该步转移的奖励rk+1; 4-6将步骤4-4至4-5得到的数据记为一个经验样本dk=sk,ak,rk+1,sk+1,存入经验队列D; 4-7统计经验队列D中的经验样本个数设为ND并判定:若ND≤N,则转到步骤4-5;若NRN,则进入步骤4-8; 4-8从经验队列D中随机抽取N个经验样本d1,d2,…,dn;利用每个经验样本计算一个Cωs,ωa,ωc的值,第i个值定义为Ciωs,ωa,ωc; 4-9使用 更新评价网络和策略网络的权重参数ωs,ωa,ωc; 使用更新目标神经网络的权重参数使用m+1更新训练次数m; 并将更新后的评价网络及策略网络记为新的评价网络及新的策略网络; 4-10判定:若kT或无人机当前状态满足设定的终止条件,则进入步骤4-11,否则返回步骤4-5,并使用k+1更新步数k; 4-11进行判定:若mM,则重新返回步骤4-4,无人机再一次进行初始化并开始新一次的轨迹规划任务;否则迭代结束,将迭代终止时的当前策略网络作为最终的策略网络,记为将状态变量输入最终策略输出控制变量得到无人机最短时间轨迹。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。