Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京工业大学;江苏省未来网络创新研究院管昕洁获国家专利权

南京工业大学;江苏省未来网络创新研究院管昕洁获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京工业大学;江苏省未来网络创新研究院申请的专利基于深度强化学习的多无人机基站协同覆盖路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116227767B

龙图腾网通过国家知识产权局官网在2026-04-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310021781.1,技术领域涉及:G06Q10/047;该发明授权基于深度强化学习的多无人机基站协同覆盖路径规划方法是由管昕洁;许昱雯;万夕里;张毅晔;徐波设计研发完成,并于2023-01-07向国家知识产权局提交的专利申请。

基于深度强化学习的多无人机基站协同覆盖路径规划方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,步骤包括:首先定义了基于深度强化学习的马尔可夫模型,对马尔科夫决策过程五元组进行建模;然后根据建模提出深度确定性策略梯度DDPG算法;接着对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中,改进的DDPG算法能解决收敛不稳定的问题;最后设计仿真环境,无人机群与环境进行交互,获取训练数据。通过这种方法,实现无人机群在多个约束条件的限制下对地面节点进行协同覆盖的目标任务,该方法能使无人机群有更高的规划效率和更低的飞行成本。

本发明授权基于深度强化学习的多无人机基站协同覆盖路径规划方法在权利要求书中公布了:1.一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,首先设计深度强化学习模型,然后在仿真环境下,无人机群与环境进行交互,获取训练数据,采样训练数据进行仿真训练,最终实现对目标地面节点的协同覆盖路径规划; 其特征在于,设计深度强化学习模型包括以下步骤: 步骤一、定义马尔可夫模型:对马尔科夫决策过程五元组S,A,P,R,γ对无人机基站的约束条件进行建模;无人机基站是由无人机搭载的基站,在下文中简称无人机; 步骤二、以步骤一建模得到的马尔科夫决策过程五元组S,A,P,R,γ为基础,设计深度确定性策略梯度DDPG算法,该DDPG算法是使用基础深度强化学习的; 步骤三、对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中; 所述步骤一中: 步骤1.1、确定无人机的所处状态S: 在目标区域内随机分布有m个位置固定的地面节点和n架无人机; 无人机状态S包含:在t时刻,无人机i所在的位置和能耗,以及每个地面节点受到的信号损耗;则无人机i在t时刻状态表示为:; 为无人机i在t时刻的坐标;为无人机i从初始位置飞行到在t时刻位置时的能耗; 步骤1.2、确定无人机的动作集合A: 无人机i在飞行过程中飞行速度固定,下一步飞行动作的移动方向为,at=0表示悬停动作;其中,悬停动作是指无人机覆盖到地面节点后需要保持当前位置不变;则无人机i的动作为:; 步骤1.3、定义无人机在t时刻的状态st且采取动作at的条件下,能够到达下一输入状态s'的状态转移概率函数P为:; 步骤1.4、确定无人机的奖励函数R: 设地面节点覆盖状态的集合;其中bu为第u个地面节点的覆盖状态,为布尔域{0,1};若bu=1,则此地面节点已被无人机覆盖,若bu=0则此地面节点未被无人机覆盖; 覆盖率αt为已被覆盖的地面节点数量与总地面节点数量m之比,在时刻覆盖率为: ; 每架无人机的覆盖范围是一个半径为RC的圆,无人机对目标地面节点的覆盖效果从圆心到四周由强到弱依次递减;第u个地面节点被首次覆盖的效果程度φqu公式为: , 其中为覆盖效果常数;diu为第i架无人机与第u个地面节点之间的水平距离; 规划最优路径需要实现地面节点从初始状态转变为目标状态,地面节点的初始状态为未覆盖状态,目标状态为被无人机覆盖状态;设计覆盖效率为覆盖地面节点率和覆盖效果的协同公式,覆盖效率Ec公式为: , 定义奖励函数,表示无人机在当前状态下,选择某动作后得到的反馈;基础奖励公式为: , 其中覆盖率增量:,第i架无人机能耗增量:;基础奖励作为奖励函数R的奖励值; 步骤1.5、定义折扣因子,其中;计算整个过程中的累计奖励值,奖励值将随着时间推移而产生折扣,折扣系数越大,即越注重长期收益; 所述步骤二中: 步骤2.1、采用表演者-评论者Actor-Critic构架,一个网络为表演者Actor,另一个网络为评论者Critic,两个网络互相激励互相竞争; 随机初始化Critic网络的网络状态-行为值函数,Actor网络的策略函数;将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即、,其中分别表示Critic网络参数和Actor网络参数,分别表示Critic目标网络参数和Actor目标网络参数; 步骤2.2、任务开始时,无人机i的初始状态为 , 随着任务进行,根据当前状态st,作出动作at,公式为: , 其中β为随机噪声; 执行动作at,获得奖励rt和新的状态st+1; 步骤2.3、从步骤2.2中得到经验条;将经验条保存于经验池之中; 从经验池中随机提取部分样本进行训练,假设为随机采样的一批数据,进行TDtarget训练,目标网络Yi表示为: , 其中表示对si+1进行分析得到的策略,表示在si+1时采取策略得到的状态-行为值; 步骤2.4、更新Critic网络,计算最小化损失函数L为: , 其中N表示从经验池中抽取的用于动作探索的随机样本数; 步骤2.5、更新Actor网络参数,使用策略梯度下降算法的函数为: , 其中表示Critic网络状态-行为值函数梯度,表示Actor网络策略函数梯度,表示在Actor网络输入状态si时选取的动作策略,表示状态si时Critic网络状态-行为值函数,表示状态si时Actor网络策略函数; 步骤2.6、用副本网络计算目标网络值,这些目标网络的权重参数通过跟踪学习网络延迟更新;同时利用当前的网络参数,逐步更新相应的Critic和Actor目标网络: , 其中τ表示更新比例系数,; 所述步骤三中: 步骤3.1、将经验池分为Msuccess和Mfailure,分别存储成功和失败两种飞行经验;从经验池Msuccess和Mfailure中分别抽取若干条经验,对深度强化学习模型进行训练; 步骤3.2、设置从两个经验池中按比例采样: , 其中,ηsuccess、ηfailure分别是从经验池Msuccess和Mfailure中抽取的样本数,Ψ是总采样数,是成功样本率,表示从经验池Msuccess中抽取到经验的概率。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京工业大学;江苏省未来网络创新研究院,其通讯地址为:211899 江苏省南京市江北新区浦珠南路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。