Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京工业大学沈航获国家专利权

南京工业大学沈航获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京工业大学申请的专利低轨卫星网络中基于DDRL的航空器任务卸载方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119893541B

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510048150.8,技术领域涉及:H04W24/02;该发明授权低轨卫星网络中基于DDRL的航空器任务卸载方法是由沈航;李芳;袁宝淳;王天荆;白光伟设计研发完成,并于2025-01-13向国家知识产权局提交的专利申请。

低轨卫星网络中基于DDRL的航空器任务卸载方法在说明书摘要公布了:一种低轨卫星网络中基于DDRL的航空器任务卸载方法,其步骤包括:一把LEO低轨卫星网络系统构建成LEO卫星移动边缘计算网络系统;二把LEO低轨卫星网络系统效用最大化问题建模为一个优化任务卸载和资源分配的联合决策问题;三把联合决策问题转化为马尔可夫决策过程MDP,在双深度强化学习DDRL框架下,利用双重深度Q网络算法DDQN学习最优的任务卸载决策,并在此基础上使用时间差分三重策略梯度算法TD3PG以获得最优资源分配策略。仿真实验表明,该方案与基准算法相比,能够有效地访问和协同计算并发任务,并且在不同的环境变量下具有更好的收敛性和优越性。

本发明授权低轨卫星网络中基于DDRL的航空器任务卸载方法在权利要求书中公布了:1.一种低轨卫星网络中基于DDRL的航空器任务卸载方法,其特征是步骤包括: 一把LEO低轨卫星网络系统构建成LEO卫星移动边缘计算网络系统; 二把LEO低轨卫星网络系统效用最大化问题建模为一个优化任务卸载和资源分配的联合决策问题; 三把联合决策问题转化为马尔可夫决策过程MDP,在双深度强化学习DDRL框架下,利用双重深度Q网络算法DDQN学习最优的任务卸载决策,并在此基础上使用时间差分三重策略梯度算法TD3PG以获得最优资源分配策略; 步骤一中,LEO卫星星座被划分为多个管理域;每个管理域是一个子网络系统;任一个管理域由1个簇首卫星和S个搭载有移动边缘计算MEC服务器的簇内成员卫星组成,簇内成员卫星用集合表示,其中成员卫星簇首卫星与成员卫星之间以及部分成员卫星之间存在星际链路ISL; 航空器用户用集合表示,航空器用户航空器用户的个数用U表示;假设用户位于偏远区域,用户只能通过接入LEO卫星移动边缘计算网络获取服务;当用户进入一个管理域时,自动接入簇首卫星,簇首卫星根据用户要卸载的任务的类型将任务卸载到成员卫星进行处理; LEO卫星网络系统以时隙模式运行,时隙的集合表示为表示,时隙时间被划分为长度相等的Y个时隙,每个时隙长度为τ; 假设在一定时间内LEO卫星星座具有稳定的拓扑结构与连通性,则在每个时隙开始时,航空器随机且并行地产生任务,这些任务独立且不可分割;设任务到达的时间间隔遵循平均值为μ的指数分布,在时隙t中,用户u在时隙t生成的任务用三元组表示,其中,lu,t和cu,t分别表示任务的数据大小和工作负载,是任务的最大可容忍时延;LEO卫星网络系统运行过程中用户上传的总任务数量用K表示; 则LEO卫星网络系统中任务卸载和资源分配过程包括:首先,用户接入并将任务传输至簇首卫星进行排队;接着,簇首卫星从任务等待队列中卸载任务至成员卫星;最后,在成员卫星上进行任务处理;其中: 当簇首卫星接收到用户任务时,将需要卸载的任务放入卸载队列Nt中;将簇首卫星将任务卸载到成员卫星的决策用矩阵符号表示,矩阵表示是否将第i个用户的任务卸载到第j个成员卫星上处理,表示将第i个用户的任务卸载到第j个成员卫星上处理,表示不将第i个用户的任务卸载到第j个成员卫星上处理; 当任务被簇首卫星卸载到成员卫星s上后,s为卸载任务分配计算资源;设任务的计算资源分配策略用表示,它为任务提供的计算资源大小为且有fsmax表示一颗成员卫星s所拥有的最大计算资源; 当一个任务被卸载到成员卫星上后,为该任务分配的正交计算资源将被保留和占用多个时间段,直到任务计算完成; 成员卫星在时隙t分配的计算资源不能超过当前可用资源,用公式表示为 其中,φs,t表示卫星s在时隙t已经被占用的资源; LEO低轨卫星网络系统中, a、用户与簇首卫星之间的通信为: 用户通过与簇首卫星之间的链路将任务上传;簇首卫星在时隙t从用户u接收到的信号yu,t表示为 其中,pu和su分别代表用户u的发射功率和数据信号;N0~0,σ2是信道的加性白高斯噪声AWGN,σ2是噪声方差;hu,t表示时隙t中用户u和簇首卫星之间的AWGN信道,其表示为 hu,t=δuηudu,t-β3 其中,δu~0,1是具有瑞利衰落的复高斯变量,ηu是遵循对数正态分布的阴影衰落,β是路径损耗指数;du,t是时隙t中用户u与簇首卫星之间的实际距离; 假设用户只能在仰角α下开始传输请求,α是相对于地心和用户位置的连线对称的最小角度,设θ表示卫星覆盖的弧度对应的中心角,R为地球半径,H为卫星轨道高度,α已知,则θ和α之间的关系表示为 由此,簇首卫星与用户u在时隙t时的实际距离为 假设卫星的频谱对所有用户进行正交分配,且簇首卫星的总通信带宽被当前所关联的用户平均分配,根据香农公式,用户u到簇首卫星的数据传输率表示为: 其中,B代表用户与卫星传输链路频段上的总带宽;则更差的信道hu,t及更多的关联用户数量U会使得数据传输率更慢; 考虑到延迟问题,设c表示光速,则用户u在时隙t与簇首卫星之间的时间延迟为 同时,任务从用户u传输到簇首卫星的传输能耗为 b、卫星之间的通信为: 用Nt存储在时隙t中被上传到簇首卫星上还未卸载的任务;下一个时隙中的卸载队列Nt+1通过减去已卸载掉的任务数据量Bt,加上新上传到簇首卫星的任务数据量得到: 其中,表示与时间t和任务相关的服从泊松分布的任务到达率,τ是一个时隙的长度; 假设簇首卫星在时隙t处理卸载队列时CPU频率为f′,则一个时隙内,簇首卫星处理卸载队列的任务数据量为 其中,J表示处理每比特任务数据所需的CPU周期数;因此,卸载队列Nt的队列延迟表示为 其中,XNt表示队列长度,表示队列Nt的平均任务到达率,用公式表达为 同时,任务排队过程中不考虑能量消耗; 假设任务仅从簇首卫星到成员卫星s完成一次卸载;在簇首卫星做出卸载决策后,任务会从簇首卫星的卸载队列中卸载到成员卫星进行处理;则用户u的任务在时隙t从簇首卫星到卸载的成员卫星的时间延迟表示为 其中,代表在时隙t成员卫星s与簇首卫星之间的动态距离;同时,设p为簇首卫星的发射功率,则任务的传输能耗表示为 在时隙t中,卸载卫星s分配给用户u的计算资源为则处理任务的计算时间为 在卸载卫星s上执行任务的计算能耗表示为 步骤二中, 任务从接入到卸载的总时延Tu,t由公式7、11、13和15组成,表示为 且有即每个任务的端到端延迟不超过最大可容忍时延,将该条件作为任务完成与否的标志,用二元变量au,t表示,定义为 如果能满足延时约束,则认为该任务被成功处理,此时au,t=1,否则认为任务失败,此时au,t=0; 这个过程中产生的系统能耗由公式8、14和16组成,表示为 则,任务的端到端时延及系统能耗由任务卸载和资源分配的联合策略决定; 每个时隙开始时,簇首卫星决定将任务卸载到哪一颗成员卫星以及为该任务分配多少计算资源; 将系统成本包含系统运行过程中所有任务的时延和能耗的求和,任务卸载和资源分配的联合优化被描述为系统成本的最小化问题,表示为 其中,ξ∈[0,1]用于权衡能耗成本和时延成本在系统成本中的比重; 系统成本的最小化问题被换为系统效用的最大化问题P1,建模为 其中,λ为开销因子,用来解决任务未完成导致任务时延和能耗无法计入的问题,λ为定值且充分大;约束条件21a和21b表示每个用户至多将一个任务卸载给一颗LEO卫星;21c表示卫星分配给任务的资源不超过卫星所拥有的最大资源;21d表示每个卫星分配给当前卸载任务的计算资源之和不得超过该卫星当前的可用资源; 对DDRL框架训练和优化: DDRL框架包含DDQN和TD3PG两个模块,DDQN用于卸载决策问题,TD3PG用于计算资源分配问题; 用户任务与系统环境的交互过程包括: 步骤①:DDQN以环境状态作为输入,迭代地为每个用户提供服务; 步骤②:DDQN处理信息并为每个用户输出适当的卸载决策; 步骤③:环境状态和卸载决策被TD3PG算法作为输入进行处理; 步骤④:TD3PG给出合适的计算资源分配; 步骤⑤:DDRL输出最后的联合决策; 每个交互过程中,首先,通过DDQN执行任务卸载动作然后,根据TD3PG执行资源分配动作任务从状态St经动作Au,t进入到状态St+1后的奖励值rSt,At,St+1用符号ru,t表示;当DDQN与环境交互时,它遵循ε-greedy策略来执行卸载决策的动作;ε是一个概率决策因子ε,ε介于0和1之间; 在DDQN学习过程中,用ε表示随机选择一个动作的概率,用1-ε表示执行由DDQN主网络给出的动作的概率;刚开始探索系统环境时,给ε设置一个较大值;随着学习的积累,ε值逐渐减小,智能体将更多地利用已学到的知识选择回报最大的动作; 在TD3PG学习过程中,由于TD3PG适用于连续动作则其探索系统环境时添加随机噪声,该噪声服从具有方差σ的正态分布,σ的值在学习过程中逐渐减小; 在完成交互后,生成一个用于DDQN的观察值和一个用于TD3PG的观察值,它们分别存储在独立的回放缓冲区B1和B2中; 基于DDRL的任务卸载与资源分配时候, 首先,更新DDQN: 设置了Q网络和目标网络DDQN从回放缓冲区B1中采集四元组用于Q和的学习;在使用样本更新Q时,DDQN从中计算值yu,t作为目标值,表示为 其中γ为衰减因子;更新Q的损失函数是平方误差函数,定义为 接下来,计算梯度,并每隔g1步更新一次Q网络,同时,通过设置每隔G1步更新一次 然后,更新TD3PG: TD3PG包含两个独立的价值网络C1、C2以及一个策略网络A及其对应的目标网络以及Actor网络A预测资源分配策略Critc网络C1、C2判断在学习过程中由Actor网络生成的策略的q值; 在TD3PG训练之前,从回放缓冲区B2中采样部分值;在训练过程中,从目标网络和中计算目标值 其中 然后,将目标值yu,t与q值进行比较,两者之间的差值为时间差值TD误差δ;该函数是一个平方误差,定义为 上式的梯度用于更新Critic网络C1、C2; 为了更新Actor网络A,计算从Critic网络C1预测的q1=C1s,a值的梯度;使用梯度上升法即最小化-q1来最大化q1值;训练网络A、C1和C2每g2步更新一次;同时,目标网络和每G2步更新一次;每更新μ次价值网络更新一次策略网络。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京工业大学,其通讯地址为:211816 江苏省南京市江北新区浦珠南路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。