哈尔滨工业大学张赵东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学申请的专利融合AoI与内在激励的MEC系统多智能体协作方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119788702B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411987177.5,技术领域涉及:H04L67/12;该发明授权融合AoI与内在激励的MEC系统多智能体协作方法是由张赵东;胡睿晗;王忠杰;贺向东;曹岂鸣设计研发完成,并于2024-12-31向国家知识产权局提交的专利申请。
本融合AoI与内在激励的MEC系统多智能体协作方法在说明书摘要公布了:融合AoI与内在激励的MEC系统多智能体协作方法,属于云计算与边缘计算技术领域。方法如下:端侧异构资源生成和边缘移动决策;通信链路建模;异构资源采集与AoI阈值限制;异构年龄敏感优化问题;MDP制定外部奖励函数和内在奖励函数;异构多智能体Actor‑Critic构建与功能分析;基于局部信息识别的内在奖励。本发明通过MEC将计算能力延伸至网络边缘,提高数据处理的实时性和降低延迟。引入AoI概念来衡量数据新鲜度,通过优化资源管理和调度策略,实现资源的高效利用和满足动态数据需求。提出了多智能体深度强化学习策略,确保数据的新鲜性和提升设备间的协作效率。
本发明授权融合AoI与内在激励的MEC系统多智能体协作方法在权利要求书中公布了:1.一种融合AoI与内在激励的MEC系统多智能体协作方法,其特征在于:所述方法包括如下步骤: S1:端侧异构资源生成和边缘移动决策; 所述S1包括如下步骤: S101:端侧设备数据源生成; 所述S101包括如下步骤: S10101:端侧设备采集物联网中分布式传感器的智能设备产生的计算任务数据,生成数据源; S10102:数据源由于地理环境和硬件配置的差异,形成异构资源数据,生成不同形式的数据包; S10103:对每个数据源Sn分别赋予权重以表示不同位置的重要性,并假设数据源独立生成; S10104:定义数据包的数据大小为dt,数据包的数据生成时间为wt以及数据来源索引为idxt; S102:边缘设备Ek在移动中收集来自数据源的数据包,并在本地进行数据处理后将数据卸载到云数据中心; S103:建立边缘设备的移动性模型: poskt+1=poskt+movekt1 式1中: poskt=[xkt,ykt,hkt]表示边缘设备Ek在第t个时隙的位置,x表示横向距离差,y表示纵向距离差,h表示高度差; |movekt|2≤rkmove表示每个时隙中的移动; rkmove表示边缘设备Ek的移动半径; |·|2表示向量的2范数; S104:定义移动、数据收集和本地执行为多智能体深度强化学习框架中的核心决策内容; S2:通信链路建模; 所述S2包括如下步骤: S201:明确三层系统环境中智能体之间的传输链路包括源-边、边-边以及边-云; S202:由于边缘设备之间只共享状态、观测和学习参数,不涉及数据和任务的传输,因此,忽略边-边通信的传输成本; S203:建模源-边和边-云的传输过程; 所述S203包括如下步骤: S20301:考虑视距和非视距的路径损耗,引入空-地信道; 式2中: f表示载波频率; c表示光速; 表示为边缘设备与地面实体之间的距离; ηξ表示视距和非视距情况下的路径损耗,ξ={0,1}; S20302:得边缘设备与数据源之间或缘设备与云中心C之间在第t个时隙的通信信道的平均空-地路径损耗为: 式3中: p1t表示非视距的概率; 表示视距的概率;其中:a和b均表示与环境有关的参数;表示边地链路与水平面的夹角; S204:考虑总带宽为W的分频模式,计算边缘设备与数据源之间或缘设备与云中心C之间的传输速率: 式4中: bk,nt表示分配带宽比例; N0表示噪声功率谱密度; 表示传输满足的功率; S3:异构资源采集与AoI阈值限制; 所述S3包括如下步骤: S301:在边缘设备采集异构资源数据时,边缘设备运行到数据源附近收集数据源缓冲区中的所有数据包,并占用边缘设备收集数据缓冲区中的一个数据块 S302:使用本地处理器对收集到的数据缓冲区进行预处理; S303:建立边缘设备从数据源收集的数据包在时隙t累计执行边缘处理的时间模型: 式5中: 表示边缘设备在时隙t对预设任务进行预处理的数据率,与CPU周期频率有关; S304:假设在每个时隙中,边缘设备均为缓冲区中的一个数据块分配其边缘计算资源,则用独热向量表示第t个时隙的边缘执行决策如下: 式6中: exeit∈{0,1}表示边缘设备的收集数据缓冲区中每个数据块的CPU分配标志; S305:边缘设备本地执行决策: S306:将数据缓存在已执行的数据缓冲区中,并等待卸载到云中心; S307:假设在每个时隙,边缘设备决定卸载数据缓冲区中的一个数据包,则用独热向量表示卸载调度如下: 式8中: offit∈{0,1}表示每个数据块的卸载决策; S308:边缘设备本地卸载调度: S309:为了量化异构性,HA-MAAC-Trans为数据源引入权重,以突出不同位置的重要性,并通过权重修正数据包大小: 式10中: dt表示数据包的数据大小; 表示数据源权重; S3010:建立数据价值贬值模型: 式11中: dn,0t表示从数据源采集到初始数据包的大小; λ表示贬值模型的惩罚因子,负责调节超过阈值后的价值减少速度; χ表示AoI阈值; AoIt表示每个数据包在t时刻的信息延迟; S3011:通过数据包的信息延迟决定数据价值; S3012:边缘设备根据贬值后数据价值决定后续的行进路线; S4:异构年龄敏感优化问题; 所述S4包括如下步骤: S401:定义数据源在第t个时隙的年龄为当前时间与接收端最新数据的生成时间之差Δnt: 式12中: 表示云中心接收到的数据源的最新数据包的生成时间; S402:定义总的数据源数量为Ns,则可用一个总的数据源数量维向量来记录每个数据源的年龄; S403:将系统模型作为约束条件,得到NP-hard优化问题: S404:讨论基于MADRL的解决方案; S5:MDP制定外部奖励函数和内在奖励函数; 所述S5包括如下步骤: S501:MDP用四元组表示如下: M{S,A,R,P}13 式13中 S表示状态; A表示动作; R表示奖励; P表示转移策略; S502:边缘智能体表征四元组局部状态MK{SK,AK,RK,PK}; S503:中心智能体表征四元组全局状态MC{SC,AC,RC,PC}; S504:由移动、执行决策和卸载调度组成边缘智能体的动作: {akt}={[movekt,exekt,offkt]}14 S505:中心智能体的动作act就是分配带宽比例bt; S506:外部奖励与内在奖励的协同作用; S50601:HA-MAAC-Trans中的智能体协作以最小化数据源的平均年龄为目标; S50602:定义云中心接收的数据量为St,用于评估系统在当前时刻的数据处理效率,激励系统处理积压数据; S50603:将每个智能体在第t时隙的外部奖励描述为数据量和数据源平均年龄的加权: 式15中: α,β均为权重系数; S50604:计算内在奖励 式16中: Pμ表示个性化分类器,用于对每个边缘智能体的局部信息进行个性化分类; Pμk|ok表示个性化分类器生成的当前观察范围内适合边缘设备的概率; ωLISIM表示调节权重; S50605:HA-MAAC-Trans定义了全局奖励函数,结合带衰减的长期奖励,研究系统的全局最优性,带衰减的长时奖励如下: 式17中: γ∈[0,1]表示奖励惩罚衰减; S6:异构多智能体Actor-Critic构建与功能分析; 所述S6包括如下步骤: S601:构建异构多智能体Actor-Critic,包括中心Actor网络、中心Critic网络、边缘Actor网络以及边缘Critic网络;所述边缘Actor网络以及边缘Critic网络均包含Transformer增强的神经网络,以提高空间数据特征增强的能力; S602:Actor网络Akskt;θk,以各智能体的状态作为输入,输出当前的动作akt; S603:对于各智能体,基于Actor网络框架设计一个Critic网络Ckskt,akt;φk,结合价值评估模块,输入当前状态和动作估算状态-动作值函数Qkskt,akt; S604:设计边缘Actor网络; S60401:构建多输入-输出神经网络,集成各类边缘观测信息,学习和处理多样化的操作; S6040101:多输入-输出神经网络的输入包括来自数据源的本地观测、边缘缓冲区状态以及卸载通道状态; S6040102:将数据源的本地观测数据格式化为的特征映射图,针对特征映射图的特征提取边缘观测信息; S60402:构建CNN网络,用于提取大数据包且AoI高的区域的关键的空间特征; S60403:将特征图转化为序列输入Transformer编码器,利用Transformer网络的多头自注意力机制捕获长距离依赖关系; S60404:将特征图与CNN特征结合,输出设备的轨迹和动作决策; S60405:采用MLP处理执行缓冲区、完成缓冲区和带宽分配,对边缘状态进行提取; S605:设计中心Actor网络; 中心Actor网络以边缘设备的状态信息为输入,Actor网络输出表示带宽分配比例的one-sum向量,使用MLP结合多设备状态,优化中心与边缘的通信调度,为边缘中心通信分配带宽比例; S606:设计边缘Critic网络; 边缘Critic网络的输入包括边缘设备的状态信息skt以及由边缘Actor网络输出的边缘设备的动作策略akt; S60601:边缘观察信息通过卷积层进行初步处理,提取局部特征; S60602:将局部特征输入到Transformer网络中,以捕捉观测信息的时序特性,从而增强对边缘节点环境动态变化的理解; S60603:使用多个全连接层和ReLU激活函数对时序特性进行处理,逐层挖掘状态信息的复杂特征,使边缘Critic网络能够更精准地判断当前状态下的场景,对边缘状态进行提取; S60604:通过独立的FC-ReLU分支对不同类型的边缘动作分别进行处理,以确保不同动作特征的有效提取; S60605:处理后的动作、状态和观察信息在网络中进行连接和整合,最终输出动作值函数的估计以评估当前状态下各动作的价值; S607:设计中心Critic网络; 中心Critic网络输入边缘设备状态信息以及中心带宽控制,并通过全连接的Softmax层得到值函数的估计 S7:基于局部信息识别的内在奖励; 所述S7包括如下步骤: S701:HA-MAAC-Trans引入了局部信息自识别模块,通过自我监督的个体分类器探索边缘设备的个性化特征; S702:局部信息自识别模块作为HA-MAAC-Trans的内在奖励函数目标是通过训练一个以μ为参数的全局概率分类器pμ,使输入为观测ok,输出为观测属于每个边缘设备的概率pμ·|ok,从而从给定的不同观测ok中识别出一个边缘设备,用于对各边缘设备独立动作的建模;定义内在奖励pμk|ok表示从观测中准确预测识别出某个边缘设备的可能性,由此可知,边缘设备的总奖励表示为外部奖励与内在奖励的组合: 式18中: ∑kpμk|ok=1; ωLISIM表示调节权重,用来衡量内在奖励和外在奖励之间的重要性; 表示来自环境的外在奖励。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。