Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东南大学;紫金山实验室潘志文获国家专利权

东南大学;紫金山实验室潘志文获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东南大学;紫金山实验室申请的专利一种基于强化学习的物理小区标识自配置方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118488469B

龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410708855.3,技术领域涉及:H04W24/02;该发明授权一种基于强化学习的物理小区标识自配置方法是由潘志文;肖江山;刘楠;尤肖虎设计研发完成,并于2024-06-03向国家知识产权局提交的专利申请。

一种基于强化学习的物理小区标识自配置方法在说明书摘要公布了:本发明是一种基于强化学习的物理小区标识自配置方法,第一步:系统模型建立,将物理小区标识PCI自配置问题建模为马尔科夫决策过程,将物理问题转化为数学推导;第二步:在第一步建模的基础上,利用Q学习求解无线网络拓扑变化场景下的PCI分配问题,第三步:在第一步建模的基础上,利用双Q学习加快求解无线网络拓扑变化场景下PCI分配问题的收敛速度;相比于传统PCI自配置方法,本方法降低了PCI冲突和混淆的概率,降低了在未来6G无线网络拓扑频繁变化场景下更新PCI分配方案的时间开销。

本发明授权一种基于强化学习的物理小区标识自配置方法在权利要求书中公布了:1.一种基于强化学习的物理小区标识自配置方法,其特征在于该方法包括以下步骤: 第一步:系统模型建立,将物理小区标识PCI自配置问题建模为马尔科夫决策过程MDP,将物理问题转化为数学推导; 第二步:在第一步建模的基础上,利用Q学习求解无线网络拓扑变化场景下的PCI分配问题,Q学习是以马尔科夫决策过程MDP为基础的强化学习,首先利用PCI分配约束定义Q学习奖励函数,接着选择二维Q表作为Q学习的策略函数,Q表是一种记录强化学习环境中对每个状态的可能动作的预期回报的数据结构,并通过定义可选小区列表限制Q表的更新范围加快算法收敛,然后执行两步动作决策调整无线网络PCI分配方案并计算奖励,最后根据奖励值更新Q表,迭代上述步骤训练Q学习至收敛,逐渐更新无线网络PCI分配方案,选择最终二维Q表中各小区对应评价分数最高的PCI作为最终PCI分配方案; 具体包括以下流程: 步骤2.1,定义奖励函数,奖励函数即回报,由当前状态下动作决策的即时奖励和之后的所有持久奖励组成,如下所示: Gt=Rt+1+γRt+2+γ2Rt+3+...=Rt+1+γGt+11 其中Gt表示从t时刻开始获得的回报,Rt+1表示做出动作决策At后下一时刻状态St+1的奖励,回报Gt和奖励Rt都用评价分数表示,奖励Rt+1表示在t时刻调整后的无线网络PCI分配方案的评价分数,回报Gt表示从t时刻开始不断调整无线网络PCI分配方案获得的累计评价分数,评价分数是一个与违背PCI分配约束条件的网络节点数量有关的数,其数值仅反映当前PCI分配方案与PCI分配约束的匹配程度;γ表示折扣因子,是一个0到1之间的数,其取值由试验调整确定,帮助PCI分配更关注当前方案的合理性;t时刻仅表示状态转移时刻; PCI自配置的目标函数是maxGt,即回报最大的决策被认为是最优PCI分配方案; 步骤2.2,定义策略函数,选择Q表作为PCI自配置方法的随机性策略函数π,对于两步动作策略,一次完整的动作决策只改变网络中一个基站的PCI,使用二维Q表记录在网络中各基站分配每个PCI的累计奖励;在t时刻,二维Q表只反映当前网络的PCI分配方案,即状态St,Q表中回报通过计算奖励Rt迭代更新,迭代完成后选择各基站上回报最大的PCI作为最终PCI分配方案;Q表中水平方向表头代表可选PCI索引,竖直方向表头代表基站索引,表中回报数值仅表示网络中各基站对选择不同PCI的偏好; 步骤2.3,初始化Q表和可选小区列表List,读取已有的网络PCI分配方案,初始化无线网络拓扑变化后的Q表,对于网络中原有基站集合{BSoriginal},在Q表中对应PCI位置设置正整数q,正整数q的取值由新加入网络的基站比例确定,其余PCI位置初始化为0;对于移入网络的新基站集合{BSnew},在Q表中其所有PCI位置上初始化为0; 将可选小区列表List初始化为List={BSnew},List中的基站将优先调整PCI; 步骤2.4,将动作决策At拆分为两步完成;执行第一步动作决策;在t时刻,动作决策At首先从List中随机选择需要调整PCI的基站BSc; 步骤2.5,执行第二步动作决策:在t时刻,动作决策At在选定BSc后依据ε贪心策略调整BSc的PCI;ε贪心策略是一种让智能体在探索和利用之间进行平衡的动作选择策略,智能体以概率ε随机给BSc选择一个PCI,以概率1-ε给BSc选择Q表中回报最高的PCI; 步骤2.6,计算At的奖励,根据公式2计算在t时刻,动作决策At在状态St上获得的动作奖励Rt,其中r表示基础奖励,pconflict表示At造成的PCI冲突惩罚,pconfuse表示At造成的PCI混淆惩罚,pmodm表示At造成的PCI模m冲突惩罚,以上本步骤的参数都是正整数,其取值由网络对PCI分配方案的宽容程度决定, Rt=r-pconflict-pconfuse-pmodm2 步骤2.7,更新Q表,根据公式3更新Q表中BSc对应列的PCI回报值; 其中Qt+1BSc,PCIc表示t+1时刻Q表上对应给基站BSc分配PCIc的状态回报, QtBSc,PCIc表示t时刻Q表上对应给基站BSc分配PCIc的状态回报,表示t时刻Q表上对应基站BSc分配最优PCI的最优状态回报,α表示学习率,其取值由试验调整确定,以获得最快的收敛速度,γ表示折扣因子,Rt表示根据公式2计算的动作决策At的动作奖励; 步骤2.8,评价动作决策At, 若Rt≥0,则保留当前PCI调整,即状态发生转移,从t时刻无线网络PCI分配方案St,转移到t+1时刻的PCI分配方案St+1; 若Rt<0,则只更新Q表,不发生状态转移,将BSc的邻居基站加入可用小区列表List,重复步骤2.5到步骤2.8; 步骤2.9,在设定的训练迭代次数N内,重复步骤2.4到步骤2.8;在每一轮训练结束后计算当前网络PCI分配方案违反无冲突约束Cconflict、无混淆约束Cconfuse和模m不相同约束Cmodm的概率,若连续M个迭代次数内概率不再变动,则认为训练收敛,则提前终止训练; 步骤2.10,根据最终Q表,输出每一个基站上数值最高的PCI作为最终无线网络PCI分配方案。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学;紫金山实验室,其通讯地址为:211102 江苏省南京市江宁区东南大学路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。