Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京邮电大学林尚静获国家专利权

北京邮电大学林尚静获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京邮电大学申请的专利小区协同休眠策略生成模型训练方法及小区协同休眠方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119136282B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411101922.1,技术领域涉及:H04W52/02;该发明授权小区协同休眠策略生成模型训练方法及小区协同休眠方法是由林尚静;李子怡;孙雷;王照博;贾梓晗;王瑜;范燕琳;熊建胜;蒋涛设计研发完成,并于2024-08-12向国家知识产权局提交的专利申请。

小区协同休眠策略生成模型训练方法及小区协同休眠方法在说明书摘要公布了:本申请提供小区协同休眠策略生成模型训练方法及小区协同休眠方法,训练方法包括:基于各个单位时间各自对应的目标区域中的各个小区的历史流量数据以及用于控制各个小区协同休眠的专家演示动作数据,训练得到专家演示网络;将该专家演示网络迁移至强化学习智能体的当前神经网络和目标神经网络,以基于深度强化学习方式在该网络的基础上继续学习专家演示结果,不断更新优化策略,以训练得到小区协同休眠策略生成模型。本申请能够提高小区协同休眠策略生成模型的训练有效性及可靠性,并能够解决模仿学习中的决策受限问题,进而能够提高基于小区协同休眠策略生成模型生成的小区协同休眠策略的应用有效性及可靠性,以实现动态且自适应的小区开关决策。

本发明授权小区协同休眠策略生成模型训练方法及小区协同休眠方法在权利要求书中公布了:1.一种小区协同休眠策略生成模型训练方法,其特征在于,包括: 基于各个单位时间各自对应的目标区域中的各个小区的历史流量数据以及用于控制各个所述小区协同休眠的专家演示动作数据,训练预设的神经网络,以将该神经网络训练为用于预测所述目标区域中的各个所述小区对应的所述专家演示动作数据的专家演示网络;所述神经网络包括:深度Q网络; 采用所述专家演示网络的网络参数初始化强化学习智能体中当前神经网络以及目标神经网络,以使该强化学习智能体基于深度强化学习方式对所述强化学习智能体中的当前神经网络和所述强化学习智能体中的目标神经网络进行联合迭代训练,以将所述当前神经网络训练为用于预测所述目标区域中的各个所述小区对应小区协同休眠策略的小区协同休眠策略生成模型; 所述基于各个单位时间各自对应的目标区域中的各个小区的历史流量数据以及用于控制各个所述小区协同休眠的专家演示动作数据,训练预设的神经网络,以将该神经网络训练为用于预测所述目标区域中的各个所述小区对应的所述专家演示动作数据的专家演示网络,包括: 获取各个所述单位时间各自对应的用于控制各个所述小区协同休眠的目标专家演示动作向量; 将各个所述单位时间各自对应的所述目标专家演示动作向量分别转换为各自对应的目标专家演示动作指示; 将各个所述单位时间各自对应的所述目标专家演示动作指示,分别作为预获取的各个所述单位时间各自对应的各个所述小区的历史流量数据的标签,以得到各个所述单位时间各自对应的样本以及由各个所述样本构成的专家演示动作数据集; 将所述专家演示动作数据集划分为训练集和验证集; 基于所述训练集,以随机梯度下降算法训练预设的神经网络,并采用所述验证集对训练后的所述神经网络进行验证,以通过验证的所述神经网络确定为当前用于预测所述目标区域在当前时间之后的一单位时间内的所述专家演示动作数据的专家演示网络,并存储该专家演示网络对应的专家演示网络参数; 所述采用所述专家演示网络的网络参数初始化强化学习智能体中当前神经网络以及目标神经网络,以使该强化学习智能体基于深度强化学习方式对所述强化学习智能体中的当前神经网络和所述强化学习智能体中的目标神经网络进行联合迭代训练,以将所述当前神经网络训练为用于预测所述目标区域中的各个所述小区对应小区协同休眠策略的小区协同休眠策略生成模型,包括: 采用所述专家演示网络参数初始化强化学习智能体中的当前神经网络以及目标神经网络; 初始化所述强化学习智能体对应的经验回放缓冲区和最大迭代次数,其中,所述经验回放缓冲区用于存储元组样本,所述元组样本包括:当前状态、动作、奖励以及下一状态; 将各个所述小区在一单位时间的工作状态作为该单位时间对应的所述动作,将各个所述小区在该单位时间的预测流量和前一单位时间的休眠状态开关动作作为该单位时间对应的当前状态,并设定所述奖励对应的奖励函数;其中,所述工作状态包括:由1表示的活跃状态以及由0表示的休眠状态; 根据所述专家演示网络参数初始化所述强化学习智能体的当前神经网络和目标神经网络; 根据所述当前神经网络选择所述动作并执行该动作,并基于所述奖励函数计算得到对应的奖励,此时环境状态变为下一状态,以得到对应的所述元组样本,并将该元组样本存储至所述经验回放缓冲区中; 若所述经验回放缓冲区中的所述元组样本的数据满足预设的数量阈值,则自所述经验回放缓冲区中随机选取多个所述元组样本,以使所述强化学习智能体在当前迭代轮次中,以深度强化学习方式,基于随机选取的各个所述元组样本对所述当前神经网络和所述强化学习智能体中的目标神经网络进行联合训练,直至迭代次数达到所述最大迭代次数时,停止训练,并将所述当前神经网络的网络参数作为用于生成所述目标区域在当前时间之后的一单位时间内的小区协同休眠策略预测结果的小区协同休眠策略生成模型对应的模型参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。