中国电子科技集团公司第二十八研究所陈华洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第二十八研究所申请的专利一种基于联邦强化学习的卫星资源调度优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115481779B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210931479.5,技术领域涉及:G06Q10/0631;该发明授权一种基于联邦强化学习的卫星资源调度优化方法是由陈华洋;王冠;段然;钱浩煜;刘聪;吴逸汀;邢清雄设计研发完成,并于2022-08-04向国家知识产权局提交的专利申请。
本一种基于联邦强化学习的卫星资源调度优化方法在说明书摘要公布了:本发明提供了一种基于联邦强化学习的卫星资源调度优化方法,将对地观测卫星资源调度优化问题抽象为一个离散马尔可夫决策问题,应用联邦强化学习算法求解对地观测卫星资源调度最优解,本发明利用联邦学习和强化学习技术,挖掘对地观测任务与卫星资源之间隐含的内在关联关系,充分挖掘各个智能体在训练过程中各种有关联的特征指标,形成了高效高质量的全局调度优化模型,最终生成最优无冲突的对地观测卫星资源调度优化方案,且该优化方法有效的降低了卫星资源调度优化中对调度启发式规则和人工历史分配经验的依赖,提高资源调度方法的有效性和准确性,可显著提高对地观测卫星资源调度的智能化管控水平。
本发明授权一种基于联邦强化学习的卫星资源调度优化方法在权利要求书中公布了:1.一种基于联邦强化学习的卫星资源调度优化方法,其特征在于,包括以下步骤: 步骤1,对联邦强化学习算法中的每个智能体建立深度强化学习DQN模型,设置各智能体在环境中的状态空间、智能体可决策的行为空间,以及环境对智能体的行为奖励; 步骤2,根据强化学习DQN算法,为每个智能体建立对应的神经网络,使用目标神经网络得到近似值函数; 步骤3,智能体使用ϵ-贪心策略,根据分配的目标和当前自身状态决策下一步采取的行为,并与环境进行交互,得到下一个自身状态,将决策经验存储回放记忆单元中,并且根据误差函数的梯度更新目标神经网络模型参数; 步骤4,在循环达到设定的次数后,将本地的目标神经网络模型参数传给用于参数聚合的智能体DQN模型,智能体DQN模型记为联合虚拟模型,进行后续的联邦学习; 步骤5,对所有智能体上传的参数进行聚合处理,并将结果返回给各个智能体进行参数更新,联合虚拟模型对智能体进行参数聚合,并返回对应的聚合结果; 步骤6,各个智能体将收到的聚合结果与目标神经网络模型参数进行软更新,得到最新的本地强化学习模型参数; 步骤7,重复步骤3~步骤6,直到完成目标任务,获得最优的强化学习模型参数; 步骤8,利用最优的强化学习模型参数构建增强的强化学习模型,获取最优的卫星资源调度方案; 步骤5中,记第i个智能体上传的深度强化学习DQN模型参数样本为,同时构建一个用于融合学习的深度强化学习DQN模型,记为联合虚拟智能体,联合虚拟智能体的参数样本集合为,通过计算平均值得到样本的中心点: , 即为联合虚拟模型返回的聚合结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第二十八研究所,其通讯地址为:210046 江苏省南京市栖霞区灵山南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。