Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学陈一铭获国家专利权

杭州电子科技大学陈一铭获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于元强化学习的家庭微电网能量优化控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119382104B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411504864.7,技术领域涉及:H02J3/00;该发明授权一种基于元强化学习的家庭微电网能量优化控制方法是由陈一铭;陈海龙;申兴发设计研发完成,并于2024-10-27向国家知识产权局提交的专利申请。

一种基于元强化学习的家庭微电网能量优化控制方法在说明书摘要公布了:本发明公开一种基于元强化学习的家庭微电网能量优化控制方法,在无建筑热动力模型和保证用户舒适度需求的情况下,研究含可再生能源资源消纳的需求响应与交流最优潮流的联合协调问题,包括:首先,将家庭微电网运行成本最小化问题建模为马尔可夫决策过程;其次,构建集成NormalizingFlow的SoftActorCritic算法;再次,在所构建的算法训练中加入元学习的方法。本发明的优点是可以在保证用户的舒适度需求的前提下具有更大的运行成本节省潜力,而且可以快速适应不同的家庭微电网拓扑结构,快速适应新任务。

本发明授权一种基于元强化学习的家庭微电网能量优化控制方法在权利要求书中公布了:1.一种基于元强化学习的家庭微电网能量优化控制方法,其特征在于包括如下步骤: 步骤S1、建立基于家庭微电网能量管理的马尔科夫决策模型MDP; 步骤S2、基于家庭微电网能量管理的马尔科夫决策模型MDP,构建引入标准化流的深度强化学习算法NFSAC; 步骤S3、基于所构建的NFSAC算法,建立元强化学习实时控制算法; 步骤S4、利用元强化学习实时控制算法进行家庭微电网能量优化; 其中,步骤S2具体是: S2-1、从经验回放池D中采样一批次的经验样本,分别表示t时刻智能体的状态、动作、所获得的奖励、执行动作后转移到的新状态;N为该批次样本的数量; S2-2、对每个经验样本,计算目标Q值y; S2-3、更新Q网络: Q网络用于估计给定状态和动作对的Q值,即预期回报;通过最小化当前Q网络与目标Q值y之间的均方误差,更新Q网络的参数; ; 式中,N为该批次样本的数量;为当前Q网络输出的Q值;y为目标Q值;分别表示状态和动作; S2-4、更新策略网络: 策略网络用于生成动作,其目标是生成能最大化累积奖励的动作,同时保持足够的熵以促进探索;通过最小化策略损失函数,更新策略网络的参数; ; 其中表示温度参数,表示熵,表示当前Q网络输出的Q值; S2-5、更新温度参数α: 通过最小化温度参数的损失函数,使得策略的熵接近目标熵,从而动态调整探索与利用的平衡; ; 式中,为目标熵,用来控制探索强度;表示温度参数; S2-6、更新目标Q网络: 使用软更新方法,将目标Q网络的参数向当前Q网络参数逐步靠拢,稳定训练过程; ; 式中,为软更新系数; 步骤S2-2具体是: S2-21:初始样本生成: 将当前家庭微电网状态输入到Actor网络,得到初始高斯分布的参数,即均值和对数方差;根据计算得到的和标准差,从高斯分布中采样初始样本; ; S2-22、多级仿射耦合变换: 通过一系列仿射耦合层将初始样本变换为复杂分布的样本,每个仿射耦合层实现部分输入样本的仿射变换; S2-23:将变换后的样本通过tanh函数限制在动作空间的范围内,得到目标动作; S2-24:使用下面公式计算策略密度: ; 式中,为初始策略密度,为经过多层变换后的最终输出向量,为总变换的雅可比行列式的绝对值;表示通过多级变换后的样本点,L表示变换的级数,表示通过所有级变换后的最终样本点; 累乘每层对数雅可比行列式,获得整体对数似然,通过优化对数似然,以最大化样本在模型下的概率; ; 式中,为最终策略密度的对数,为累积每层对数雅可比行列式; S2-25:计算目标Q值: ; 式中,r表示当前状态和动作下所得到的奖励;为折扣因子,用于衡量未来奖励的重要性;为目标Q网络评估的未来期望回报;是温度参数,控制熵项的影响;为熵,用来鼓励策略的探索性;表示执行动作后到达的下一个状态,表示从策略π中采样的动作,是概率分布函数,表示给定状态下,对每一个可能得动作赋予一个可能值; 步骤S2-22具体是: S2-221、输入分割和参数计算: 将初始样本前一半维度记为,后一半维度记为,使用全连接网络计算缩放参数和偏移参数; S2-222、仿射变换: 对进行仿射变换,公式为: ; 式中,表示元素乘积,exp表示元素级指数函数; 最终得到变换后的输出: ; S2-223、多层叠加; 将S2-222的输出作为下一层的输入,逐层叠加多个仿射耦合层;重复步骤S2-221和S2-222的过程,通过多级变换,将样本转换为复杂分布,得到标准化的流输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。