Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京电力设计研究院有限公司马斌获国家专利权

南京电力设计研究院有限公司马斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京电力设计研究院有限公司申请的专利基于深度强化学习的综合能源暖通空调控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117419428B

龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311222102.3,技术领域涉及:F24F11/64;该发明授权基于深度强化学习的综合能源暖通空调控制方法是由马斌;高海洋;郑馨怡;王昱婷;朱海超;王艳巧;蔡可庆;陈雪薇;徐琼璟;张瑶;张汀荟;端凌立;张若微;范庆华;陈庭记;杨莲;刘永生设计研发完成,并于2023-09-21向国家知识产权局提交的专利申请。

基于深度强化学习的综合能源暖通空调控制方法在说明书摘要公布了:本发明公开了基于深度强化学习的综合能源暖通空调控制方法,其特征在于,包括以下步骤:首先确定HVAC系统能够采取的控制动作空间;然后采集建筑HVAC系统的状态数据;接着构建控制序列,DRL算法更新HVAC控制动作;计算HVAC系统采取动作后的即时回报和最大累积回报;最后使用人工神经网络逼近Q值,选择最优控制动作。本发明通过将HVAC运行过程表达为马尔可夫决策过程,开发基于DRL的HVAC控制方法,同时最小化建筑能源成本和维持住户的舒适温度;为了获得更高的扩展性,进一步提出了启发式方法,用于复杂多区域系统的有效控制;有效降低了建筑能源成本。

本发明授权基于深度强化学习的综合能源暖通空调控制方法在权利要求书中公布了:1.基于深度强化学习的综合能源暖通空调控制方法,其特征在于,包括以下步骤: 步骤一:确定HVAC系统能够采取的控制动作空间; 步骤二:采集建筑HVAC系统的状态数据; 步骤三:构建控制序列,DRL算法更新HVAC控制动作; 步骤四:计算HVAC系统采取动作后的即时回报和最大累积回报; 步骤五:使用人工神经网络逼近Q值,选择最优控制动作; 其中,所述步骤三中,DRL算法在运行过程中与建筑环境交互,根据建筑的系统状态更新HVAC系统采取的控制动作;使用一个单独的控制步长代表DRL算法的控制频率,k代表一个控制决策周期内包含的传感器采样周期的数量,它定义了控制动作更新的频率相对于状态感知的频率;每一时间,DRL算法将观察建筑状态并更新控制动作,的表达式为: ; 其中,代表深度强化学习算法的控制策略函数,该函数由经过训练的人工神经网络实现;在两个控制时间步长之间,操作HVAC系统的控制动作与上次更新的动作保持一致;代表建筑仿真或传感器采样频率,每一时间,建筑接收到控制信号并进入下一状态,的表达式为: ; 代表建筑环境的动态函数,即状态转移模型;在,DRL观察建筑状态为后,将在下一步长要采取的控制动作更新为;同时采取控制动作,使建筑发展到新状态;在时间t,采取控制动作后,建筑发展到新状态; 所述步骤四中,DRL算法的目标是通过采取一序列的动作,最小化总能源成本,同时将每个区域的温度维持在一个满意的范围;在状态采取动作后,建筑会发展成新的状态,DRL算法则会收到一个即时回报,表达式为: ; 包括前一控制动作的能源成本和违反期望温度的总惩罚,最小化能源成本和维持期望温度之间存在权衡关系,当总能源成本和总惩罚之和最小时,回报最大化;是惩罚项权重系数;它是一个超参数,用于平衡两个目标:最小化能源成本cost与最小化因温度偏离舒适区间而产生的惩罚,值越大,算法会更注重维持温度舒适度;z表示该建筑里被划分出的区域的总数,i表示为当前是第几个区域;代表在时间步t,为第i个区域设定的期望温度区间的上限值,即最高可接受的舒适温度;代表在时间步t,为第i个区域设定的期望温度区间的下限值,即最低可接受的舒适温度; 使用最优值来代表在状态采取动作所能获得的最大累积回报,通过Bellman方程以递归的形式计算得到,其中是在最大化回报时控制窗口长度的衰减因子,表达式为: ; 由于区域温度受到各种干扰的影响,建筑的状态迁移是随机的,无法准确测量;遵循Q-learning的方法,更新估计值: ; 其中代表在训练过程中估计值的学习率;在MDP环境下,估计值随着时间的推移应逐渐收敛到最优值; 所述步骤五中,使用人工神经网络逼近Q值;在DRL框架中的神经网络结构下,所有控制动作的Q值估计通过在神经网络中执行一次向前传递计算,极大地提高在使用ϵ-贪婪策略选择动作时的效率,其中Q值估计表示神经网络在特定时刻对Q值进行的近似计算结果;特征的输入值是环境状态,使用线性整流函数作为隐藏层的激活函数,线性层推断输出的动作值,确定最优控制动作。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京电力设计研究院有限公司,其通讯地址为:210037 江苏省南京市鼓楼区和燕路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。