广西大学殷林飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广西大学申请的专利一种学习用户画像与深度强化学习的热水系统控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116772426B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310752083.9,技术领域涉及:F24H15/156;该发明授权一种学习用户画像与深度强化学习的热水系统控制方法是由殷林飞;熊轶设计研发完成,并于2023-06-25向国家知识产权局提交的专利申请。
本一种学习用户画像与深度强化学习的热水系统控制方法在说明书摘要公布了:本发明提出一种学习用户画像与深度强化学习的热水系统控制方法,该学习用户画像与深度强化学习方法的主要步骤包括收集大量用户的历史多源异构数据、利用多通道卷积对多源异构数据进行特征融合与提取、采用K‑Means方法对融合提取后的特征数据生成用户的热水使用画像和使用在线式的深度强化学习方法与用户进行实时交互,来不断改进策略模型。所提学习用户画像与深度强化学习方法能解决热水系统中数据驱动方法无法快速投入使用的问题,实现用户个性化的热水控制,优化能源利用效率,提高用户的舒适度,具有很好的可扩展性和适应性,并且整体框架解释性比较优异。
本发明授权一种学习用户画像与深度强化学习的热水系统控制方法在权利要求书中公布了:1.一种学习用户画像与深度强化学习的热水系统控制方法,其特征在于,将多源异构数据特征融合提取、用户画像、无监督学习和深度强化学习进行结合,用于热水加热装置的控制;实现用户个性化的热水控制,优化能源利用效率,提高用户的舒适度;在使用过程中的步骤为: 步骤1:收集ND位用户的历史多源异构数据;其中,第i位用户的历史多源异构数据包括:过去30天中每小时的天气数据其中,为第1天第1小时的天气数据;为第1天第2小时的天气数据;为第1天第24小时的天气数据;为第2天第1小时的天气数据;为第2天第2小时的天气数据;为第2天第24小时的天气数据;为第30天第1小时的天气数据;为第30天第2小时的天气数据;为第30天第24小时的天气数据;过去30天中每小时的温度数据其中,为第1天第1小时的温度数据;为第1天第2小时的温度数据;为第1天第24小时的温度数据;为第2天第1小时的温度数据;为第2天第2小时的温度数据;为第2天第24小时的温度数据;为第30天第1小时的温度数据;为第30天第2小时的温度数据;为第30天第24小时的温度数据;过去30天中每小时热水器开关状态数据其中,为第1天第1小时的热水器开关状态数据;为第1天第2小时的热水器开关状态数据;为第1天第24小时的热水器开关状态数据;为第2天第1小时的热水器开关状态数据;为第2天第2小时的热水器开关状态数据;为第2天第24小时的热水器开关状态数据;为第30天第1小时的热水器开关状态数据;为第30天第2小时的热水器开关状态数据;为第30天第24小时的热水器开关状态数据;过去30天中每小时的热水使用量数据其中,为第1天第1小时的热水使用量数据;为第1天第2小时的热水使用量数据;为第1天第24小时的热水使用量数据;为第2天第1小时的热水使用量数据;为第2天第2小时的热水使用量数据;为第2天第24小时的热水使用量数据;为第30天第1小时的热水使用量数据;为第30天第2小时的热水使用量数据;为第30天第24小时的热水使用量数据;过去30天中每小时的日期数据其中,为第1天第1小时的日期数据;为第1天第2小时的日期数据;为第1天第24小时的日期数据;为第2天第1小时的日期数据;为第2天第2小时的日期数据;为第2天第24小时的日期数据;为第30天第1小时的日期数据;为第30天第2小时的日期数据;为第30天第24小时的日期数据;过去30天中每小时的星期数据其中,为第1天第1小时的星期数据;为第1天第2小时的星期数据;为第1天第24小时的星期数据;为第2天第1小时的星期数据;为第2天第2小时的星期数据;为第2天第24小时的星期数据;为第30天第1小时的星期数据;为第30天第2小时的星期数据;为第30天第24小时的星期数据;过去30天中每小时的小时数据其中,i为第1天第1小时的小时数据;为第1天第2小时的小时数据;为第1天第24小时的小时数据;为第2天第1小时的小时数据;为第2天第2小时的小时数据;为第2天第24小时的小时数据;为第30天第1小时的小时数据;为第30天第2小时的小时数据;为第30天第24小时的小时数据; 步骤2:将每位用户的历史多源异构信息数据进行拼接获得3维张量多源异构融合样本T1表示第1位用户的3维张量多源异构融合样本;T2表示第2位用户的3维张量多源异构融合样本;表示第ND位用户的3维张量多源异构融合样本; 步骤3:对每位用户的3维张量多源异构融合样本进行提取特征,得到每位用户的多源异构特征展平样本;对第i位用户的3维张量多源异构矩阵样本Ti进行多通道卷积运算;卷积核张量MC的形状为30,3,27;多通道卷积运算的输出为多源异构特征样本其中, 均为第i位用户多通道卷积运算得到的多源异构特征样本中的元素;Z1表示第1位用户的多源异构特征样本;Z2表示第2位用户的多源异构特征样本;表示第ND位用户的多源异构特征样本;多通道卷积的运算过程如下: Zi=Ti⊙MC1 式中,Ti为第i位用户的3维张量多源异构融合样本;⊙为多通道卷积运算;Zi为第i位用户的多源异构特征样本; 然后,将多源异构特征样本进行展平运算,改变元素的排列方式,得到第i位用户的多源异构特征展平样本多源异构特征展平样本为616×1的矩阵; Pi=FlattenZi2 式中,Flatten·为展平函数;Pi为第i位用户的多源异构特征展平样本; 步骤4:将ND位用户的多源异构特征展开样本输入到K-Means方法中;K-Means方法的输出为不同种类的热水使用画像:C1,C2,...Ck;其中,C1为第1种热水使用画像;C2为第2种热水使用画像;Ck为第k种热水使用画像;k是K-Means方法输出的热水使用画像的种类个数;除K-Means方法输出的k种热水使用画像以外,定义第k+1种热水使用画像为未知画像; K-Means聚类方法的运行过程为: 4.1随机初始化k个聚类标签,分别为:C1,C2,...Ck; 4.2计算每个多源异构特征展开样本与所有聚类标签的欧氏距离: dPi,Cj=sqrtPi-Cj23 式中,Pi为第i位用户的多源异构特征展开样本;Cj为第j个聚类标签;dPi,Cj为第i位用户的多源异构特征展开样本与第j个聚类标签的欧氏距离;sqrt·为平方根函数; 4.3将每个多源异构特征展开样本分配给欧式距离最小的聚类标签; 4.4更新聚类标签;对于每个聚类标签,计算属于该聚类标签的多源异构特征展开样本的均值,作为新的聚类标签; 式中,Cj表示更新后的聚类标签;Nj为属于聚类标签Cj的多源异构特征展开样本的个数;Pm表示属于聚类质心Cj的第m个多源异构特征展开样本; 4.5重复步骤4.2-4.4,直到满足最大迭代次数为止; 4.6输出聚类结果;K-Means方法输出k种聚类标签;分别为C1,C2,...Ck,每一种聚类标签为一种热水使用画像;C1为第1种热水使用画像;C2为第2种热水使用画像;Ck为第k种热水使用画像; 将ND名用户的多源异构特征展平样本与k种热水使用画像C1,C2,...Ck组成初始数据库;步骤5:将热水器投入新用户使用,并收集新用户的实时多源异构数据;新用户的实时多源异构数据包括:每小时的天气数据每小时的温度数据每小时的热水器开关状态数据每小时的热水使用量每小时的日期数据每小时的星期数据每小时的小时数据其中,d为热水器投入的天数,t为当天的小时数; 热水器由智能体和热水加热装置组成;智能体中含有初始数据库、热水画像神经网络判别器和近端策略优化方法; 在热水器投入新用户使用之前,采用离线训练的方式对近端策略优化方法训练,使近端策略优化方法能够控制热水器的开关状态;近端策略优化方法的输入矩阵为其中,ek∈{1,2,...,k,k+1},表示新用户的热水使用行为属于何种热水使用画像;ek=1表示新用户的热水使用行为属于第1种热水使用画像;ek=2表示新用户的热水使用行为属于第2种热水使用画像;ek=k表示新用户的热水使用行为属于第k种热水使用画像;ek=k+1表示新用户的热水使用行为属于未知画像;近端策略优化方法的输出为热水器的开关状态; 步骤6:将新用户的实时多源异构数据进行拼接获得新用户的2维张量多源异构融合样本将R输入到热水画像神经网络判别器中;热水画像神经网络判别器的输出为R属于第1类到第k类热水使用画像的概率值,分别为 热水画像神经网络判别器的输入层为卷积层;热水画像神经网络判别器的隐藏层由宽度为Whw,深度为Whd全连接层组成;其隐藏层中的全连接层的激活函数为tanh函数;热水画像神经网络判别器的输出层为宽度为k,深度为Wod全连接层组成;其输出层中的全连接层的激活函数为softmax函数;采用动量随机梯度下降优化器来训练热水画像神经网络判别器; 步骤7:判断新用户的2维张量多源异构融合样本R是否属于初始数据库中的热水使用画像; 当均小于0.9时,热水画像神经网络判别器拒绝识别;则新用户的热水使用行为不属于初始数据库中的热水使用,而是属于第k+1类热水使用画像,即未知画像;此时,ek=k+1; 当大于0.9时,则判定新用户的热水使用行为属于初始数据库中的第i类热水使用画像;此时,ek=i; 步骤8:对近端策略优化方法进行在线训练,同时输出热水加热装置的控制动作;近端策略优化方法的在线训练的过程为: 8.1将新用户的热水使用画像ek和实时多源异构数据输入到近端策略优化方法中; 8.2根据当前动作函数πA|S;θ和评价函数VS;φ生成NP条轨迹序列;其中,θ为动作函数的网络结构参数,即动作函数的网络权重和偏置;φ为评价函数的网络结构参数,即评价函数的网络权重和偏置;A为近端策略优化方法输出的动作,动作共有两种,一种是打开热水器的开关,一种是关闭热水器的开关;S为输入到近端策略优化方法的状态,状态包括新用户的热水使用画像和实时多源异构数据; 此外,RPPO为当近端策略优化方法对加热装置做出动作后得到的奖励; 如果有热水需求,奖励RPPO为: RPPO=-areward×Php-breward×max40-Ttank,0-creward×maxHtime-24,05 如果没有热水需求,奖励RPPO为: RPPO=-areward×Php-creward×maxHtime-24,06 式中,areward为奖励中能量项系数;breward为奖励中舒适项系数;creward为奖励中卫生项系数;Php为加热装置消耗的能量;max·,·为求最大值函数;Ttank为热水箱的温度;Htime为上一次热水箱的温度达到60℃以上的时间长短; 每条轨迹序列为: 式中:ts代表某一时刻,即当前轨迹序列的起始时间;为ts时刻的状态;为ts+1时刻的状态;为ts+NP-1时刻的状态;为ts+NP时刻的状态;是在状态下的一个动作;是在状态下的一个动作;是从状态转变到的奖励;是从状态转变到的奖励; 当处于状态时,利用πA|S;θ计算出每个动作的概率,并且根据概率分布随机选择动作在训练的开始,ts=1,对于后续的NP条轨迹序列,ts←ts+NP; 8.3对于t=ts+1,ts+2,...,ts+NP这N条轨迹序列,计算每条轨迹序列的折扣回报Gt与优势函数Dt;折扣回报Gt为: 式中,γ为折扣系数;RPPO,k是从状态Sk转变到Sk+1的奖励值;bG为计算Gt时的系数;如果是最终状态,则bG为0,否则,则bG为1; 优势函数Dt为: 式中,λ为平滑因子;bD为计算Dt时的系数,如果是最终状态,则bD为0,否则bD为1; 8.4从这NP条轨迹序列中进行学习: 8.4.1从当前的一条轨迹序列中随机抽取一个大小为MB的数据集,该数据集中的每个元素都包含相应的折扣回报和优势函数值; 8.4.2通过梯度下降法来最小化评价损失函数Lcriticφ用于更新评价函数的参数φ,评价损失函数Lcriticφ为: 式中:Gi表示数据集中第i个元素中相应的折扣回报; 8.4.3将优势函数值归一化,数据集中第i个元素中相应的归一化的折扣优势函数值为: 式中,i为数据集中每个元素的下标数,表示数据集中第i个元素中相应的归一化的折扣优势函数值;Di数据集中第i个元素相应的优势函数值;D1数据集中第1个元素相应的优势函数值;D2数据集中第2个元素相应的优势函数值;DM数据集中第MB个元素相应的优势函数值;mean·,·,...,·为求平均值函数;std·,·,...,·为计算标准偏差的函数; 8.4.4通过梯度下降法来最小化动作损失函数Lactorθ用于更新动作函数的参数θ,动作损失函数Lactorθ为: 其中riθ系数因子和熵损失函数分别为: 式中,min·,·求最小值函数;πAi|Si;θ为在状态Si下,给定参数θ时,采取行动Ai的概率;πAi|Si;θold为在状态Si下,给定当前学习时期之前的参数θold,采取行动Ai的概率;riθ系数因子;ε为剪切因子;是熵损失函数;Pz为近端策略优化方法中动作的种类个数;πAk|Si;θ为在状态Si下,给定参数θ时,采取行动Ak的概率;w是熵损失系数; 8.5近端策略优化方法根据8.1中的输入数据,使用更新后的动作函数来输出控制热水加热装置的动作; 8.6重复8.1-8.5,持续更新近端策略优化方法,并输出控制热水加热装置的动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西大学,其通讯地址为:530004 广西壮族自治区南宁市西乡塘区大学东路100号广西大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。