东北大学张高铭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种基于强化学习增强长期收益的序列推荐方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116244522B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310318101.2,技术领域涉及:G06F16/9535;该发明授权一种基于强化学习增强长期收益的序列推荐方法是由张高铭;郭贵冰设计研发完成,并于2023-03-28向国家知识产权局提交的专利申请。
本一种基于强化学习增强长期收益的序列推荐方法在说明书摘要公布了:本发明提供一种基于强化学习增强长期收益的序列推荐方法,涉及网络推荐技术领域。本发明将强化学习策略作为教师模型,将监督学习的序列推荐模型作为学生模型;经过数据预处理后,进行模型训练;训练过程中,教师模型基于监督学习的序列推荐模型视为环境,并输出行动action用于调整监督学习的序列推荐模型的状态以驱动推荐模型注重长期收益;学生模型采用被教师模型调整后的新状态作为输入,以产生推荐结果。本发明可以在不影响真实用户的情况下通过与推荐模型在线交互进行训练,推荐模型在产生推荐结果时将被驱动于注重长期收益,进一步地提升了推荐算法的效果,使得推荐算法能更精准地为用户进行推荐。
本发明授权一种基于强化学习增强长期收益的序列推荐方法在权利要求书中公布了:1.一种基于强化学习增强长期收益的序列推荐方法,其特征在于:该方法将强化学习策略作为教师模型,将监督学习的序列推荐模型作为学生模型;经过数据预处理后,进行模型训练;训练过程中,教师模型基于监督学习的序列推荐模型视为环境,并输出行动action用于调整监督学习的序列推荐模型的状态以驱动推荐模型注重长期收益;学生模型采用被教师模型调整后的新状态作为输入,以产生推荐结果; 所述模型训练包括: 步骤2.1:通过标准正太分布初始化模型参数;包括:使用多层感知机构建的强化学习模型Actorμ和CriticQ,以及多层感知机构建的解码器f和序列模型编码器G;然后创建与μ、Q、f和G模型参数完全相同的复制模型:CopyActorμ′、CopyCriticQ′、复制解码器f′和复制编码器G′; 步骤2.2:从数据集中获取一批长度为10的交互序列,以及序列下一时刻的交互物品;将交互序列作为序列模型的输入编码得到交互序列的表示; 用X表示候选物品集合;每个交互序列都与来自X的物品相关联,交互序列x1:t={x1,x2,...,xt},其中xh∈X代表交互序列中h时刻的交互项目,0h≤t;在每一轮训练中,从数据集获取一批交互序列;然后将序列中的每个交互物品映射为物品嵌入itemembedding;将物品嵌入组成的序列输入到编码器G中映射得到表示状态st; 步骤2.3:将交互序列的表示作为强化学习模型的Actor的输入状态state,然后输出action;具体方法为: 对于Actor,将其定义为: at=softmaxoL+1 其中,ol表示神经网络中第l层的输出,relu是激活函数,和是Actor第l层的可训练参数;at是强化学习输出的行为向量即action,用于调整监督学习学生模型;A是控制调整强度的超参数,当A=0时,强化学习模型不会向学生模型输出知识,框架恢复为简单的监督学习,而A越大意味着强化学习教师模型在调整学生监督模型时占更大的权重;softmax函数定义如下: 其中,oj表示向量o的第j位元素,m为向量o的维度; 步骤2.4:将action输入softmax函数后,与state计算逐元素乘积得到新的表示状态 步骤2.5:将新的表示状态输入到解码器得到候选物品集中所有物品的推荐得分; 步骤2.6:基于交叉熵损失函数对解码器进行优化; 步骤2.7:基于时差误差优化强化学习的Critic; 步骤2.8:基于Critic输出的Q-Value优化强化学习的Actor;在训练过程中交替地训练监督学习部分和强化学习部分,直至模型收敛。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路三号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励