Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京大学俞扬获国家专利权

南京大学俞扬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京大学申请的专利一种基于用户行为模型的推荐策略优化方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114911969B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210537164.2,技术领域涉及:G06F16/735;该发明授权一种基于用户行为模型的推荐策略优化方法和系统是由俞扬;黄睿;詹德川;周志华设计研发完成,并于2022-05-18向国家知识产权局提交的专利申请。

一种基于用户行为模型的推荐策略优化方法和系统在说明书摘要公布了:本发明公开了一种基于用户行为模型的推荐策略优化方法和系统,基于生成对抗模仿学习算法从用户与视频推荐系统的离线交互数据中构建出能够反映用户行为偏好的用户行为模型。通过让强化学习智能体与用户行为模型进行交互收集数据,并基于强化学习算法PPO来优化视频推荐策略的相关指标得到最优推荐策略,降低了强化学习直接在推荐系统上试错带来的成本代价,并且显著地提升了推荐策略的即时交互指标和长期交互指标。该最优推荐策略部署到真实的推荐系统进行在线评估,若相关指标不符合系统的要求,则继续收集新的交互数据并重复用户模拟器构建过程和推荐策略优化过程,直至推荐策略的相关指标满足系统要求。

本发明授权一种基于用户行为模型的推荐策略优化方法和系统在权利要求书中公布了:1.一种基于用户行为模型的推荐策略优化方法,其特征在于,包括如下步骤: 1)生成离线用户-推荐系统交互数据集;从推荐系统的日志系统中检索用户在一段时间内的交互数据,对同一个用户ID的相应交互数据根据时间戳进行排序后,得到用户与推荐系统的交互轨迹数据,交互轨迹数据构成用户-推荐系统交互数据集; 2)使用生成对抗模仿学习算法训练用户行为模型; 3)训练推荐策略;初始化一个推荐策略,与训练好的用户行为模型进行交互收集数据,使用强化学习算法PPO优化推荐策略的指标,直至收敛或达到给定训练次数,输出最优推荐策略; 4)部署和评估最优推荐策略;将最优推荐策略部署到推荐系统中,利用在线数据评估推荐策略的交互指标是否符合系统的要求; 5)若在线评估的结果不符合系统要求,则继续收集新的用户-推荐系统交互数据,并重复步骤1)至4),直到推荐策略的相关指标满足系统要求; 使用生成对抗模仿学习算法训练用户行为模型的步骤如下: 步骤1:初始化用户行为网络、推荐策略网络、判别器D; 步骤2:从用户-推荐系统交互数据集中采样一批数据;每条数据为轨迹中的出发点,它包含该数据对应的时间戳信息、用户点击历史列表、用户上一时刻的点击反馈信息,对用户点击历史列表经过EmbeddingModel转换成对应的用户点击历史状态; 步骤3:将时间戳信息、用户点击历史状态和用户上一时刻的点击反馈输入推荐策略网络,生成对应的候选视频信息; 步骤4:将用户点击历史状态和候选视频输入到用户行为网络中,得到用户对候选视频的点击反馈信息和下一次请求的间隔时间信息; 步骤5:将当前的时间戳叠加上对于下一次请求的间隔时间信息得到下一次请求的时间戳信息,并迭代步骤3至步骤5,生成一批用户与推荐策略网络交互的轨迹数据Dg; 步骤6:更新判别器参数;从真实的用户与视频推荐系统的历史离线交互数据集中采样一批真实的用户与推荐系统的交互轨迹数据Dr,并将生成的轨迹数据Dg同时输入判别器D,优化以下目标损失函数: 其中,τ代表数据集中的轨迹,Dτ表示判别器D的输入数据是τ,E表示期望,log表示对自然底数e取对数,判别器D最大化在真实的用户与推荐系统的交互轨迹数据Dr下的判别器得分,同时最小化在生成的用户与推荐策略网络交互轨迹数据Dg下的判别器得分,区分出轨迹是来自交互轨迹数据Dr还是来自于交互轨迹数据Dg; 步骤7:更新用户行为网络参数,迭代步骤2至步骤5,生成一批用户行为网络与推荐策略网络交互生成的轨迹数据集{τ 1 ,τ 2 ,…,τ N },优化目标为生成交互轨迹数据上的带折扣累积奖励: 其中,为奖励的折扣系数,设置为0,1]之间的实数,t时刻的奖励r t =logD(τ t )设置为判别器对轨迹τ t 输出的评分的自然对数变换值; 步骤8:重复步骤2-7,直到判别器D的损失函数收敛或达到给定训练次数; 步骤9:输出最终的用户行为网络作为用户行为模型,训练过程结束。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。