苏州大学梁小波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉苏州大学申请的专利基于多标准偏好学习的智能内容评估与优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120494074B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510988724.X,技术领域涉及:G06N5/022;该发明授权基于多标准偏好学习的智能内容评估与优化方法及系统是由梁小波;李俊涛;张民设计研发完成,并于2025-07-17向国家知识产权局提交的专利申请。
本基于多标准偏好学习的智能内容评估与优化方法及系统在说明书摘要公布了:本发明涉及人工智能技术领域,尤其是指基于多标准偏好学习的智能内容评估与优化方法及系统,所述方法包括:构建目标用户偏好数据,生成包含评价细则和判断结果的评估轨迹;基于评估轨迹,通过排序和一致性规则筛选样本并分配信用,得到偏好对训练数据;采用响应监督微调与直接偏好优化策略联合训练生成式奖励模型;将原始评估轨迹重组为交替的接受与拒绝样本,形成长思维链训练数据,进一步训练得到最终模型;通过最终模型评估并优化生成文本与用户偏好的对齐程度。本发明通过多阶段优化与过程监督,提升了语言模型与人类偏好的对齐度及整体性能,解决了传统奖励模型的复合误差、数据稀疏等问题,在分布外评估中表现优异。
本发明授权基于多标准偏好学习的智能内容评估与优化方法及系统在权利要求书中公布了:1.一种基于多标准偏好学习的智能内容评估与优化方法,其特征在于,包括以下步骤: 步骤S1:构建目标用户的偏好数据,根据所述偏好数据,得到其对应的评价细则和判断结果,以生成评估轨迹,包括: 对于给定数据集,基于用户查询文本和待评估的候选响应对,生成与目标任务相关的多个文本序列形式的评估维度,作为偏好树的根节点; 对每个评估维度,根据评价细则的条件概率分布采样生成评价细则,根据判断结果的条件概率分布采样生成判断结果,所述判断结果包括对候选响应和的评分结果和基于所述评分结果得到的偏好响应判断结果;其中,基于所述评分结果得到偏好响应判断结果的方法包括:对两个候选响应和进行评分,得到分数和,如果,则为更优的偏好响应,反之为更优的偏好响应; 每个评估维度对应的评价细则和判断结果作为叶节点,构成偏好数的一个分支结构,每条从根节点到叶节点的路径形成一条包含评估维度、评价细则及判断结果的评估轨迹; 其中,为用户偏好真实标签,表示数据集中样本的数量,表示样本的索引号,表示评估维度的数量,表示评估维度或评价细则的索引号; 步骤S2:基于所述评估轨迹,通过排序规则和一致性规则进行样本筛选与信用分配,得到偏好对数据训练样本,包括: 对于每个评估维度及其对应的评估轨迹,计算候选响应和的评分结果和,并得到分差; 根据所述分差对所有评估维度进行排序,得到排序后的评估维度序列,原始未排序的评估维度序列记作,以此得到排序前后的评估维度偏好对; 对于每个评估维度,生成个不同的评价细则和对应的个判断结果,统计个判断结果中支持优于的次数和支持优于的次数,比较和的大小,得到偏向一致的判断结果和偏向冲突的判断结果; 基于所述偏向一致的判断结果,选择所述分差大于阈值的判断结果和其对应的评分细则作为接受样本;将所述偏向冲突的判断结果于其对应的评价细则作为拒绝样本,得到评价细则偏好对和判断结果偏好对; 所述评估维度偏好对、所述评价细则偏好对和所述判断结果偏好对共同构成偏好对数据训练样本; 步骤S3:基于所述偏好对数据训练样本,采用响应监督微调策略和直接偏好优化策略对生成式奖励模型进行联合训练,得到训练后的生成式奖励模型; 步骤S4:将原始评估轨迹重组为交替排列的评估轨迹接受样本和评估轨迹拒绝样本,形成长思维链训练数据,通过所述长思维链训练数据对所述训练后的生成式奖励模型进一步训练,得到最终的生成式奖励模型; 步骤S5:通过所述最终的生成式奖励模型评估并优化依据目标用户查询的问题生成的文本内容与其偏好的对齐程度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州大学,其通讯地址为:215299 江苏省苏州市吴江区久泳西路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励