海盐县南北湖医学人工智能研究院;提示词科技(杭州)有限责任公司张逸伦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉海盐县南北湖医学人工智能研究院;提示词科技(杭州)有限责任公司申请的专利基于多模态反馈与强化学习的大语言模型优化方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120386849B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510885917.2,技术领域涉及:G06F16/3329;该发明授权基于多模态反馈与强化学习的大语言模型优化方法和装置是由张逸伦设计研发完成,并于2025-06-30向国家知识产权局提交的专利申请。
本基于多模态反馈与强化学习的大语言模型优化方法和装置在说明书摘要公布了:本公开的实施例公开了基于多模态反馈与强化学习的大语言模型优化方法和装置。该方法的一具体实施方式包括:获取答复信息集和页面反馈集;去除异常答复信息,得到正常答复信息集;确定每个正常答复信息对应的满意信息;生成第一反馈数据集;筛选出目标答复信息集;对于每个目标答复信息,执行数据生成步骤:将对应初始答复信息作为锚样本,对应答复质量高于锚样本的答复内容作为正样本,对应答复质量低于锚样本的答复内容作为负样本;生成第二反馈数据;对大语言模型进行模型训练。该实施方式通过页面反馈的多模态信息和大语言模型多轮输出的表现情况,可以高效地对大语言模型进行训练,得到输出更为精准的大语言模型。
本发明授权基于多模态反馈与强化学习的大语言模型优化方法和装置在权利要求书中公布了:1.一种基于多模态反馈与强化学习的大语言模型优化方法,其特征在于,包括: 获取大语言模型输出的答复信息集和设备收集的页面反馈集; 利用目标聚类算法,去除所述答复信息集中的异常答复信息,得到正常答复信息集; 根据所述正常答复信息集对应的页面反馈子集,确定每个正常答复信息对应的满意信息,得到满意信息集; 根据所述满意信息集和正常答复信息集,生成第一反馈数据集; 从所述正常答复信息集中筛选出对应答复内容存在多轮答复的目标答复信息,得到目标答复信息集; 对于每个目标答复信息,执行数据生成步骤: 将所述目标答复信息对应初始答复信息确定为锚样本,多轮答复中对应答复质量高于锚样本的答复内容确定为正样本,多轮答复中对应答复质量低于锚样本的答复内容确定为负样本; 生成所述锚样本、正样本集和负样本集的第二反馈数据集; 根据所述第一反馈数据集和第二反馈数据集,对所述大语言模型进行模型训练,得到训练后大语言模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人海盐县南北湖医学人工智能研究院;提示词科技(杭州)有限责任公司,其通讯地址为:314399 浙江省嘉兴市海盐县武原街道谢家路1479号7楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。