齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)赵志刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)申请的专利基于多阶段检索反馈的RAG查询重写方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120492613B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510964540.X,技术领域涉及:G06F16/334;该发明授权基于多阶段检索反馈的RAG查询重写方法是由赵志刚;张广东;李传涛;王春晓;李锦涛;王雨欣;刘言;周智伟设计研发完成,并于2025-07-14向国家知识产权局提交的专利申请。
本基于多阶段检索反馈的RAG查询重写方法在说明书摘要公布了:本发明涉及检索增强生成技术领域,尤其是提供了一种基于多阶段检索反馈的RAG查询重写方法。该方法包括通过引入查询重写器,构建改进型的RAG框架;基于检索任务的静态反馈和动态反馈两阶段训练查询重写器;并设计信息对齐策略,将重写后的查询校准到检索需求的信息范围和语义,该方法对查询进行了优化,提高了检索需求的匹配度,提升了检索的覆盖率和准确率。
本发明授权基于多阶段检索反馈的RAG查询重写方法在权利要求书中公布了:1.一种基于多阶段检索反馈的RAG查询重写方法,其特征在于,所述方法包括: 步骤1、通过引入查询重写器,构建改进型的RAG框架; 步骤2、根据步骤1,基于检索任务的静态反馈和动态反馈两阶段训练查询重写器;并设计信息对齐策略,将重写后的查询校准到检索需求的信息范围和语义; 所述步骤1包括: 构建由查询重写器、检索器和生成器组成的RAG框架,引入T5-large模型作为查询重写器;首先,查询重写器对原始查询进行重写操作,获得重写后的查询;其次,检索器根据重写后的查询进行检索,获得检索文档;最后,生成器结合重写后的查询和检索文档进行答案预测; 所述步骤2包括: 静态反馈阶段基于监督学习,利用标签查询和标注文档指导查询重写过程;查询重写器通过静态反馈,进行查询重写与信息对齐;动态反馈阶段基于强化学习,将检索器召回的检索文档的准确度和覆盖率作为奖励信号,动态反馈给查询重写器;通过查询重写与检索任务的交互,以使查询重写器生成符合检索需求的查询; 将原始查询q重新表述为在数量和语义上接近标注文档集合的重写查询,其表达式为: ; 其中,,表示标注文档;表示查询重写器生成的重写查询,表示重写查询集合,即由查询重写器生成,,表示查询重写器; 信息对齐策略包括数量对齐和语义对齐两个子策略,其中,数量对齐:根据标注文档的个数确定查询重写器生成重写查询的数量,即,和分别表示重写查询与标注文档的数量;语义对齐:在监督学习训练过程中,将标注文档的语义表示作为监督信号,最大化与的语义相似度,生成的查询信息包含标注文档的信息; 基于监督学习和强化学习两个阶段,对查询重写器进行训练,其过程如下: Ⅰ、监督学习,首先利用大语言模型LLM,根据标注文档生成标签查询;然后通过结合标签查询监督信号和标注文档监督信号,联合优化查询重写任务; 数据集构建,通过Prompt指令引导通义千问模型Qwen-max,针对原始查询q结合标注文档集合生成K个在语义上分别与标注文档匹配的重写查询,构成重写查询集合;然后选择在和R-Precision指标上均优于原始查询检索指标的集合作为标签查询,;构建二元组作为监督学习的训练数据; 标签查询监督信号,选择T5-large模型作为初始化查询重写器;查询重写器基于输入原始查询q学习生成与标签查询接近的输出;使用交叉熵损失函数计算查询生成损失,其表达式为: ; 其中,表示标签查询在序列位置上的词,T表述标签查询的序列长度; 标注文档监督信号,首先部署一个预训练稠密段落检索器DPR的上下文编码器,以生成每个标注文档的隐藏状态,然后对隐藏状态进行平均池化,得到标注文档语义表示;当查询重写器的编码器生成原始查询q的隐藏状态,同样对隐藏状态进行平均池化,以获得查询表示;之后通过最小化查询表示和标注文档语义表示之间的均方误差MSE,对齐查询与文档的语义,信息对齐损失的表达式为: ; 联合优化目标,总体训练目标损失由查询生成损失和信息对齐损失组成,其表达式为: ; 其中,表示权重因子,用于平衡查询生成和信息对齐策略的影响; Ⅱ、强化学习,采用基于策略梯度的强化学习框架,将重写过程建模为马尔可夫决策过程MDP,此过程由状态空间、动作空间、奖励函数及优化策略共同定义,通过检索效果反馈驱动查询重写器迭代改进。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心),其通讯地址为:250353 山东省济南市长清区西部新城大学科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。