北京衔远有限公司李凯祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京衔远有限公司申请的专利融合检索与大模型蒸馏的嵌入数据合成方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121365670B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511937471.X,技术领域涉及:G06F40/30;该发明授权融合检索与大模型蒸馏的嵌入数据合成方法、装置及介质是由李凯祥;陈懿诚;谢树雷设计研发完成,并于2025-12-22向国家知识产权局提交的专利申请。
本融合检索与大模型蒸馏的嵌入数据合成方法、装置及介质在说明书摘要公布了:本申请提供一种融合检索与大模型蒸馏的嵌入数据合成方法、装置及介质。该方法包括:对垂直领域的非结构化文档进行预处理,将非结构化文档划分为具有层级关联关系的多粒度文本块;基于多粒度文本块组合形成上下文,将垂直领域先验知识对应的扰动信息注入上下文,调用生成模型根据上下文生成检索查询,并确定与检索查询对应的目标文本块作为初始正样本;根据文本块之间的关联关系过滤假负样本文本块,形成正样本集合和负样本集合;构建对比学习训练样本,利用对比学习训练样本训练语义表征模型,以生成用于检索任务的嵌入向量。本申请能够提高检索任务构造效率及真实性、提升正样本覆盖完整性、增强对比学习训练稳定性与检索精度。
本发明授权融合检索与大模型蒸馏的嵌入数据合成方法、装置及介质在权利要求书中公布了:1.一种融合检索与大模型蒸馏的嵌入数据合成方法,其特征在于,包括: 对垂直领域的非结构化文档进行预处理,将所述非结构化文档划分为具有层级关联关系的多粒度文本块,并基于所述多粒度文本块及关联关系构建知识库; 基于所述知识库中的多粒度文本块组合形成上下文,将垂直领域先验知识对应的扰动信息注入所述上下文,调用生成模型根据所述上下文生成检索查询,并确定与所述检索查询对应的目标文本块作为初始正样本; 将所述检索查询输入语义检索系统,在所述知识库中检索得到候选文本块集合,并根据相关性对所述候选文本块集合进行排序; 基于排序结果和推理模型,从所述候选文本块集合中挖掘出用于补充的正样本文本块,以及与所述检索查询的语义相近但不属于正样本的困难负样本文本块,并根据文本块之间的关联关系过滤假负样本文本块,以针对每个所述检索查询形成对应的正样本集合和负样本集合; 基于所述正样本集合和所述负样本集合构建对比学习训练样本,利用所述对比学习训练样本训练语义表征模型,以生成用于检索任务的嵌入向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京衔远有限公司,其通讯地址为:100080 北京市海淀区学院路51号首享科技大厦第三层306室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励