杭州海康威视数字技术股份有限公司赵飞飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州海康威视数字技术股份有限公司申请的专利一种基于协同文档树重构的检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120994759B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511517322.8,技术领域涉及:G06F16/31;该发明授权一种基于协同文档树重构的检索方法是由赵飞飞;吕洁;谭润;周洪弘;任恩芝设计研发完成,并于2025-10-22向国家知识产权局提交的专利申请。
本一种基于协同文档树重构的检索方法在说明书摘要公布了:本申请提供一种基于协同文档树重构的检索方法,以每个文档块的向量表示作为多维系统文档树的第一层节点,对节点执行GMM聚类,结合LLM获取的聚类中心的结构化摘要作为文档树的下一层节点;依照每个文档块的向量表示和树中其它节点之间的层级关系和或路径距离,基于五元训练样本增强Embedding模型和重排Reranker模型;基于查询文本的待检索向量表示与树中除根节点之外的节点间的第一余弦相似度,得到全局候选文本集;逐层剪枝遍历文档树的节点,获取遍历到的节点与待检索向量的相似度,得到精细候选文本集;采用增强后的Reranker模型对全局候选文本集和精细候选文本集的并集进行重排,得到检索结果。
本发明授权一种基于协同文档树重构的检索方法在权利要求书中公布了:1.一种基于协同文档树重构的检索方法,其特征在于,所述方法包括: 获取与待检索的查询文本属于相同领域的多个样本文档,通过滑动窗口对所述多个样本文档进行分块处理,得到多个文档块; 采用向量表征Embedding模型生成每个文档块的向量表示,以每个文档块的向量表示,作为多维系统文档树的第一层节点,对所述节点执行高斯混合模型GMM聚类,并在GMM聚类过程中采用大语言模型LLM获取每个聚类簇的结构化摘要作为动态聚类中心,将GMM聚类迭代结束后的结构化摘要作为所述多维系统文档树的下一层节点,直至聚类收敛得到完整的多维系统文档树; 依照每个文档块的向量表示和所述多维系统文档树中其它节点之间的层级关系和或路径距离,确定该文档块对应的正样本、正样本评分、负样本和负样本评分,得到五元训练样本; 基于所述五元训练样本增强所述Embedding模型和重排Reranker模型; 基于增强后的Embedding模型将所述查询文本转化为待检索向量表示; 基于所述待检索向量表示与所述多维系统文档树中除根节点之外的节点之间的第一余弦相似度,得到全局候选文本集; 从根节点出发,逐层剪枝遍历所述多维系统文档树的节点,基于Embedding模型获取遍历到的节点与所述待检索向量的Embedding相似度,得到精细候选文本集; 采用增强后的Reranker模型对所述全局候选文本集和所述精细候选文本集的并集进行重排,得到检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州海康威视数字技术股份有限公司,其通讯地址为:310051 浙江省杭州市滨江区阡陌路555号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励