国网福建省电力有限公司电力科学研究院;国网福建省电力有限公司郭俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网福建省电力有限公司电力科学研究院;国网福建省电力有限公司申请的专利基于LLM动态文本划分的RAG知识库构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119739714B 。
龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411730275.0,技术领域涉及:G06F16/22;该发明授权基于LLM动态文本划分的RAG知识库构建方法是由郭俊;赵志超;陈锦铭;翁宇游;林国庆;陈伯建;黄建业;钱健设计研发完成,并于2024-11-29向国家知识产权局提交的专利申请。
本基于LLM动态文本划分的RAG知识库构建方法在说明书摘要公布了:本发明提出一种基于LLM动态文本划分的RAG知识库构建方法,通过调整LLM动态文本划分方案,对电网系统可行性研究报告进行文本化处理,然后进行文本块划分和基于语义分段的向量化处理,通过Embedding模型构建RAG向量数据库进行存储,通过调整设定参数训练模型,获得符合条件的最优性能模型。
本发明授权基于LLM动态文本划分的RAG知识库构建方法在权利要求书中公布了:1.一种基于LLM动态文本划分的RAG知识库构建方法,其特征在于:通过调整LLM动态文本划分方案,对电网系统可行性研究报告进行文本化处理以获得结构化数据,然后进行文本块划分和基于语义分段的向量化处理,通过Embedding模型构建RAG向量数据库进行存储,通过调整设定参数训练模型,获得符合条件的最优性能模型; 在所述结构化数据的基础上,根据电网领域可行性研究报告的结构特点,对LLM中的document_loaders进行修改,以根据可行性研究报告的结构将文档预处理纯文本内容; 所述进行文本块划分具体为:结合LumberChunker使用LLM对文本进行动态划分提取文本的语义信息,生成多个具有语义独立性的文本片段组G,其中Gi表示LLM动态划分后的第i个文本片段,得到具有完整语义信息的文本块; 所述基于语义分段的向量化处理,通过Embedding模型构建RAG向量数据库进行存储为:利用Embedding模型将动态划分完成的文本片段向量化处理,然后将完成向量化的文本片段存入RAG向量数据库;将向量化的文本片段存储在RAG系统的向量数据库中;所述向量数据库允许通过向量化匹配的方式检索最相关的电力系统文档片段;所述利用Embedding模型将动态划分完成的文本片段向量化处理具体为:使用Embedding模型将动态划分完成的文本片段转化为高维向量表示,通过词向量检索、词向量求平均、余弦相似度计算其中之一的方式实现; 所述通过调整设定参数训练模型,获得符合条件的最优性能模型为通过向量数据库进行检索训练,重复进行文本块划分和基于语义分段的向量化处理的过程,以修改上下文大小θ,最终得到最优电力技术方案检索模型Mθ。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网福建省电力有限公司电力科学研究院;国网福建省电力有限公司,其通讯地址为:350007 福建省福州市仓山区复园支路48号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励