Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖南智学优课信息科技有限公司;湖南智榜样教育科技有限公司李凯获国家专利权

湖南智学优课信息科技有限公司;湖南智榜样教育科技有限公司李凯获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖南智学优课信息科技有限公司;湖南智榜样教育科技有限公司申请的专利基于RAG的PDF智能检索与生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120994845B

龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511517633.4,技术领域涉及:G06F16/43;该发明授权基于RAG的PDF智能检索与生成方法及系统是由李凯;陈孝;刘翔;侯汪平;李勋设计研发完成,并于2025-10-23向国家知识产权局提交的专利申请。

基于RAG的PDF智能检索与生成方法及系统在说明书摘要公布了:本发明公开了一种基于RAG的PDF智能检索与生成方法及系统,通过获取输入的文档数据,采用预先建立的分类模型对文档数据进行解析,提取文本内容和图像内容形成第一数据集;采用深度学习模型对第一数据集中的图像内容进行特征提取,同时对第一数据集中的文本内容应用自然语言处理技术进行语义分析,得到多模态特征集合;根据多模态特征集合,应用信息整合算法进行统一编码处理生成第二数据集,若检测到第二数据集中的融合特征向量的完整性低于预设阈值,则补充上下文语义分析填补缺失信息;采用预设的索引构建机制对第二数据集中的融合特征向量进行聚类处理,生成包含分类索引结构的检索索引库。本发明提高了文档检索的准确性和全面性。

本发明授权基于RAG的PDF智能检索与生成方法及系统在权利要求书中公布了:1.一种基于RAG的PDF智能检索与生成方法,其特征在于,包括以下步骤: 获取输入的文档数据,采用预先建立的分类模型对文档数据进行解析,提取文本内容和图像内容形成第一数据集; 采用深度学习模型对所述第一数据集中的图像内容进行特征提取,同时对所述第一数据集中的文本内容应用自然语言处理技术进行语义分析,得到多模态特征集合; 具体包括: 针对所述第一数据集中的图像内容,采用图像分割工具将其拆分为多个视觉元素单元,通过特征提取工具处理所述视觉元素单元,获取对应的图像特征,若所述图像特征的值低于预设的阈值,则通过图像增强工具进行调整,得到调整后的图像特征集合; 根据调整后的图像特征集合,采用特征映射工具对所述图像特征与预设的分类标准进行比对,若不符合标准,则通过特征优化工具进行二次处理,确定符合标准的图像特征子集; 针对所述第一数据集中的文本内容,采用文本分词工具将其拆分为多个语言单元,通过语义分析工具处理所述语言单元,获取对应的文本语义特征,得到文本语义集合; 通过数据整合工具,将所述图像特征子集与所述文本语义集合进行多模态融合,采用内容分类工具对融合数据进行业务匹配,判断是否符合预设目标,得到最终的多模态特征集合; 根据所述多模态特征集合,应用信息整合算法进行统一编码处理生成第二数据集,若检测到所述第二数据集中的融合特征向量的完整性低于预设阈值,则补充上下文语义分析填补缺失信息; 具体包括: 根据所述多模态特征集合,采用信息整合工具对特征编码进行统一处理,生成初步融合数据集,针对所述初步融合数据集的编码一致性进行检测,若检测到一致性低于预设的阈值,则通过数据校准工具进行调整,得到编码一致的融合数据集; 针对编码一致的融合数据集,采用特征检测工具评估向量完整性,若发现所述融合数据集的完整性低于预设的阈值,则通过上下文分析工具提取补充信息,确定完整性提升后的融合数据集; 通过信息填补工具,针对完整性提升后的融合数据集中的缺失部分,结合语义补充工具进行内容填充,获取填充后的融合数据集; 采用业务匹配工具,针对填充后的融合数据集进行分类比对,根据预先建立的规则对所述融合数据集进行判断,得到符合业务目标的最终数据集; 采用预设的索引构建机制对所述第二数据集中的融合特征向量进行聚类处理,生成包含分类索引结构的检索索引库; 具体包括: 针对所述第二数据集中的融合特征,采用预设机制对特征向量进行初步分组处理,通过聚类操作得到初步分类结果; 根据聚类操作得到初步分类结果,针对分类索引的构建过程,应用索引构建工具对分组后的特征向量进行结构化整理,确定分类索引的层级分布; 通过分类索引的层级分布,采用检索索引生成工具对索引结构进行优化调整,得到具备高效查询能力的检索索引框架; 针对检索索引框架,结合数据处理模块对所述第二数据集中的特征向量进行批量映射,若映射过程中检测到数据偏差,则通过校准工具进行修正,判断出符合标准的映射结果; 根据符合标准的映射结果,针对检索库的构建过程,采用存储管理工具将优化后的索引结构与特征向量进行关联存储,获取完整的检索库内容; 通过完整的检索库内容,针对分类索引与检索索引的匹配度进行检测,若检测到匹配度低于预设阈值,则通过调整工具对索引结构进行局部优化,确定最终的检索库架构; 分类索引与检索索引之间的匹配度为: 其中,表示分类索引与检索索引之间的匹配度,表示索引特征维度总数,表示第个特征的权重系数,表示分类索引在第个特征上的值,表示检索索引在第个特征上的值,函数表示相似度计算函数; 对索引结构进行局部优化的最优结构为: 其中,表示对索引结构进行局部优化后的最优结构,表示候选的优化结构,表示需要优化的索引节点数量,表示第个节点的优化权重,函数表示结构差异度量,表示原始第个节点结构,表示优化后第个节点结构,表示正则化参数,表示结构复杂度惩罚项; 根据最终的检索库架构,采用验证工具对检索库的查询响应能力进行测试,得到验证后的检索库数据; 根据用户输入的查询条件,采用相似度算法对所述检索索引库进行匹配,若匹配结果的相关度低于预设阈值则扩展语义查询范围重新匹配。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南智学优课信息科技有限公司;湖南智榜样教育科技有限公司,其通讯地址为:410000 湖南省长沙市岳麓区学士街道学士路336号慧谷科技产业园B1栋1007;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。