南京维斯德软件有限公司万军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京维斯德软件有限公司申请的专利一种基于大语言模型的PDF文本提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120599643B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511115421.3,技术领域涉及:G06V30/41;该发明授权一种基于大语言模型的PDF文本提取方法及系统是由万军;刘昌盛;谭健设计研发完成,并于2025-08-11向国家知识产权局提交的专利申请。
本一种基于大语言模型的PDF文本提取方法及系统在说明书摘要公布了:本发明涉及文档处理与数据提取领域,具体公开了一种基于大语言模型的PDF文本提取方法及系统,本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域,剔除待识别区域的噪声干扰特征;制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,并进行一次图文关联程度分析输出第一关联强度;通过大语言模型对一级PDF文档的内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,输出第二关联强度;基于第一关联强度以及第二关联强度判断二级PDF文档是否合格;本发明有助于恢复文档的逻辑顺序与语义完整性,提升文本纯净度与结构完整性。
本发明授权一种基于大语言模型的PDF文本提取方法及系统在权利要求书中公布了:1.一种基于大语言模型的PDF文本提取方法,其特征在于,包括以下步骤: 获取目标PDF文档,利用PyMuPDF对目标PDF文档各页内容进行解析,识别图像区域与文本区域,并进行定位标记得到第一待识别区域以及第二待识别区域; 基于多维度识别策略识别第一待识别区域以及第二待识别区域的噪声干扰特征,剔除噪声干扰特征得到第一待处理区域以及第二待处理区域,并更新第一待处理区域以及第二待处理区域的空间位置信息; 根据第一待处理区域以及第二待处理区域的空间定位信息,制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,针对一级PDF文档进行一次图文关联程度分析输出第一关联强度; 通过大语言模型对一级PDF文档的每页内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,根据二级PDF文档进行二次图文关联程度分析输出第二关联强度; 基于第一关联强度以及第二关联强度生成文档重构检测评估值,依据文档重构检测评估值确定二级PDF文档是否合格,将确定合格的二级PDF文档以结构化格式输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京维斯德软件有限公司,其通讯地址为:210012 江苏省南京市雨花台区宁双路19号云密城5号楼J栋16楼1604室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励