齐鲁工业大学(山东省科学院)姜树明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学(山东省科学院)申请的专利一种政府采购合同PDF文档快速、批量提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116775740B 。
龙图腾网通过国家知识产权局官网在2025-08-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310781766.7,技术领域涉及:G06F16/25;该发明授权一种政府采购合同PDF文档快速、批量提取方法是由姜树明;李岩;张莹莹设计研发完成,并于2023-06-29向国家知识产权局提交的专利申请。
本一种政府采购合同PDF文档快速、批量提取方法在说明书摘要公布了:本发明涉及一种政府采购合同PDF文档快速、批量提取方法,属于涉及PDF文档信息提取领域。通过改进python开源库中的pdfplumber,提高提取的效率,并且融入正则表达式匹配,实现一种全自动提取解析模型,以解决提取内容存在大量空格且提取的内容杂乱无序的问题,实现精准匹配,快速准确、批量提取政府采购合同PDF文档的具体内容。
本发明授权一种政府采购合同PDF文档快速、批量提取方法在权利要求书中公布了:1.一种政府采购合同PDF文档快速、批量提取方法,其特征在于,所述提取方法的具体步骤为: 步骤S101,读取政府采购合同PDF文档,解析PDF文档页码,解析首页文本元素,获取合同采购类型; 步骤S102,根据不同的合同采购类型解析第二页合同PDF的文本元素,运用不同的正则表达式匹配出合同的具体内容; 步骤S103,若步骤S102提取的文本元素中没有合同的详细内容,则提取合同PDF文档的表格信息,在表格信息中提取合同文档的详细内容; 步骤S104,将提取的合同PDF文档的详细内容存入到数据库中; 所述提取方法中PDF文档解析采用python工具包pdfplumber,来获取政府采购合同PDF文档的所有元素; 所述提取方法改进python工具包的pdfplumber,添加find_table()方法,当导入PDF文件后,对表格进行查找,通过检索每页线段数量的方式,精准定位到表格所在页; 步骤S103对表格数据进行提取的方法为: 步骤S1031,通过对pdfplumber中增加的find_table()方法,精准定位到表格所在页面; 步骤S1032,解析文件的信息,对锁定的页面进行解析,将解析出的线段、线框等信息保存起来; 步骤S1033,处理线段,解析出的线段通过filter_edges()方法将异常线段进行过滤,再通过merge_edges()方法进行合并线段; 步骤S1034,寻找交叉点,通过edges_to_intersections()方法对每条线段的端点坐标进行判断,返回线与线的交点,并以字典的数据类型保存; 步骤S1035,寻找表格,首先通过intersections_to_cells()方法将交点进行从左到右,从上到下的排序,并找到将每个交点作为左上角顶点的最小单元格,生成当前表格所包含的单元格;再通过cells_to_tables()方法把连通的单元格进行排序组合,生成表格对象; 步骤S1036,提取表格文字,Table类中的extract()方法可以通过单元格位置和字符位置判断出位于单元格内的文字,并依据单元格的排列方式将其中的文字按照行的形式提取成嵌套列表的形式,将表格中的采购物品详细信息保存到数据库中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院),其通讯地址为:250013 山东省济南市西部新城大学科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。