四川语言桥信息技术有限公司兰元获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川语言桥信息技术有限公司申请的专利一种PDF转Word页眉页脚提取方法、装置及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119272716B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411450003.5,技术领域涉及:G06F40/103;该发明授权一种PDF转Word页眉页脚提取方法、装置及计算机可读存储介质是由兰元;朱宪超;霍展羽;李晶设计研发完成,并于2024-10-17向国家知识产权局提交的专利申请。
本一种PDF转Word页眉页脚提取方法、装置及计算机可读存储介质在说明书摘要公布了:本发明属于PDF文件解析技术领域,提供了一种PDF转Word页眉页脚提取方法、装置及计算机可读存储介质,方法包括以下步骤:步骤S1:对PDF文件进行前置处理,完成字符与图形的嵌套、布局处理和元素排序,得到每一页内容都有序的PDF预处理文件;步骤S2:页面拆分:将PDF预处理文件拆分为奇数页文件和偶数页文件;步骤S3:识别并划定每页文件的页眉和页脚的有效区域;步骤S4:在有效区域内,从第二页开始匹配每一页的公共元素,并判断PDF页面的页眉和页脚类型;步骤S5:判断所有页面的页眉页脚类型:步骤S6:根据所有页面的页眉页脚类型,生成每一页的页眉页脚信息,实现页眉页脚提取。本发明可以实现高效率的完成页眉、页脚的识别。
本发明授权一种PDF转Word页眉页脚提取方法、装置及计算机可读存储介质在权利要求书中公布了:1.一种PDF转Word页眉页脚提取方法,其特征在于,包括以下步骤: 步骤S1:对PDF文件进行前置处理,完成字符与图形的嵌套、布局处理和元素排序,得到每一页内容都有序的PDF预处理文件; 步骤S2:页面拆分:将PDF预处理文件拆分为奇数页文件和偶数页文件; 步骤S3:识别并划定每页文件的页眉和页脚的有效区域; 步骤S4:在有效区域内,从第二页开始匹配每一页的公共元素,并判断PDF页面的页眉和页脚类型,页眉和页脚类型包括类型A和类型C,其中,类型A是指每页页眉页脚都相同,类型C是指奇偶页页眉页脚不同;其中,判断页眉和页脚类型的方法如下: 41在匹配过程中,若每一页之间的公共元素所在的索引都相同,则判断当前PDF文件中的页眉页脚类型为类型A,即每页页眉页脚都相同; 42在匹配过程中,若某一页的公共元素与之前的匹配结果不同,则终止匹配,然后,单独使用奇数页进行匹配,单独使用偶数页进行匹配,若所有的奇数页的公共元素的索引都相同,且偶数页的公共元素的索引也相同,则判断当前PDF文件中页眉页脚类型为类型C,即奇偶页页眉页脚不同; 43若不满足所述41或42,则判断当前PDF文件中不存在页眉和页脚; 所述步骤S4中,匹配的方法如下:将元素排序后,从头到尾遍历,根据索引对比相同索引的数据是否相同,提取出所有页具有相同元素的索引位置; 步骤S5:判断所有页面的页眉页脚类型: 51若根据步骤S4确定当前PDF页面的页眉、页脚类型为类型A,则判断PDF文件的首页与第二页的公共元素是否相同,若相同,则确定PDF文件的所有页面的页眉页脚类型为类型A,若不相同,则确定PDF文件的所有页面的页眉页脚类型为类型A和类型B,其中,类型B是指首页页眉页脚不同; 52若根据步骤S4确定当前PDF页面的页眉、页脚类型为类型C,则判断PDF文件的首页与第三页的公共元素是否相同,若相同,则确定PDF文件的所有页面的页眉页脚类型为类型C,若不相同,则确定PDF文件的所有页面的页眉页脚类型为类型C和类型B,其中,类型B是指首页页眉页脚不同; 步骤S6:根据所有页面的页眉页脚类型,生成每一页的页眉页脚信息,实现页眉页脚提取。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川语言桥信息技术有限公司,其通讯地址为:610000 四川省成都市高新区天府大道北段1288号1幢1单元801、802、803号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励