Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东方财富信息股份有限公司顾希明获国家专利权

东方财富信息股份有限公司顾希明获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东方财富信息股份有限公司申请的专利一种基于定位算法的无框线表格精准识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116129454B

龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310072503.9,技术领域涉及:G06F40/216;该发明授权一种基于定位算法的无框线表格精准识别方法是由顾希明;任磊;孙琦;高炳像;邢晓燕设计研发完成,并于2023-01-17向国家知识产权局提交的专利申请。

一种基于定位算法的无框线表格精准识别方法在说明书摘要公布了:本发明公开了一种基于定位算法的无框线表格精准识别方法,通过本发明公开的方法可以将PDF格式文件中的任意格式表格有框线表格、无框线表格、部分框线表格转换为统一的结构化数据格式,方便进一步应用与处理。与现有技术方案相比,本发明具有如下特点:1提升无框线复杂表格的识别准确率;2无需复杂配置与标注与训练,对使用人员要求低;3处理时间短,计算资源消耗低;4可适应各种业务场景。

本发明授权一种基于定位算法的无框线表格精准识别方法在权利要求书中公布了:1.一种基于定位算法的无框线表格精准识别方法,其特征在于,包括以下步骤: 步骤1、获得待处理的PDF源文件; 步骤2、获取PDF源文件的页面对象及其结构化信息,并根据配置生成PDF文件中需要解析的一个或多个表格任务,具体包括以下步骤: 步骤201、从PDF文件中读取字典信息,创建页面对象,其中,页面对象包括页标识以及页面区域,页面区域除本页面矩形区域坐标信息外,同时包括本页面相对于整个PDF文件的纵坐标上下边界信息; 步骤202、根据页面对象,逐页当前页的PDF构成对象的全部信息,创建元素对象,元素对象包括通用属性以及不同类型对象的特有属性; 步骤203、将元素对象集合中的字符对象集合根据段落标识进行初步合并,创建文本对象集合,将相同段落的字符对象合并为文本对象集合中的一个文本对象; 步骤204、根据文本对象的纵坐标位置获得对应的文本行信息,并将当前页面划分为多个标准行区域,每个标准行区域仅记录了行的纵坐标起始与截止位置,且标准行区域之间无重叠,每个标准行区域为一个标准行对象,所有文本对象均能够与标准行对象进行关联; 步骤205、将标准行对象与文本对象进行关联,同一标准行内能够关联多个文本对象,同一文本对象也能够关联多个标准行对象; 步骤206、重新对当前页面所属的应用对象进行排序与更新,应用对象包括页面对象、标准行对象与文本对象; 步骤207、遍历PDF文件的全部页面,逐页保存应用对象; 步骤208、识别页面有效区域,包括以下步骤: 步骤2081、识别页眉区域行数,具体包括以下步骤: 步骤20811、遍历全部页面,读取每页的第一行全部文本对象,将文本对象对应的文字内容合并后获得第一行文字内容,识别第一行文字中存在的整数对象; 步骤20812、统计全部页面第一行相似的页面数,如其占全部页面比率大于阈值,则可确认第一行为页眉区域; 步骤20813、处理第一行文字的下一行文字,判断其是否属于页眉区域,直至达到页面最后一行或者判断属于页眉区域的行数大于阈值,则处理结束,获得每个页面的页眉区域的行数,若页眉区域行数大于0,则获得页眉全部行文本内容合并的后的典型页眉标识,若页眉区域行数为0,则无页眉区域; 步骤2082、识别页脚区域行数,具体包括以下步骤: 步骤20821、遍历全部页面,读取每页的最后一行全部文本对象,将文本对象对应的文字内容合并后获得最后一行文字内容,识别最后一行文字中存在的整数对象; 步骤20822、统计页面最后一行相似的页面数,如其占全部页面比率大于阈值,则可确认最后一行为页脚区域; 步骤20824、处理最后一行文字的上一行文字,判断其是否属于页脚区域,直至达到页面第一行或者判断属于页脚区域的行数大于阈值,则处理结束,获得每个页面的页脚区域的行数,如页脚区域行数大于0,获得页脚全部行文本内容合并的后的典型页脚标识,如页脚区域行数为0,则无页脚区域; 步骤2083、对当前页标识每行属性,包括页眉页脚正文; 步骤209、生成PDF所属表格处理任务; 步骤3、从步骤2生成的待处理表格任务列表中,获得待处理表格配置,并根据配置定位表格所在区域,具体包括以下步骤: 步骤301、从待处理表格任务列表获得待处理任务; 步骤302、配置表格区域特征信息,配置表格开始位置特征,定位所需处理表格的开始页面与开始行; 步骤303、定位表格区域初始位置,具体包括以下步骤: 步骤3031、定位表格区域起始位置的行对象,进一步包括以下步骤: 步骤30311、从首页开始逐行遍历行对象对应的文本内容,获得当前标准行文本内容,在读取时,仅处理正文区所有行; 步骤30312、从配置读取需转换的标签类型,在标准行文本内容中根据标签类型的特征,确认是否存在标签实体及其具体位置,如存在标签实体,则将标签标识替换对应实体; 步骤30313:判断当前行是否为表格起始区域首行: 如当前行处理后文本内容满足配置的起始位置规则,则当前行为表格起始区域首行,处理结束; 如当前行处理后文本内容不满足配置的起始位置规则,则将当前页面下一行作为当前行,继续执行判断,如达到当前页的正文区最后一行,则将下一页正文区第一行作为当前行,跳转到步骤30312继续处理; 如当前页为末页最后正文行,且仍无法满足配置的起始位置规则,则无法定位表格区域,进入步骤3032,否则进入步骤3034; 步骤3032、定位表格区域起始位置的文本对象,并确认当前起始行,具体包括以下步骤: 步骤30321、从首页开始遍历文本对象内容,仅处理处于正文区域的文本对象; 步骤30322、从配置读取需转换的标签类型,在标准行文本内容中根据标签类型的特征,确认是否存在标签实体及其具体位置,如存在标签实体,则将标签标识替换对应实体; 步骤30323、文本内容满足配置的起始位置规则时,确认起始行: 如当前文本对象处理后文本内容满足配置的起始位置规则,则可确认表格开始位置包括在本文本对象所在行中;之后根据文本对象文本内容符合配置规则的具体字符位置,获得其对应的标准行对象,确认为起始行; 如当前文本对象未匹配配置的起始位置规则,则继续处理下一文本对象,直至正文区最后一个文本对象; 步骤30324、在当前页未找到表格区域起始位置,则从下一页正文区首个文本对象开始,重复执行步骤30321; 如遍历全部页,均无法定位,跳转至步骤3033,处理无法定位情况,否则进入步骤3034; 步骤3033、返回无法找到表格区域; 步骤304、确认表格区域坐标,具体包括以下步骤: 步骤3041、定位表格起始页与起始行; 步骤3042、判断表格起始页定位是否包括截止行,包括以下步骤: 步骤30421、从表格起始行逐行读取,直到页正文区域末行; 步骤30422、判断当前行是否仍属于表格区域: 1在当前行关联文本对象数大于等于表格首行关联文本对象数,或大于等于本行上一行关联文本对象数时,确认本行为表格区域,且当前行关联文本对象数大于1; 2在当前行关联文本对象数大于最小列数阈值时,确认本行为表格区域; 3当前行首列属于表格首行首列区域时: 判断当前行首个文本对象的左边界坐标与首行首个文本对象左边界坐标绝对值差小于阈值,同时首个文本对象的右边界坐标小于首行第二个文本对象的左边界坐标,能够确认本行为表格区域; 4当前行首列区域在表格首行首列左部时: 判断当前行首个文本对象的右边界坐标小于表格首行首个文本对象的左边界坐标,说明表格首行首列单元为空,确认本行为表格区域; 5当前行首列位于表格首行任意连续两列区域内时: 将当前行首个文本对象作为第一文本对象,与表格首行关联文本对象逐个对比:如其左边界坐标大等于首行文本对象左边界坐标时,将首行文本对象作为第二文本对象;如第一文本对象右边界坐标大等于第二文本对象同行右部任意一个文本对象,第一文本对象跨表格多列,如符合条件则确认本行为表格区域; 步骤30423、如当前行确认为表格区域,将标准行对象相关信息加入表格对象行集合中,并将行属性设置为表格-默认行; 如执行步骤30422后,未满足其列出的各条件,则认为当前行为表格截止行,跳过后续步骤3043,不处理跨页表格流程; 步骤3043、获得表格跨页时的终止页与截止行,包括以下步骤: 步骤30431、判断是否存在跨表标识: 读取当前页正文区首行,并获得其对应的文本对象文字内容,根据规则集合判断其是否存在跨表标识,如首行包含跨表标识,将包含跨表标识的标准行属性设置为其他,并确认当前表格存在跨页情况; 步骤30432、判断跨页时是否存在重复表头信息,如存在,则认为当前存在跨页表格: 将表格区域首页首行作为第一表格第一行,若判断存在跨表标识,则将当前页正文区域第二行设置为第二表格第一行;否则,将当前页正文区域第一行设置为第二表格第一行;分别读取第一表格第一行与第二表格第一行的文本内容,判断其相似度:如判断其相似,将第一表格第一行属性标识为表头行,并将第二表格第一行标识为重复表头行;如判断两者不相似,认为不存在重复表头,处理结束; 若当前表格重复表头行数大于0,执行步骤30434,否则,进入步骤30433; 步骤30433、判断跨页是否相同表格: 读取当前页正文区域第一行,作为第二表格第一行;读取上一页表格区域的最后一行,作为第一表格末行;分别获取第二表格第一行及第一表格末行对应的文本对象数:如两者文本对象数相同,则确认当前表格存在跨页表格;如文本对象数不同,则遍历第一表格所属各行,获得表格对应的最小与最大文本对象数;如第二表格第一行文本对象数在第一表格文本对象书范围内时,则确认当前表格存在跨页表格;如以上均非,则认为不存在跨页表格,将表格截止页设置为当前页上一页,截止行设置为第一表格的末行,处理结束; 步骤30434、在判断当前存在跨页表格后,确认截止页与截止行: 从当前页面中非重复表头行开始,重复步骤30422判断当前行是否为表格截止行;如仍未能定位表格截止行,则将当前页设置为下一页,重复步骤3043,直至确认截止行;如到达最末页或当前页与表格起始页差等于最大表格页数阈值时,则将当前页设置为表格截止页,当前页正文的末行设置为表格的截止行; 步骤4、根据步骤3确认的表格所在区域,确认与表格相关文本对象,获得表格的行、列的区域位置坐标信息,从而将整个表格划分为N行*M列的标准区块;随后新建单元对象,每个单元对象覆盖一个或多个区块,通过单元对象与行对象及文本对象的关联,无损地将PDF相关元素对象转换为表格结构化信息; 步骤5、根据步骤4确认的表格的行、列区域信息,确认表格中有效单元对象的行、列信息,并获得与单元对象相关的一个或多个文本对象。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东方财富信息股份有限公司,其通讯地址为:200030 上海市徐汇区宛平南路88号金座28F;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。