恭喜浙江孚临科技有限公司唐科伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浙江孚临科技有限公司申请的专利一种文档中表格的识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120014662B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510498402.7,技术领域涉及:G06V30/413;该发明授权一种文档中表格的识别方法是由唐科伟;陈声鸿;邱鹏飞设计研发完成,并于2025-04-21向国家知识产权局提交的专利申请。
本一种文档中表格的识别方法在说明书摘要公布了:本发明公开了一种文档中表格的识别方法,涉及表格识别技术领域,通过利用相似性传递性假设,该方法通过计算相邻表格之间的相似度,能够高效地判断不同表格区域是否存在跨页行为。通过设定相似度阈值,该方法能够自动识别相邻表格是否属于同一组表格,从而判断是否存在跨页表格,通过遍历完整表格内的所有单元格,并判断每个单元格是否属于合并单元格的一部分,本发明能够准确区分出空白合并单元格和真正的空白单元格,这一过程使得合并单元格的判定更加细致和准确,避免了传统方法中由于误判合并单元格而导致的数据解析错误。
本发明授权一种文档中表格的识别方法在权利要求书中公布了:1.一种文档中表格的识别方法,其特征在于:包括以下步骤:S1、基于PDF财报,获取多组图像文件,并识别各组图像文件中的表格区域,获取表格数据;S2、基于表格数据,分析各表格区域间的相似性,结合相似性传递性假设,执行跨页识别,以完成完整表格识别作业,其中,相似性传递性假设具体包括:若表格A与表格B属于同一组表格,表格B与表格C属于同一组表格,则表格A与表格C也属于同一组表格,通过汇总,以在多组图像文件中识别出多组完整表格,所述完整表格至少包括一组子表格;S3、在S2基础上,初步确定完整表格相关数据,并根据对完整表格内的空白单元格的类型确定,逐步确定所述完整表格中合并单元格的形式类型为类型二的范围,并依据类型一的合并单元格范围及类型二的合并单元格范围,重新完善完整表格相关数据,所述完整表格相关数据包括完整表格内各横线位置、竖线位置及、点位置、列数、行数、列宽、行宽、文本层信息以及合并单元格范围;基于所述完整表格相关数据,将PDF财报中所涉及到的完整表格转换为结构化表格数据,以实现表格的还原任务,其中,形式类型包括类型一和类型二,形式类型为类型一的合并单元格指的是不存在空白单元格的合并单元,形式类型为类型二的合并单元格指的是存在空白单元格的合并单元,空白单元格的类型指是否存在于合并单元格内。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江孚临科技有限公司,其通讯地址为:310000 浙江省杭州市滨江区长河街道建业路511号华业大厦1808室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。