中绍宣科技集团有限公司崔从俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中绍宣科技集团有限公司申请的专利一种基于深度学习的PDF文档智能识别与内容抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120808373B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511309941.8,技术领域涉及:G06V30/412;该发明授权一种基于深度学习的PDF文档智能识别与内容抽取方法是由崔从俊;陈志;朱冠臣设计研发完成,并于2025-09-15向国家知识产权局提交的专利申请。
本一种基于深度学习的PDF文档智能识别与内容抽取方法在说明书摘要公布了:本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法,涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域,包括:得到每个表格在PDF整页图像中的定位表格区域;得到基础网格结构;得到具有跨行或跨列结构的单元格;利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复,得到修复后的表格结构;对修复后的表格结构中每个逻辑单元格进行文本识别,并绑定每个逻辑单元格对应的行列位置信息,得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格,适应不同的表格样式、字体及背景,降低了对输入图像质量的要求,确保了高精度的表格识别与内容提取。
本发明授权一种基于深度学习的PDF文档智能识别与内容抽取方法在权利要求书中公布了:1.一种基于深度学习的PDF文档智能识别与内容抽取方法,其特征在于,包括: 利用表格检测网络对输入的PDF整页图像进行表格区域识别,得到每个表格在PDF整页图像中的定位表格区域; 对定位表格区域内部进行行列结构分析,并利用单元格合并网络预测行列结构的分割线,得到基础网格结构; 基于基础网格结构,利用单元格合并网络对相邻单元格进行合并预测,得到具有跨行或跨列结构的单元格; 利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复,得到修复后的表格结构; 对修复后的表格结构中每个逻辑单元格进行文本识别,并绑定每个逻辑单元格对应的行列位置信息,得到可输出为预设结构化格式的表格内容; 其中,所述对定位表格区域内部进行行列结构分析,并利用单元格合并网络预测行列结构的分割线,得到基础网格结构包括: 利用卷积神经网络对表格区域图像进行视觉特征提取,得到包含表格行列布局信息的二维特征图; 对二维特征图进行水平方向与垂直方向的池化操作,得到代表行列信息的一维特征序列; 利用若干预设结构编码器对行列一维特征序列进行全局上下文分析,得到包含全局信息的结构表示序列; 基于结构表示序列,对每个位置进行二分类预测,得到逻辑行列分割线位置,实现初步的基础网格结构的构建,包括: 基于得到的结构表示序列,对每个位置进行二分类预测,得到代表分割线置信度的概率序列; 利用分割线置信度的概率序列构建以分割点为节点、概率为依据的代价图,得到全局代价结构; 利用预设的结构先验知识,定义路径转移代价函数,得到完整的路径评分机制; 基于构建的代价图与路径评分机制,利用动态规划算法对所有候选路径进行求解,得到总代价最小路径; 利用总代价最小路径对初步分割线进行全局优化,得到结构连续、分布合理的逻辑行列分割线位置,实现初步的基础网格结构的构建。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中绍宣科技集团有限公司,其通讯地址为:230000 安徽省合肥市高新区合肥软件园二期F3栋15层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励