Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 灵犀量子(北京)医疗科技有限公司王则远获国家专利权

灵犀量子(北京)医疗科技有限公司王则远获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉灵犀量子(北京)医疗科技有限公司申请的专利一种PDF中表格信息的抽取方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114821613B

龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210342716.4,技术领域涉及:G06V30/413;该发明授权一种PDF中表格信息的抽取方法和系统是由王则远;刘鹏设计研发完成,并于2022-03-31向国家知识产权局提交的专利申请。

一种PDF中表格信息的抽取方法和系统在说明书摘要公布了:本发明涉及深度学习技术领域,提供一种PDF中表格信息的抽取方法和系统。方法包括:获取PDF文件,并识别文件中包括表格的图像页;分割图像页得到多个表格单元,输入运行表格结构识别模型,得到目标序列;将表格单元的文本识别结果整合至根据目标序列中,得到html代码形式的表格抽取结果。本发明通过基于图像分割得到的表格单元进行表格结构框架识别,即采用多示例学习训练得到的模型进行表格结构框架识别,能够更为有效、精准地识别抽取PDF中的表格信息;同时,基于html序列的表格结构框架输出格式更为契合多示例学习训练得到的模型,针对表格信息抽取任务、尤其是复杂场景下的表格信息抽取任务具有更好的效率和准确性。

本发明授权一种PDF中表格信息的抽取方法和系统在权利要求书中公布了:1.一种PDF中表格信息的抽取方法,其特征在于,包括: 获取PDF文件,并识别所述PDF文件中包括表格的图像页; 分割所述图像页得到多个表格单元,并以所述表格单元为输入运行表格结构识别模型,得到目标序列;所述目标序列为基于表格结构框架的html序列; 将所述表格单元的文本识别结果整合至根据所述目标序列中,得到html代码形式的表格抽取结果; 所述表格结构识别模型是通过样本训练得到的模型; 其中,所述表格单元是基于表格结构分割的;表格单元的分割方式包括:基于横框线和纵框线分割得到所述表格单元;或者基于字符聚类分割得到所述表格单元; 其中,所述表格结构识别模型的输入为图片格式的表格单元,输出的html序列是html文件代码;其中,所述表格结构识别模型是编码器-解码器结构的模型; 所述编码器能够提取所述表格单元的局域特征、全局特征以及关联特征,并进行编码得到特征提取结果; 所述解码器能够根据所述特征提取结果得到表格结构框架; 其中,所述编码器-解码器结构的表格结构识别模型的训练过程,包括: 结合多示例学习原理将每张图像页拆分成多个图像块,并组合成一组多示例包; 将多示例包中的每个示例进一步拆分并形成embedding序列,得到自然语言理解中的tokens; 利用Transformer对embedding序列进行编码,得到局部组合映射,利用外层Transformer在各个示例之间进行编码,得到全局组合映射;对局部组合映射和全局组合映射进行空间求和;并对每个示例的外层序列添加蒸馏token; 通过自注意力机制对蒸馏token与自然语言理解中的tokens在自注意力层交互作用;通过反向传播学习对模型进行训练。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人灵犀量子(北京)医疗科技有限公司,其通讯地址为:100161 北京市丰台区南四环西路186号四区5号楼5层09室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。