当前位置 : 首页 > 专利喜报 > 灵犀量子(北京)医疗科技有限公司王则远获国家专利权

灵犀量子(北京)医疗科技有限公司王则远获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉灵犀量子(北京)医疗科技有限公司申请的专利一种PDF中表格信息的抽取方法和系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN114821613B 。

龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202210342716.4，技术领域涉及：G06V30/413；该发明授权一种PDF中表格信息的抽取方法和系统是由王则远;刘鹏设计研发完成，并于2022-03-31向国家知识产权局提交的专利申请。

本一种PDF中表格信息的抽取方法和系统在说明书摘要公布了：本发明涉及深度学习技术领域，提供一种PDF中表格信息的抽取方法和系统。方法包括：获取PDF文件，并识别文件中包括表格的图像页；分割图像页得到多个表格单元，输入运行表格结构识别模型，得到目标序列；将表格单元的文本识别结果整合至根据目标序列中，得到html代码形式的表格抽取结果。本发明通过基于图像分割得到的表格单元进行表格结构框架识别，即采用多示例学习训练得到的模型进行表格结构框架识别，能够更为有效、精准地识别抽取PDF中的表格信息；同时，基于html序列的表格结构框架输出格式更为契合多示例学习训练得到的模型，针对表格信息抽取任务、尤其是复杂场景下的表格信息抽取任务具有更好的效率和准确性。

本发明授权一种PDF中表格信息的抽取方法和系统在权利要求书中公布了：1.一种PDF中表格信息的抽取方法，其特征在于，包括：获取PDF文件，并识别所述PDF文件中包括表格的图像页；分割所述图像页得到多个表格单元，并以所述表格单元为输入运行表格结构识别模型，得到目标序列；所述目标序列为基于表格结构框架的html序列；将所述表格单元的文本识别结果整合至根据所述目标序列中，得到html代码形式的表格抽取结果；所述表格结构识别模型是通过样本训练得到的模型；其中，所述表格单元是基于表格结构分割的；表格单元的分割方式包括：基于横框线和纵框线分割得到所述表格单元；或者基于字符聚类分割得到所述表格单元；其中，所述表格结构识别模型的输入为图片格式的表格单元，输出的html序列是html文件代码；其中，所述表格结构识别模型是编码器-解码器结构的模型；所述编码器能够提取所述表格单元的局域特征、全局特征以及关联特征，并进行编码得到特征提取结果；所述解码器能够根据所述特征提取结果得到表格结构框架；其中，所述编码器-解码器结构的表格结构识别模型的训练过程，包括：结合多示例学习原理将每张图像页拆分成多个图像块，并组合成一组多示例包；将多示例包中的每个示例进一步拆分并形成embedding序列，得到自然语言理解中的tokens；利用Transformer对embedding序列进行编码，得到局部组合映射，利用外层Transformer在各个示例之间进行编码，得到全局组合映射；对局部组合映射和全局组合映射进行空间求和；并对每个示例的外层序列添加蒸馏token；通过自注意力机制对蒸馏token与自然语言理解中的tokens在自注意力层交互作用；通过反向传播学习对模型进行训练。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人灵犀量子(北京)医疗科技有限公司，其通讯地址为：100161 北京市丰台区南四环西路186号四区5号楼5层09室；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

灵犀量子(北京)医疗科技有限公司王则远获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务