北京中科闻歌科技股份有限公司李彤获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科闻歌科技股份有限公司申请的专利基于多模型的PDF解析方法、电子设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119692335B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411760336.8,技术领域涉及:G06F40/205;该发明授权基于多模型的PDF解析方法、电子设备和存储介质是由李彤;郝艳妮;徐楠;王婧宜;李军锋;罗引;王磊设计研发完成,并于2024-12-03向国家知识产权局提交的专利申请。
本基于多模型的PDF解析方法、电子设备和存储介质在说明书摘要公布了:本发明提供了一种基于多模型的PDF解析方法、电子设备和存储介质,方法包括利用规则提取、版面分析、表格识别、公式检测、公式识别、多模态大模型chart2text、多模态大模型段落排序等方法获取复杂PDF中可能出现的所有元素类型。本发明能够实现复杂PDF的完整结构化解析以及支持扫描件和非扫描件。
本发明授权基于多模型的PDF解析方法、电子设备和存储介质在权利要求书中公布了:1.一种基于多模型的PDF解析方法,其特征在于,所述方法包括如下步骤: S100,将获取到的预设PDF文件按页进行拆分,得到对应的m个单页面,并将每个单页面转换成图像,得到m个页面图像;设置单页面计数器i=1; S200,如果i≤m,根据PDF文件解析工具判断第i个单页面是否属于扫描页,如果是,基于OCR模型获取第i个单页面中的文本和对应的文本包围盒,执行S700;如果不是,利用PDF文件解析工具对第i个单页面中的文本和对应的文本包围盒以及图像和对应的图像包围盒进行提取,如果提取到图像,执行S300,否则,执行S700;如果i>m,执行S1000;i的取值为1到m,且初始值为1; S300,基于图表鉴别模型判断提取到的第i个单页面的图像属于图表图像还是非图表图像,如果是非图表图像,基于OCR模型获取第i个单页面的图像中的文本和对应的文本包围盒,执行S700;如果是图表图像,基于多模态大模型获取第i个单页面的图像中的自然语言描述,得到第i个单页面的图像的文本和文本包围盒;执行S700; S400,将第i个页面图像输入版面分析模型中,以提取第i个页面图像所包含的全部元素类别和对应的元素类别包围盒;执行S500; S500,如果第i个页面图像所包含的全部元素类别中的包含表格类别,利用改进的表格识别模型识别第i个页面图像所包含的表格图像,得到对应的表格结构和对应的表格结构包围盒;执行S700; S600,将第i个页面图像输入公式检测模型中,如果检测到公式,根据检测到的公式包围盒截取公式图像,并通过公式识别模型对检测到的公式的图像进行识别,获取对应的公式文本,得到检测到的公式文本和公式包围盒;执行S700; S700,基于S100至S600得到的第i个单页面包含的所有文本描述对应的包围盒以及全部元素类别对应的元素类别包围盒,对第i个单页面中的所有文本描述进行分类,得到每个文本描述对应的类别;执行S800; S800,对第i个单页面的分类后的文本描述进行后处理,得到后处理后的第i个单页面的文本描述;其中,所述后处理包括对分类后的文本描述进行文本去重处理、段落合并处理,以及表格文本和表格结构合并处理;执行S900; S900,通过多模态大模型对后处理后的第i个单页面的文本描述中的段落进行排序,最后第i个单页面的解析结果;设置i=i+1,执行S200; S1000,将m个单页面的解析结果按照页面先后顺序进行合并,得到所述预设PDF文件的解析结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科闻歌科技股份有限公司,其通讯地址为:100190 北京市海淀区北四环西路9号楼7层717室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励