北京信工博特智能科技有限公司戴亦斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京信工博特智能科技有限公司申请的专利基于多模态模型的PDF内容解析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121118881B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511264848.X,技术领域涉及:G06F40/205;该发明授权基于多模态模型的PDF内容解析方法是由戴亦斌;周斌设计研发完成,并于2025-09-05向国家知识产权局提交的专利申请。
本基于多模态模型的PDF内容解析方法在说明书摘要公布了:本发明公开了基于多模态模型的PDF内容解析方法,本发明涉及文档处理技术领域,包含预处理、特征提取等八步,模型训练验证后部署,支持多场景适配,本发明的优点在于:通过构建跨页语义锚点追踪机制,提取每页首末有效文本块并生成语义向量,结合语义衰减系数与文本长度匹配权重计算跨页语义相似度以实现片段自动拼接,同时对首末文本块为公式或空白的情况顺延提取相邻有效文本块,解决现有技术中跨页内容断裂、依赖几何位置关联易导致拼接误差的缺陷,最终避免跨页片段割裂,实现语义驱动的跨页内容连贯整合,提升PDF解析中跨页段落的完整性与准确性,适配学术、商业等多领域PDF文档对跨页内容解析的需求。
本发明授权基于多模态模型的PDF内容解析方法在权利要求书中公布了:1.基于多模态模型的PDF内容解析方法,包括解析方法,其特征在于,所述解析方法包括以下步骤: 步骤一、对获取的待解析PDF文档进行预处理,消除干扰信息并统一数据格式; 步骤二、基于预处理后的PDF页面数据,分别提取文本特征、视觉特征与位置特征,构建多模态特征集合; 步骤三、基于步骤二提取的文本语义向量,通过语义相似度计算实现跨页片段的语义关联与自动拼接; 所述步骤三中,具体流程包括:提取每页首文本块与末文本块的完整文本内容,分别输入BERT模型生成对应的256维页面首句语义向量与页面末句语义向量,构建跨页语义相似度计算模型,引入语义衰减系数与文本长度匹配权重,通过以下公式计算跨页语义相似度: ; 其中,为与的余弦相似度,为首句文本长度,为末句文本长度,设定相似度阈值为0.85,当上一页末句与当前页首句的值>0.85,则判定两文本块语义连贯,自动拼接为完整段落,当值≤0.85,则标记为“跨页语义待审核”,并记录两文本块的语义向量与位置信息; 步骤四、构建动态权重融合机制,计算文本块与视觉区域的关联权重,实现图文语义匹配; 所述步骤四中,具体流程包括: 构建动态权重融合机制,通过以下公式计算文本块与视觉区域的最终关联权重: 其中,为最终关联权重,为权重系数且满足++=1; 公式中各参数的计算方式为: 语义相似度:,其中,为步骤二提取的文本块语义向量,为步骤二提取的视觉区域描述向量,为相似度调节参数; 位置邻近度:,其中,为文本块中心与视觉区域中心的欧式距离,为页面对角线长度的12; 内容类型参数:预设固定值,正文标题0.9、表格标题0.8、图片描述文本0.7、正文段落0.6、参考文献0.3及脚注0.2; 对每个视觉区域,计算其与页面内所有文本块的值,筛选值降序排列中的前3个文本块作为关联候选对象,设定关联阈值为0.6,>0.6为“强关联”并标注对应关系,0.4≤≤0.6为“弱关联”并标记待确认,<0.4为“无关联”并排除对应文本块; 步骤五、采用三层递进式分层排序策略,对文本块进行逻辑排序以重组碎片化段落; 步骤六、对跨页拼接、图文关联及分层排序后的解析结果进行标准化处理与错误修正; 步骤七、构建训练数据集对多模态模型进行端到端训练,并通过预设指标验证模型精度; 步骤八、将训练验证后的模型与工艺流程部署至应用环境,支持多场景适配调整。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京信工博特智能科技有限公司,其通讯地址为:100102 北京市朝阳区广顺北大街17号4层04层B03内01室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励