北京百分点科技集团股份有限公司苏海波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京百分点科技集团股份有限公司申请的专利一种支持跨模态的文档预训练模型实现方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115953800B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310044744.2,技术领域涉及:G06V30/42;该发明授权一种支持跨模态的文档预训练模型实现方法及装置是由苏海波;苏萌;刘译璟;赵群;杜晓梦设计研发完成,并于2023-01-30向国家知识产权局提交的专利申请。
本一种支持跨模态的文档预训练模型实现方法及装置在说明书摘要公布了:本发明涉及信息技术领域,提供了一种支持跨模态的文档预训练模型实现方法及装置。目的在于解决LayoutLMv3无法对任务侧重,导致任务之间互相受到影响,导致正在进行的任务表现不理想。主要方案包括获得预训练文档图像数据;将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量;将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量;待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量用于预训练模型训练,通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的模型。
本发明授权一种支持跨模态的文档预训练模型实现方法及装置在权利要求书中公布了:1.一种支持跨模态的文档预训练模型实现方法,其特征在于,包括以下步骤: 步骤1、获得预训练文档图像数据; 步骤2、文档图像通过字符识别方法识别为文档文本信息,得到文档文本内容和相应的2D文本位置信息,以及1D文本位置信息信息,同时获取2D图像位置信息以及1D图像位置信息; 步骤3、将文档图像调整为H×W,并以C×H×W的维度表示图像,其中C、H和W分别是图像的通道大小、宽度和高度,然后将图像拆分为一系列均匀的P×P大小的块,将图像块线性投影到维并将其展平为向量,即得到图像信息的嵌入表示; 步骤4、首先,在进行文本信息嵌入和图像信息嵌入时,需要对这两种嵌入向量进行随机掩码处理,得到掩码后的文本信息嵌入和掩码后的图像信息嵌入; 步骤4.1、将2D文本位置嵌入、1D文本位置嵌入和掩码后的文本信息嵌入相加,相加的结果作为待融合文本嵌入向量; 步骤4.2、将2D图像位置嵌入、1D图像位置嵌入和掩码后的图像信息嵌入相加,相加的结果作为待融合图像嵌入向量; 步骤4.3、待融合图像嵌入向量和待融合文本嵌入向量连接得到多模态融合嵌入向量; 步骤5、预训练模型训练,步骤4.3得到的多模态融合嵌入向量作为初始网络的输入,针对不同侧重的多模态文档任务进行不同的训练目标权重,使用字补丁对齐目标来学习文本字和图像块之间的细粒度对齐,字补丁对齐目标是预测文本字的相应图像块是否被掩码,得到字补丁对齐损失,将分别和文本损失,图像损失相加处理,得到模型总损失; 步骤6、通过预训练模型,根据不同的任务类别选择不同的预训练模型在不同的数据集上进行微调训练,得到符合对应任务的微调模型; 步骤7、使用微调模型进行对应的文档任务; 进行不同的训练目标权重,为分别对以文本为中心的文档智能任务和以图像为中心的文档智能任务进行不同的预训练,其中: 以文本为中心的文档智能任务训练目标是基于图像嵌入和文本嵌入的掩码后的序列上下文表示,模型最大限度地提高正确预测文本标记的概率,最后得到以文本为中心的预训练模型的损失; 以图像为中心的文档智能任务由交叉熵损失驱动,以在其周围文本和图像令牌的上下文下重建被掩蔽的图像令牌x,图像令牌x的标签来自图像令牌器,该令牌器可以根据视觉词汇将密集的图像像素转换为离散的令牌,最后得到以图像为中心的预训练模型的损失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京百分点科技集团股份有限公司,其通讯地址为:100089 北京市海淀区建材城中路27号14幢一层101号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励