山东浪潮科学研究院有限公司陈其宾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东浪潮科学研究院有限公司申请的专利基于多模态模型的证照识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117275020B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311147776.1,技术领域涉及:G06V30/413;该发明授权基于多模态模型的证照识别方法及系统是由陈其宾;魏子重;姜凯;李锐;宁方刚设计研发完成,并于2023-09-07向国家知识产权局提交的专利申请。
本基于多模态模型的证照识别方法及系统在说明书摘要公布了:本发明公开了一种基于多模态模型的证照识别方法及系统,属于多模态模型及图像识别技术领域,本发明要解决的技术问题为如何直接将输入的文本图像映射到期望的结构化输出,提高证照识别的准确率,采用的技术方案为:构建基于图像和文本的多模态模型;蒸馏OCR模型;预训练文档阅读任务;收集证照识别数据集;微调多模态模型;数据后处理。该系统包括构建模块、蒸馏模块、预训练模块、收集模块、微调模块及数据处理模块。
本发明授权基于多模态模型的证照识别方法及系统在权利要求书中公布了:1.一种基于多模态模型的证照识别方法,其特征在于,该方法具体如下: 构建基于图像和文本的多模态模型; 蒸馏OCR模型; 预训练文档阅读任务; 收集证照识别数据集; 微调多模态模型; 数据后处理; 其中,构建基于图像和文本的多模态模型具体如下: 多模态模型由基于Transformer的视觉编码器和文本解码器模块组成;其中,视觉编码器由旨在提取字符内部的局部模式的卷积神经网络ConvNet和旨在捕获长期依赖关系的SwinTransformer模型构成;具体如下: 将输入的图像通过视觉编码器进行编码,生成包含相关视觉信息的特征数据; 将图像特征数据与任务令牌一起馈送到文本解码器,自动回归地生成目标令牌;其中,文本解码器由n个Transformer层组成,每一层由多头自注意子层、多头交叉注意子层和前馈子层组成; 蒸馏OCR模型具体如下: 使用PP-OCR-V3的识别网络将pointwise卷积应用于基于ConvNet块的输出,获得与PP-OCR-V3识别骨干相同的输出通道数,并使用L2损失计算两个网络输出的损失,通过模型训练优化使得ConvNet学习字符识别能力;其中,训练数据使用开源的OCR相关数据集; 预训练文档阅读任务具体如下: 多模态模型以先前的文本标记和输入图像为条件,学习预测下一个字符;将输入图像分成32×32的块,并掩蔽15%的块,让多模态模型预测被掩盖的块的文字; 微调多模态模型具体如下: 在预训练阶段后,多模态模型将对信息提取任务进行微调; 在证照识别数据集上对多模态模型进行微调; 文本解码器最后一层transformerblock输出的所有输出序列的隐藏层状态的特征表示向量,再将其输入进额外的线性多分类器中进行分类,即可完成块序列分类; 数据后处理具体如下: 将输出令牌序列转换为JSON格式,添加两个特殊标记[Start∗]和[End∗];其中,∗表示要提取的每个字段; 若输出令牌序列的结构错误,将该字段视为丢失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东浪潮科学研究院有限公司,其通讯地址为:250100 山东省济南市高新浪潮路1036号S02号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励