中电数据产业集团有限公司;中电数创(北京)科技有限公司陆志鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中电数据产业集团有限公司;中电数创(北京)科技有限公司申请的专利文档快照信息抽取方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119358678B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411512999.8,技术领域涉及:G06N5/04;该发明授权文档快照信息抽取方法、装置、设备及存储介质是由陆志鹏;韩光;符兴斌;郑曦;国丽;周崇毅;杨伟伟;郭红刚;唐超;王欢;李一凡设计研发完成,并于2024-10-28向国家知识产权局提交的专利申请。
本文档快照信息抽取方法、装置、设备及存储介质在说明书摘要公布了:本申请公开了一种文档快照信息抽取方法、装置、设备及存储介质,涉及多模态学习技术领域,包括:获取预设图文对数据集,对预训练模型进行自回归训练,得到训练成功的预训练模型;提取训练成功的预训练模型的网络结构作为新词表网络结构,对预设多模态大模型的原始词表网络结构进行更新,确定更新后的预设多模态大模型;获取预设视觉问答数据集以及用户输入的第一信息抽取指令,对更新后的预设多模态大模型进行微调,得到微调结束的预设多模态大模型;接收用户输入的目标文档快照以及第二信息抽取指令,得到微调后的预设多模态大模型输出的信息抽取结果。本申请能够提高复杂文档快照中信息抽取的准确性。
本发明授权文档快照信息抽取方法、装置、设备及存储介质在权利要求书中公布了:1.一种文档快照信息抽取方法,其特征在于,所述文档快照信息抽取方法包括: 获取预设图文对数据集,将所述预设图文对数据集作为预训练模型的训练数据,对所述预训练模型进行自回归训练,得到训练成功的所述预训练模型,其中,所述预设图文对数据集包括文档图像文本对数据集、图表图像文本对数据集以及负自然图像文本对数据集,所述预训练模型用于根据所述预设图文对数据集生成新词表; 提取所述训练成功的预训练模型的网络结构作为新词表网络结构,利用所述新词表网络结构对预设多模态大模型的原始词表网络结构进行更新,确定更新后的所述预设多模态大模型; 获取预设视觉问答数据集以及用户输入的第一信息抽取指令,将所述预设视觉问答数据集作为更新后的所述预设多模态大模型的训练数据集,将所述第一信息抽取指令作为更新后的所述预设多模态大模型的大模型指令,对更新后的所述预设多模态大模型进行微调,得到微调结束的所述预设多模态大模型; 接收用户输入的目标文档快照以及第二信息抽取指令,将所述目标文档快照以及所述第二信息抽取指令输入所述微调后的预设多模态大模型,得到微调后的所述预设多模态大模型输出的信息抽取结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电数据产业集团有限公司;中电数创(北京)科技有限公司,其通讯地址为:518000 广东省深圳市南山区粤海街道科技园社区科发路3号中电长城大厦A-1908;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励