中国科学技术大学曹浩宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利可信文档信息提取方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121117679B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511670263.8,技术领域涉及:G06F18/24;该发明授权可信文档信息提取方法、系统、设备及存储介质是由曹浩宇;徐林莉;勾安琪设计研发完成,并于2025-11-14向国家知识产权局提交的专利申请。
本可信文档信息提取方法、系统、设备及存储介质在说明书摘要公布了:本发明公开了一种可信文档信息提取方法、系统、设备及存储介质,它们是相对应的方案,方案中:通过自动构造负样本,解决了手动标注负样本不切实际和缺乏多样性的问题;同时,设计了一种联合优化策略,对于例图文对,只允许表示错误的指示符的梯度进行反向传播,而对于正例图文对,文本序列和指示符的梯度都进行反向传播,该策略确保负样本不会对模型生成正确结果的能力产生负面影响;并且,引入一种自评估机制,使模型能够评估并识别自身生成的结果;最终,在推理时,模型能够通过判断生成文本与图像的视觉一致性,识别出看似语义连贯但实际上是错误的输出,从而提高信息提取结果的可靠性。
本发明授权可信文档信息提取方法、系统、设备及存储介质在权利要求书中公布了:1.一种可信文档信息提取方法,其特征在于,包括: 构建端到端生成模型; 收集多个文档图像及对应真实文本序列,对每一真实文本序列中的字符基于字符分数进行替换,获得对应的错误文本序列,在真实文本序列与错误文本序列指定位置分别添加指示符,再与相应文档图像对应的组成正例图文对与负例图文对;以及,构建查询信息:正例图文对的查询信息为真实文本序列对应的问题,负例图文对的查询信息为错误文本序列以及对应的问题;其中,指示符用于标示所属文本序列类别; 将正负例图文对及查询信息输入至端到端生成模型,由端到端生成模型利用文档图像及查询信息解码出文本序列与指示符;对于正例图文对,结合解码出的文本序列与指示符、以及添加指示符的真实文本序列构建正样本损失函数;对于负例图文对,结合解码出的指示符构建负样本损失函数;利用正样本损失函数与负样本损失函数训练端到端生成模型; 将待处理的文档图像与查询信息输入至训练后的端到端生成模型,解码获得目标文本序列及指示符,根据指示符判断目标文本序列的类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励