浙江大学;国网浙江省电力有限公司营销服务中心赵洲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;国网浙江省电力有限公司营销服务中心申请的专利一种用于去中心化场景的模型自适应文本识别方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116434216B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310320095.4,技术领域涉及:G06V20/62;该发明授权一种用于去中心化场景的模型自适应文本识别方法和系统是由赵洲;张鹏程;沈然;孙钢;沈皓;谷泓杰;汪一帆;李伊玲;叶景;谢汉天;苏华骏设计研发完成,并于2023-03-29向国家知识产权局提交的专利申请。
本一种用于去中心化场景的模型自适应文本识别方法和系统在说明书摘要公布了:本发明公开了一种用于去中心化场景的模型自适应文本识别方法和系统。本发明的方法包括步骤:利用多个文本识别源模型对一组目标域中的文本图像进行预测,得到经全部模型预测的字符序列标签;基于置信度和不确定性进行筛选,将符合条件的字符序列标签组成字符序列,和与其对应的文本图像作为伪标签对;基于多样性度量判断伪标签对是否可用于模型的自适应性训练,若否,则剔除,剩余的伪标签对组成训练集;采用训练集对模型进行自适应训练;训练之后的模型识别待测文本图像,并使用集成选择策略确定最终的文本识别结果。本发明在去中心化场景下设计新的伪标签筛选策略,仅利用多个模型和无标注的目标域文本图像,实现了模型自适应文本识别的效果。
本发明授权一种用于去中心化场景的模型自适应文本识别方法和系统在权利要求书中公布了:1.一种用于去中心化场景的模型自适应文本识别方法,其特征在于,包含以下步骤: 1收集多个来自不同场景的预训练文本识别源模型,以及目标域的无标注文本图像; 2利用步骤1中的所有文本识别源模型对一组目标域中的文本图像进行预测,一张文本图像经全部文本识别源模型预测后得到一组字符序列标签; 3基于置信度和不确定性对步骤2得到的多组字符序列标签进行筛选,将同组中符合条件的字符序列标签组成字符序列,该字符序列及其对应的文本图像作为伪标签对; 4基于多样性度量判断步骤3筛选出的伪标签对是否可用于文本识别源模型的自适应性训练,若否,则剔除,剩余的伪标签对组成训练集; 5采用步骤4得到的训练集对文本识别源模型进行自适应训练; 6在识别待测文本图像时,对步骤5自适应训练之后的文本识别源模型使用集成选择策略确定最终的文本识别结果; 所述步骤3包括: 3.1对于一张来自目标域的文本图像,通过全部文本识别源模型预测得到一个长度为L+1的字符序列y={y1,…yl,…yL,EOS},yl表示文本图像中的第l个有效字符,L表示文本图像中的有效字符长度,EOS表示序列终止符; 3.2字符序列的置信度分数和不确定性分数为各个预测步的置信度分数和不确定性分数的均值,当字符序列的置信度分数大于第一阈值δd且不确定性分数小于第二阈值δu时,字符序列符合置信度和不确定性条件,将该字符序列及其对应的文本图像作为伪标签对。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;国网浙江省电力有限公司营销服务中心,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。