上海艺赛旗软件股份有限公司唐琦松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海艺赛旗软件股份有限公司申请的专利一种训练集构建方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117115831B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311075855.6,技术领域涉及:G06V30/19;该发明授权一种训练集构建方法、装置及存储介质是由唐琦松;林平;吴鑫;靳志业;谢涛设计研发完成,并于2023-08-25向国家知识产权局提交的专利申请。
本一种训练集构建方法、装置及存储介质在说明书摘要公布了:本发明公开了一种训练集构建方法、装置及存储介质,所述方法包括获取初始训练集和初始测试集;基于测试集中中文词条所表征的汉字范围,补充缺失的汉字训练数据,得到第一修正训练集;基于第一修正训练集与测试集的词条字长分布差异,确定相应的补充训练数据,再将补充训练数据补充至第一修正训练集中得到第二修正训练集;使用测试集对经由第二修正训练集训练得到的文本识别模型进行测试,得到识别出错的汉字;基于识别出错的汉字的特征,确定识别出错的汉字在第二修正训练集中的相似字范围;基于相似字范围,减少相似字在第二修正训练集的频数差异,得到最终的训练集,本发明能够拉近训练集和测试集在OCR中的语义分布。
本发明授权一种训练集构建方法、装置及存储介质在权利要求书中公布了:1.一种训练集构建方法,其特征在于,所述方法包括: 获取初始训练集和初始测试集;其中,所述初始训练集和测试集中均包括有多个中文词条; 基于所述测试集中中文词条所表征的汉字范围以及常规汉字范围,补充初始训练集中缺失的汉字训练数据,得到第一修正训练集; 基于所述第一修正训练集与测试集的词条字长分布差异和或词性分布差异,确定相应的补充训练数据,再将所述补充训练数据补充至所述第一修正训练集中得到第二修正训练集; 使用所述测试集对经由所述第二修正训练集训练得到的文本识别模型进行测试,得到识别出错的汉字; 基于所述识别出错的汉字的特征,确定所述识别出错的汉字在第二修正训练集中的相似字范围; 基于所述相似字范围,减少相似字在第二修正训练集的频数差异,得到最终的训练集; 基于第一修正训练集与测试集的词条字长分布差异来确定相对应的补充训练数据的步骤,包括: 统计所述第一修正训练集和测试集的各字长对应的频数,获得所述第一修正训练集和测试集对应的字长分布曲线; 针对所述第一修正训练集和测试集对应的字长分布曲线,采用蒙特卡洛定积分法来计算字长分布曲线的积,并且使用字长分布曲线定积分的差表征第一修正训练集和测试集的字长分布差异; 基于所述字长分布曲线定积分的差,确定相应的补充训练数据; 基于第一修正训练集与测试集的词性分布差异来确定相对应的补充训练数据的步骤,包括: 针对所述第一修正训练集和测试集中的词条分别执行分词和词性标注处理,得到各个词条所具有的词性; 计算所述第一修正训练集和测试集中各个词性的重要性参数; 基于所述第一修正训练集和测试集中各个词性的重要性参数,构建第一修正训练集与测试集之间的向量距离表达式;其中,所述向量距离表达式用于表征所述词性分布差异,所述向量是通过各个词性的重要性参数得到的; 基于所述向量距离表达式,确定相应的补充训练数据; 计算所述第一修正训练集和测试集中各个词性的重要性参数的步骤,包括: 通过下式计算第一修正训练集和测试集中各个词条中各个词汇的重要程度: ; 公式中,U表示为第一修正训练集或者测试集中词条的最长的分词数量,k表示第一修正训练集或者测试集中第个词条中分词的数量,也即是第个词条所具有的的词汇数量,用于表征该个词条各个词汇的重要性程度; 分别累计第一修正训练集和测试集中每种词性的重要程度总和;其中,每种词性的重要程度综合是对各词性对应词汇的重要程度累计得到; 使用重要程度总和除以对应数据集中的词条数量作为上述第一修正训练集或者测试集中每项词性的重要度参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海艺赛旗软件股份有限公司,其通讯地址为:201100 上海市闵行区申长路1398弄1-4号阿里中心T2栋3楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励