东北大学张琳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种针对中文文本校对的数据增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115310433B 。
龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210936837.1,技术领域涉及:G06F40/253;该发明授权一种针对中文文本校对的数据增强方法是由张琳;韩春燕;任涛设计研发完成,并于2022-08-05向国家知识产权局提交的专利申请。
本一种针对中文文本校对的数据增强方法在说明书摘要公布了:本发明提供一种针对中文文本校对的数据增强方法,涉及人工智能技术领域。该方法通过序列标注模型判断正确的源语句中易发生错误的位置与类型,弥补当前方法随机选择错误位置与错误类型的缺陷,使数据更加贴近现有的训练数据;在生成多字错误中添加了使用模型BERT生成的语法错误数据,使生成的错误句语义相关性更强;在生成拼写错误的过程中添加了用模型BERT生成的语法错误数据,模拟写作中词汇选择错误的情形;同时,考虑了现实录入过程中,使用键盘录入文字时按错键产生的拼写错误;生成的伪数据包含常见的语法错误类型,可在一定程度上提升语法纠错模型和拼写纠错模型的健壮性,使模型学习到更加多样且与真实数据相近的错误语句特征。
本发明授权一种针对中文文本校对的数据增强方法在权利要求书中公布了:1.一种针对中文文本校对的数据增强方法,其特征在于: 根据语句中标点符号,对输入序列标注模型和BERT模型的语句进行分句; 将分句后的语句作为源语句输入序列标注模型;所述序列标注模型根据已训练好的模型参数完成前向传播过程,并根据模型得出的置信度,输出源语句中易产生错误的位置与其对应的错误类型; 获取序列标注模型对源语句的标识结果; 根据序列标注模型标识的不同错误类型,对源语句进行相应错误类型的处理; 一、对于源语句中被标记为B-M的字符,将该标记结果作为少字错误,并删除标记为B-M的字符; 二、对于源语句中被标记为B-R与I-R多字语法错误的连续两个字符,在两个字符的中间位置进行添加字符操作; 三、对于被标记为B-W和I-W乱序错误的字符,根据分词结果模拟语法错误中的乱序情况或放弃在该标记处生成乱序错误; 四、对于被标记为B-S和I-S拼写错误的字符,对标记字符进行替换; 在所有标记字符皆被处理后,对处理结果进行合并,得到最后生成的带有语法错误的错误语句; 过滤掉不符合要求的错误语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路3号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励