苏州浪潮智能科技有限公司张荣国获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉苏州浪潮智能科技有限公司申请的专利一种文本数据集清洗方法、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114647731B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210324649.3,技术领域涉及:G06F16/35;该发明授权一种文本数据集清洗方法、装置及介质是由张荣国设计研发完成,并于2022-03-29向国家知识产权局提交的专利申请。
本一种文本数据集清洗方法、装置及介质在说明书摘要公布了:本发明公开了一种文本数据集清洗方法、装置及介质,属于计算机数据技术领域,方法包括:接收待清洗的文本数据集;对第一格式文本数据集和第二格式文本数据集进行中文过滤操作,以分别形成第一格式第一文本数据集和第二格式第一文本数据集;将所述第二格式第一文本数据集转换为第一格式第二文本数据集;将所述第一格式第一文本数据集以及所述第一格式第二文本数据集进行编码格式转换,以形成第一格式第三文本数据集;对所述第一格式第三文本数据集进行数据清洗操作。本发明实现了基于Bash脚本和Spark开源集群运算框架的高效的数据分类清洗方案,能够在短时间内处理TB级别的互联网文本数据集,提高了清洗效率。
本发明授权一种文本数据集清洗方法、装置及介质在权利要求书中公布了:1.一种文本数据集清洗方法,其特征在于,所述方法包括: 接收待清洗的文本数据集; 基于Bash脚本将所述待清洗的文本数据集分类成第一格式文本数据集和第二格式文本数据集; 对所述第一格式文本数据集和第二格式文本数据集进行中文过滤操作,以分别形成第一格式第一文本数据集和第二格式第一文本数据集; 将所述第二格式第一文本数据集转换为第一格式第二文本数据集; 将所述第一格式第一文本数据集以及所述第一格式第二文本数据集进行编码格式转换,以形成第一格式第三文本数据集; 对所述第一格式第三文本数据集进行数据清洗操作,其中所述数据清洗操作包括:通过消息摘要算法对所述第一格式第三文本数据集进行计算并进行内容去重操作; 所述对所述第一格式文本数据集和第二格式文本数据集进行中文过滤操作,以分别形成第一格式第一文本数据集和第二格式第一文本数据集,包括: 根据所述第一格式文本数据集中各文本数据的全路径中是否包括第一预设词汇来判断所述文本数据是否为中文文本数据,若是,则删除;若否,则保留;和或根据所述第一格式文本数据集中各文本数据的前一百行是否包括中文字符来判断所述文本数据是否为中文文本数据,若是,则保留;若否,则删除,以形成第一格式第一文本数据集; 根据所述第二格式文本数据集中各文本数据的全路径中是否包括第一预设词汇来判断所述文本数据是否为中文文本数据,若是,则删除;若否,则保留,以形成第二格式第一文本数据集; 其中,所述第一格式文本数据集为TXT格式的电子书;第二格式文本数据集为EPUB格式的电子书;第一格式第三文本数据集为中文的UTF-8格式的TXT电子书。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州浪潮智能科技有限公司,其通讯地址为:215168 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。