Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中科曙光南京研究院有限公司王海荣获国家专利权

中科曙光南京研究院有限公司王海荣获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中科曙光南京研究院有限公司申请的专利一种相似重复记录的数据清洗自动化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111061709B

龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:201911105686.X,技术领域涉及:G06F16/215;该发明授权一种相似重复记录的数据清洗自动化方法及系统是由王海荣;肖万来;曹鹏飞;李鑫设计研发完成,并于2019-11-13向国家知识产权局提交的专利申请。

一种相似重复记录的数据清洗自动化方法及系统在说明书摘要公布了:本发明公开了一种相似重复记录的数据清洗自动化方法,该方法通过计算字段的重复率,实现自动选取进行排序的字段和自动确定字段的相似度权重,并且根据窗口内的首尾记录是否相似重复,动态调整窗口大小,从而实现相似重复记录的数据清洗自动化;降低人力成本,减少人为因素对结果的影响;本发明还提供了用于实施本发明上述方法的系统,各模块之间协作配合,重复计算和比较、处理,减少人工参与,在对数据清洗过程中得到更为准确的处理结果,自动化程度高。

本发明授权一种相似重复记录的数据清洗自动化方法及系统在权利要求书中公布了:1.一种相似重复记录的数据清洗自动化方法,其特征在于:包括如下步骤: S1.定义字段重复率的概念,根据计算每个字段的字段重复率,选择重复率最低的字段作为排序的字段并进行排序; S2.设置判断规则,根据所述规则计算默认窗口内第一条记录与剩余记录之间的相似度,并通过设定阈值对比判断是否为相似重复记录; S3.判断窗口内首尾记录是否为相似重复记录,若为相似重复记录,则扩大窗口大小后执行步骤S2,若窗口内首尾记录不是相似重复记录,则将判断为相似重复记录的结果加入相似重复记录的集合中并滑动至下一个窗口,下一个窗口的初始大小为默认大小; S4.重复步骤S2.和S3.直到窗口内的第一条记录为所有记录中的最后一条时结束,得到相似重复记录的集合; S5.再选取重复率第二低的字段进行排序,重复步骤S2.至S4.得到该排序下的相似重复记录的集合; S6.将根据两个不同字段排序得到的相似重复记录的集合归并,确定相似重复记录; S7.对识别出的相似重复记录进行处理, 其中,定义字段重复率的概念时,字段字段重复率计算公式如下: 其中,所述步骤S2.包括: S21.设置默认窗口大小的值; S22.计算窗口内所有记录的各个字段的相似度,根据字段类型的不同用相应的方法计算字段的相似度; S23.根据步骤S1.中每个字段的重复率确定每个字段相似度对应的权重,对默认窗口中的各字段相似度加权求和得到窗口内所有记录的相似度; S24.设定阈值,通过对比窗口内所有记录的相似度与给定所述阈值的大小关系判断是否为相似重复记录; S25.依次计算窗口内第一条记录与剩余每条记录之间的相似度,并通过与所述阈值对比判断是否为相似重复记录; S26.判断窗口内首尾记录是否为相似重复记录,若为相似重复记录,将窗口大小在当前大小的基础上扩大。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科曙光南京研究院有限公司,其通讯地址为:211100 江苏省南京市江宁区诚信大道芳园中路519号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。