阿里巴巴(中国)有限公司陈辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉阿里巴巴(中国)有限公司申请的专利数据处理方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114595293B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210203266.0,技术领域涉及:G06F16/28;该发明授权数据处理方法、装置、设备及介质是由陈辉;卢旻龙;熊飞宇;付成;王天舒;孙乐;韩先培设计研发完成,并于2022-03-03向国家知识产权局提交的专利申请。
本数据处理方法、装置、设备及介质在说明书摘要公布了:本申请实施例提供一种数据处理方法、装置、设备及介质。在本申请实施例中,获取第一数据集,第一数据集中包含多个实体记录;通过实体匹配模型对多个实体记录进行实体匹配处理,得到匹配结果,实体匹配处理包括跨属性的符号对比和对符号对比的对比结果进行纠错;根据匹配结果,对第一数据集进行去重处理和或融合处理,得到第二数据集。从而,通过跨属性的符号对比和对符号对比结果的纠错,降低实体记录的数据质量对实体匹配准确性的不良影响,有效地提高实体匹配的准确性,进而提高数据集的去重处理和或融合处理的准确性,提高处理后的数据质量。
本发明授权数据处理方法、装置、设备及介质在权利要求书中公布了:1.一种数据处理方法,其特征在于,包括: 获取第一数据集,所述第一数据集中包含多个实体记录; 通过实体匹配模型对所述多个实体记录进行实体匹配处理,得到匹配结果,所述实体匹配处理包括跨属性的符号对比和对符号对比的对比结果进行纠错,所述对符号对比的对比结果进行纠错,包括:对符号对比的对比结果进行实体结构重建和语义降噪;所述实体匹配模型包括对比网络层、结构重建网络层、语义降噪网络层和聚合网络层; 根据所述匹配结果,对所述第一数据集进行去重处理和或融合处理,得到第二数据集; 所述多个实体记录构成至少一个实体记录对,所述匹配结果包括所述实体记录对的匹配结果,所述通过实体匹配模型对所述多个实体记录进行实体匹配处理,得到匹配结果,包括: 在所述实体记录对中,根据所述实体记录中多个属性对应的属性值,确定与所述实体记录对应的符号序列; 通过所述对比网络层,对所述符号序列中的各符号进行比较,得到所述符号序列中各符号对应的初始对比向量; 通过结构重建网络层,对符号序列中各符号对应的属性进行纠错,得到符号序列中各符号对应的纠错后的属性,将符号序列中各符号对应的纠错后的属性,添加至符号序列中各符号对应的初始对比向量中,实现对各符号对应的初始对比向量的实体结构重建; 通过语义降噪网络层,对符号序列中各符号的语义正确性进行检测,得到符号序列中各符号的置信度;根据符号序列中各符号的置信度,对各符号的中间对比向量进行语义降噪,得到各符号对应的增强对比向量; 通过所述聚合网络层,对所述增强对比向量进行聚合处理,得到所述实体记录对的匹配结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人阿里巴巴(中国)有限公司,其通讯地址为:310056 浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。