北京吉贝克世纪信息技术有限公司张晓辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京吉贝克世纪信息技术有限公司申请的专利用于非现场审计的异构数据整合方法、计算机设备和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119271728B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411291971.6,技术领域涉及:G06F16/25;该发明授权用于非现场审计的异构数据整合方法、计算机设备和介质是由张晓辉设计研发完成,并于2024-09-14向国家知识产权局提交的专利申请。
本用于非现场审计的异构数据整合方法、计算机设备和介质在说明书摘要公布了:本发明涉及审计数据整合技术领域,具体涉及用于非现场审计的异构数据整合方法、计算机设备和介质,针对单个数据类型中的不同数据组,识别出存在漏采集的数据组并将存在漏采集的数据组合并,以及识别出重复采集的数据组并将重复采集的数据组合并,得到每个数据类型对应的合并数据;基于合并数据,对不同数据类型的数据进行自然语言处理以及独热编码,形成每个数据类型的不同数据类别之间的列向量组合,分析不同数据类型对应的列向量组合中任意两个列向量之间的匹配程度,得到列向量的匹配列向量,完成不同数据类型中同一数据类别之间的整合。在对整合后的数据进行非现场审计时,可以更加方便的进行数据分类分析,提高审计效率和准确率。
本发明授权用于非现场审计的异构数据整合方法、计算机设备和介质在权利要求书中公布了:1.一种用于非现场审计的异构数据整合方法,其特征在于,所述方法包括: 基于多个数据源进行数据采集,得到每个数据源对应的数据类型,其中每个数据类型包括多个数据组; 针对单个数据类型中的不同数据组,识别出存在漏采集的数据组并将存在漏采集的数据组合并;将存在漏采集的数据组合并包括:确定任意两个不同的不完整数据组中相同数据的数量,并分析相同数据的数量与完整数据数量的关系,得到数据相似度;当数据相似度大于数据相似度阈值并且两个不完整数据组中不相同数据的分布不存在交集时,将两个不完整数据组合并; 识别出重复采集的数据组并将重复采集的数据组合并,得到每个数据类型对应的合并数据;识别出重复采集的数据组并将重复采集的数据组合并,包括:确定每个数据组中数据的重要程度,并结合两个不同数据组的相似性以及不重要数据的数量关系,得到两个不同数据组中数据的可合并性;根据可合并性,将重复采集的数据组合并; 基于合并数据,对不同数据类型的数据进行自然语言处理以及独热编码,将不同数据类型的数据转化为列向量;将每个数据类型的不同数据类别对应的列向量进行组合,形成每个数据类型的不同数据类别之间的列向量组合;分析一个数据源对应的列向量组合中的每个列向量与另一个数据源对应的列向量组合中的任一列向量之间的余弦相似度,得到不同数据类型对应的列向量组合中任意两个列向量之间的匹配程度;当匹配程度大于匹配程度阈值时标记两个列向量为可能相似列向量,将每个列向量对应的所有可能相似列向量中匹配程度最大的列向量确定为列向量的匹配列向量;将列向量与其对应的匹配列向量匹配,完成不同数据类型中同一数据类别之间的整合; 其中,构建第个数据类型中第个数据组的第个数据与第个数据类型中第个数据组的对应的第个数据的可合并性计算公式为: ; 式中,表示第个数据类型中第个数据组的第个数据与第个数据类型中第个数据组的对应的第个数据的可合并性;表示第个数据类型中数据类别的总数量;表示第个数据类型中第个数据组的第个数据的数值;表示第个数据类型中第个数据组的第个数据的数值;表示第个数据类型中第个数据组的第个数据的重要程度;表示第个数据类型第个数据组中重要程度小于的数据数量;加是为了防止分母为0。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京吉贝克世纪信息技术有限公司,其通讯地址为:100000 北京市大兴区广茂大街19号院2号楼5层501号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励