Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京烽火星空通信发展有限公司鲁煦获国家专利权

南京烽火星空通信发展有限公司鲁煦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京烽火星空通信发展有限公司申请的专利一种基于因子分析和图聚类的IDMapping方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114077865B

龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111269662.5,技术领域涉及:G06F18/25;该发明授权一种基于因子分析和图聚类的IDMapping方法是由鲁煦;张熠;阮祥超;朱丹;陶辉设计研发完成,并于2021-10-29向国家知识产权局提交的专利申请。

一种基于因子分析和图聚类的IDMapping方法在说明书摘要公布了:本发明公开了一种基于因子分析和图聚类的IDMapping方法,本方法基于各种数据源,对数据进行两两关系提取,并选择时间跨度、采集时间、采集次数、数据来源可靠性和数据来源种类个数作为数据的特征维度并静进行归一化处理后,通过因子分析判断这些特征是否符合要求,最终对数据进行权重计算,最后通过图的聚类算法实现IDMapping。本发明针对各种来源的海量碎片化数据进行合并,提高数据质量,最终形成一条用户画像数据。

本发明授权一种基于因子分析和图聚类的IDMapping方法在权利要求书中公布了:1.一种基于因子分析和图聚类的IDMapping方法,其特征在于包括以下步骤: S1,数据预处理: 1基于各数据源获取的数据,对数据进行两两关系提取,并对每对关系数据中不同属性数据按关系起点和关系终点进行排序编号,并获取每对关系数据的数据采集次数count、数据采集时间ctime、数据来源domain、数据来源可靠性rel;所述两两关系提取的数据包括四码间的两两关系数据,或者电话号码分别与QQ号和身份证号的两两关系数据,所述四码包括电话号码、IMEI、IMSI和MAC; 2选择时间跨度Tsapn、采集时间T、采集次数N、数据来源可靠性REL和数据来源种类个数TYPE作为数据的特征维度,并按式1~5对每个特征维度进行归一化处理; 式中,x为某一组相同关系数据中最早采集时间和最近采集时间的差值,ctimej为该组相同关系数据中第j个关系的数据采集时间,m为该组相同关系数据中的数据总个数;xi为第i组相同关系数据中最早采集时间和最近采集时间的差值,n为相同关系数据组的总个数;Tsapni是相同关系数据最早采集时间和最近采集时间的差值的归一化数值;j表示某组相同关系数据中某个采集的关系数据的序号,m为该组相同关系数据中的关系数据的总个数,i表示某组相同关系数据组的序号,n为相同关系数据组的总个数; 式中,T为同一关系数据最新采集时间距离当前时间的天数的归一化值,now为当前时间,day为相同关系数据最新采集时间距离当前时间的天数,Day为时间转换天数的函数,dayi为第i个关系数据采集时间的值; 式中,N为相同关系数据不同来源不同时间采集总次数的归一化值,c为某一相同关系的不同来源和不同时间采集产生相同数据的条数,ci为第i个关系数据的采集次数; 式中,REL是数据来源可靠性的归一化值,r为某个关系数据的可靠性得分,relj为第j个关系数据来源可信度,rel∈{0.1,0.5,1},k为来源可信度分数的个数,Cl为第l个来源的可信度分数个数,r为相同关系的可靠性分数,er是可靠性得分r的转变成的指数函数 式中,TYPE为数据来源种类个数的归一化值,y为同一关系数据的不同来源个数,yi为第i个关系数据的采集次数; 3去除异常数据节点; 4对关系数据的关系起点排序编号NOStar和关系终点排序编号NOEnd,以及经过预处理并归一化得到时间跨度Tsapn、采集时间T、采集次数N、数据来源可靠性REL和数据来源种类TYPE的五个特征维度进行数据输出,输出数据格式如下:{NOStarNOEndTspanTNRELTYPE}; 步骤S2,权重计算: 5基于KMO检验统计量对上述五个特征维度进行可靠性权重评分,KMO计算公式如下式: 式中,X和Y为上述五个特征维度的向量,rXY是X和Y之间的皮尔森相关系数,αXY是X和Y之间的偏相关系数; 6因子分析通过检验后,计算每个两两关系数据的所有特征值的贡献率,首先计算样本的5×5协方差矩阵cov: 式中,X为关系数据的5个特征维度的向量,T为X向量的转置,D为维度数; 然后,通过下式计算获得特征值λ和特征值贡献率fi 式中,A为式8结果的矩阵,E为单位矩阵,λ为特征值矩阵,下角标d为维度数,di为求和维度个数; 7最后,通过下式计算获得最终两两关系数据中各特征维度的权重w作为输出数据, 式中,fd为第d个特征维度的贡献率值,yd为第d个维度的值; 步骤S3,数据进行图聚类处理: 8通过SparkGraphX对步骤7中的输出数据创建点对象EdgeRDD和边对象VertexRDD,从而生成图结构对象Graph对象图; 9通过连通子图算法对生成的Graph对象图进行切分,得到若干个相互连通的子图,得到的子图即为每个用户的画像,并以子图中所有节点中最小的ID值设为该子图唯一健OneID, 其中,每个所述子图为一个用户或存在冲突的若干个用户的数据。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京烽火星空通信发展有限公司,其通讯地址为:210019 江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。