Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 郑州信大先进技术研究院张有为获国家专利权

郑州信大先进技术研究院张有为获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉郑州信大先进技术研究院申请的专利一种案件大数据网络身份关联与人物画像方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115374371B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210951172.1,技术领域涉及:G06F18/23;该发明授权一种案件大数据网络身份关联与人物画像方法是由张有为;姚文清;赵清波;薛兵;葛方丽;程骞设计研发完成,并于2022-08-09向国家知识产权局提交的专利申请。

一种案件大数据网络身份关联与人物画像方法在说明书摘要公布了:本发明提供一种案件大数据网络身份关联与人物画像方法,所述方法包括:步骤1,获取案件数据;步骤2,对获取的数据进行清洗;步骤3,采用重叠社团发现技术识别重要目标;步骤4,用户博文向量化;步骤5,用户个人信息向量化;步骤6,源用户和候选用户的博文相似度计算。本发明能够对涉案数据进行很好的处理;本发明中采用基于重叠社团发现的重要目标识别技术,利用局部聚类结构的引导来检测重叠社团,将复杂的重叠聚类问题降低为一个更简单、更易于处理的非重叠分区问题;本发明利用向量表示、行为关联等方法,构建基于多维特征的网络用户身份关联模型,挖掘跨社交平台用户关联关系和还原用户社交关系网络。

本发明授权一种案件大数据网络身份关联与人物画像方法在权利要求书中公布了:1.一种案件大数据网络身份关联与人物画像方法,其特征在于,所述方法包括: 步骤1,获取案件数据; 步骤2,对获取的数据进行清洗; 数据的清洗包括: 步骤2-1,若数据中存在空白的内容,则将该条数据删除;若数据中存在多个属性项完全重复的记录,则只保留一条记录并将其余删除; 步骤2-2,进行中文字段匹配; 首先,利用知识库对明显等价的特殊字段进行初步匹配;然后,利用中文自动分词技术,对经过初步匹配后的字符序列进行分词处理,形成含有分词标记的字符序列; 步骤2-3,进行基于编辑距离的相似度计算; 编辑距离m+1×n+1阶矩阵Dij的计算公式如下: , 式中,Dij=Ds1…si,t1…ti,0≤i≤m,0≤j≤n,Dij表示从{s1…si},到{t1…ti}的编辑距离,s指代源字符串,t指代目标字符串; 步骤2-4,基于改进N-Gram算法的数据清洗; 使用动态大小的滑动窗口进行字段匹配,设定窗口大小的初值N0,后续窗口的大小随执行过程计算得出; 窗口大小计算方法:记当前正在处理的窗口为N1,r1和rl分别表示窗口内的第一条和最后一条记录,则二者之间的距离dt满足: dtr1,rl<φ 此时窗口N1内各记录之间的平均距离为dtr1,rlN1; 下一步窗口的大小N2为:*N2=φ,φ为窗口最小阈值; 步骤3,采用重叠社团发现技术识别重要目标; 采用重叠社团发现技术识别重要目标的方法: 定义要处理的图G=V,E由有限个结点V和节点之间的边组成,且满足:对于任意u,v∈E,u≠v;u,v∈E,当且仅当v,u∈E,最终检测到的聚类为S’,则由G产生S’的具体步骤如下: 步骤3-1:对于图G中的每个结点u,使用局部聚类算法划分出结点u的ego-net: , 其中,tu=npAl,G[Nu],np表示集合的数目; 步骤3-2:创建副本集合V’; V中的每个结点u对应V’中的tu个副本,分别表示为ui,i=1,2,…,tu; 步骤3-3:增加副本之间的边; 如果u,v∈E,且,那么在E’中增加一条边ui,vj; 步骤3-4:在G’=V’,E’上利用全局聚类算法Ag进行聚类,获取V’的分区S’’; 步骤3-5:对于V’的划分中的每个集合C’∈S’’,关联一个由V的对应节点组成的簇,即CC’={u∈V|is.t.ui∈C’};输出S’={CC’|C’∈S’’}; 步骤4,用户博文向量化; 用户博文向量化表示如下: 博文进行分词处理后,博文呈现出一个大小为n的词表,表中的第i个语义词表示为: Wordi=sitei,vectori 式中,sitei表示语义词在语义向量词典中的位置,vectori表示语义词对应的语义向量; 由n个语义词组成的二元组构成博文的初始向量表示为: Blog=Word1,Word2,Word3,…,Wordn, 选定源用户的一条博文Blog1与待比较的候选用户的一条博文Blog2,采用平均池化方法,获得源用户的固定维度的博文向量V1,公式如下: , , 式中,n1表示源用户博文中语义词的数量,α表示每个语义词的权重; 采用带权重的平均池化计算方法,获得与源用户博文向量相同维度的候选用户博文向量V2: , 式中,β表示相同语义词的权重的波动幅度,γi表示第i个语义词的权重; 步骤5,用户个人信息向量化; 用户个人信息向量化内容如下: 对具有辨识度的五个维度的公开特征信息进行表示和one-hot编码处理:性别、所在地省份、所在城市、星座和登录方式;由于省份和城市的可能值较多,所以先省份进行编号组成字典,然后将用户省份用字典中对应的编号代替从而实现数字化,同理对城市进行数字化,然后根据样本数据,使用python中的sklearn中的OneHotEncoder,对用户个人信息进行one-hot编码,获得源用户个人信息向量I1={i11,i12,i13,i14,i15}和候选用户个人信息向量I2={i21,i22,i23,i24,i25}; 步骤6,源用户和候选用户的博文相似度计算; 源用户和候选用户的博文相似度计算公式如下: , 使用余弦相似度计算,计算源用户和候选用户的个人信息相似性,计算公式如下: , 分别计算出了源用户和候选用户的博文相似度和个人信息相似度之后,接下来找到恰当的用户个人信息的权重δ,使得加权后的结果精确最高,即可刻画出人物画像;其中,加权后的相似度表示为: SP1,P2=δ×SI1,I2+1-δ×SV1,V2。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人郑州信大先进技术研究院,其通讯地址为:450000 河南省郑州市高新技术产业开发区莲花街55号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。