西北工业大学王柱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种面向大规模异质图的图神经网络采样方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115423073B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210954028.3,技术领域涉及:G06N3/042;该发明授权一种面向大规模异质图的图神经网络采样方法是由王柱;钱锦麟;安粱义;邹慧琪;石奇松;郭斌;於志文设计研发完成,并于2022-08-10向国家知识产权局提交的专利申请。
本一种面向大规模异质图的图神经网络采样方法在说明书摘要公布了:本发明涉及一种面向大规模异质图的图神经网络采样方法,该方法首先加载图数据,并对节点集重新标号;然后初始化每个节点在不同类型下的概率矩阵;根据邻域扩展规则进行不同层的扩展,并根据概率矩阵进行归一化,同时考虑特征完成性,以计算得到采样节点;接下来根据采样节点,构建采样子图,并对缺失特征进行补全;最终得到能够用于后续异质图神经网络训练的采样子图。
本发明授权一种面向大规模异质图的图神经网络采样方法在权利要求书中公布了:1.一种面向大规模异质图的图神经网络采样方法,其特征在于步骤如下: 步骤1:加载图数据,初始化节点集;所述图数据为引文数据;具体如下: 步骤1-1:为所有节点设定唯一标识的ID,自0开始编号; 步骤1-2:初始化节点集表示为sample_nodes:根据用户给定的数值batch_size,随机选取数目为batch_size的初始节点,将初始节点按照ID,节点包含特征数目的形式,存储到当前层的采样节点结果集sample_nodes中,作为初始化随机采样结果; 步骤1-3:统计全图各类型边的数目,以及各类型占全图总边数的比例,以字典形式进行存储,将其称作初始节点比例集sample_dict,记录信息为:起始节点类型,边类型,终止节点类型,比例数值; 步骤2:初始化每个节点的采样概率的权重矩阵;具体如下: 步骤2-1:计算当前层各类型概率矩阵的采样数 步骤2-1-1:根据步骤1-2中得到的初始节点集sample_nodes,统计该节点集周边一阶邻居所占边的类型数目比例,以字典形式进行存储,将其称作层节点比例集neighbor_dict,记录信息为:起始节点类型,边类型,终止节点类型,比例数值; 步骤2-1-2:根据步骤1-3中得到的初始节点比例集sample_dict,以及步骤2-1-1中得到的层节点比例集neighbor_dict各项记录按照起始节点类型,边类型,终止节点类型的对应比例数值做算数平均,得到各类型边在该层应采样的数目;在低阶采样中,使用均衡的方式,各类型采样比例能够更好的接近原图真实情况,能够对类型比例进行改善,下层模型训练能够更快的达到收敛目标; 步骤2-2:对各节点的邻居按照类别分别处理,根据节点的度信息决定权重,计算各节点类型下的概率矩阵;对各类型边进行分别处理,对各个节点进行概率评估,评估方式以度中心度依次进行累积,累积方式为周边邻居个数的倒数; 步骤3:在当前层中,根据步骤2得到的采样概率矩阵,进行归一化并累积;其计算方式为:,其中代表累积的归一化概率,表示类型,表示取邻接矩阵的最大长度,表示边类型;进行多轮的邻域探索,直到深度达到用户设定的层数;而后依据概率对当前已有节点进行图的重要性采样;具体如下: 步骤3-1:对步骤2-2得到的各节点类型下概率矩阵做归一化; 步骤3-2:对各个节点得到的归一化概率与节点特征数进行加权平均,通过以均数的加权估计进行偏差减小,得到新的各个节点的采样概率; 步骤3-3:根据步骤3-2得到的各节点采样概率,以及各类型采样数目进行采样;并将根据当前得到的点集,进行采样概率矩阵的更新,矩阵更新方式为依次累加,即,其中,n表示当前节点,表示类型,表示当前节点,在类型下的采样概率累积值,代表累积的归一化概率,重复多次更新矩阵的值,直到达到指定深度,结束矩阵的更新; 步骤4:根据采样节点的点集构建采样图;具体如下: 步骤4-1:在步骤3-3中,得到采样的点集,每个节点具备标识ID,该ID在步骤1-1中唯一确定,记录这些ID,即可得到采样的节点集; 步骤4-2:根据步骤4-1中的节点集,根据两点间的连通关系,得到对应的边关系,即边集; 步骤4-3:根据步骤4-1中得到的节点集和步骤4-2中得到的边集,即可构成采样图; 步骤5:根据采样节点的点集,从原始数据中获取对应节点的特征信息,构建特征矩阵;多数数据集中节点特征并不完全,针对缺失的节点特征信息,进行特征补全;具体如下: 步骤5-1:根据步骤4中得到的采样图,寻找缺失特征信息的节点,将其列为点集; 步骤5-2:根据步骤5-1中得到的点集,按照现实依赖关系及特征传递方式进行补全; 步骤5-2-1:根据现实依赖关系的特征补全,这种方式仅对部分数据集适用,需要根据现实逻辑关系进行数据集的补全具备效率较高的特性;多与时间特性相关,在引文数据集中,若文章节点时间信息缺失,由引用与被引论文节点关系进行时间逼近; 在引文数据集中,入度关系为引用,出度关系为被引用;那么具体的特征补全方式为:取当前缺失信息的节点,寻找周边所有具备相应时间信息的节点;记入度节点中时间最大的值为A,相当于引用的文章的最晚时间;记出度节点中时间最大的值为B,相当于被引用的最早时间;对A和B取均值,作为当前节点的时间特征信息;在其他情况下需设计不同的现实依赖方式; 步骤5-2-2:根据特征传递方式进行信息补全:由于邻居往往具有相似的特征向量,根据同类型节点的特征矩阵的传播性使用狄利克雷能量DirichletEnergy进行量化;具体的补全方式为:测量节点特征与其邻居平均值之间的平方差的二次形式;使用特征传播的相关性能够重构缺失特征;传播过程为,使用未知特征用初始化,而后通过应用归一化的邻接矩阵来传播特征,然后将已知特征重置为其真实值;重复上述两个操作,直到特征向量收敛; 步骤6:结合步骤4-3得到的采样图及步骤5中得到的特征补全信息,即为处理完毕的子图及特征信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励