北京工业大学吴迪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116611509B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310485326.7,技术领域涉及:G06N5/01;该发明授权面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法是由吴迪;唐滋芳;李童;杨震设计研发完成,并于2023-04-28向国家知识产权局提交的专利申请。
本面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法在说明书摘要公布了:面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法,属于网络数据安全领域,解决现有交互方法随机生成嵌入向量从而限制模型挖掘更多有价值信息的问题,达到更好地融合公共网络中的多源异构数据及补全公共网络中的重要数据。该方法步骤如下:获取公共网络重要数据的知识图谱数据集及重要数据的文本描述信息;文本嵌入模型训练;结构嵌入模型训练;交替拼接;特征降维;特征重排;循环卷积和预测尾实体向量。本方法在嵌入交互方法的基础上,利用重要数据的多模态信息,解决了面向公共网络多源异构数据的难以融合与补全的问题,在预测重要数据的准确率有提升。
本发明授权面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法在权利要求书中公布了:1.面向公共网络重要数据补全的基于多模态嵌入交互的链接预测方法,其特征在于,步骤如下: 步骤1获取公共网络重要数据的知识图谱数据集;从不同的公共网络数据集网站收集信息,然后将数据集相关信息汇总到excel表格中,相关信息包括:数据集领域、数据集名称、下载地址、数据类型、数据集介绍、数据量规模、是否有标签、是否可下载信息;数据集表示为三元组形式头实体、关系、为实体,其中头实体用h表示,关系用r表示,尾实体用t表示;三元组分为正样本和负样本,存在两个三元组h1,r1,t1和h2,r2,t2,给定一个头实体h1和关系r1去预测尾实体,预测正确为正样本组h1,r1,t1,预测错误为负样本h1,r1,t2; 步骤2文本嵌入;嵌入重要数据的文本信息目的是通过文本嵌入方法处理文本类型数据得到实体的文本嵌入向量;输入是在公共网络中收集到与Freebase数据集中与重要数据相关的文本描述信息,使用基于BERT的查询编码对文本描述进行处理,以获得实体文本嵌入向量Se;将重要数据的文本描述句子打包为单个输入标记序列;每个输入标记序列包含多个句子,使用唯一的标记[SEP]来分隔句子;输入表示通过对相应的、标记、段和位置嵌入求和来构建;标记嵌入ew由WordPiece嵌入生成;不同的元素由[SEP]区分,因此它们包含不同的段嵌入es;位置嵌入ep是位置大小到低维稠密向量的映射;每个输入标记都有一个位置嵌入表示,不同的标记在相同的位置包含相同的位置嵌入;每个输入序列中的第一个标记是一个唯一的分类标记[CLS];与此标记相对应的最终隐藏状态是实体文本嵌入向量; 步骤3结构嵌入;在结构嵌入中,利用TransD结构嵌入对三元组进行训练,得到满足结构h+r=t的实体结构嵌入向量Se和关系结构嵌入向量Sr;TransD使用两个向量来表示每个实体和关系;第一个向量表示实体或关系的含义,另一个投影向量将用于构建映射矩阵;给定三元组eh,er,et,其中,eh代表随机初始化的头实体嵌入向量,er代表随机初始化的关系嵌入向量,et代表随机初始化的尾实体嵌入向量;TransD将头部和尾部实体映射到关系空间,分别得到实体的映射矩阵和关系的映射矩阵 其中,表示对头实体嵌入向量eh执行转置操作,Im×n表示单位矩阵,表示对尾实体嵌入向量et执行转置操作;映射矩阵既与实体相关也与关系相关; 分别是头实体和尾实体的映射向量; 得分函数ftr表示头实体的映射向量加上关系向量er与尾实体的映射向量之间的误差;因此,通过计算头部和尾部实体的映射向量最小化目标函数SEP: fr={eh,er,et|eh,er,et∈E}; f'r={e'h,er,et|e′h∈E}∪{eh,er,e't|e't∈E} 其中γ是边界参数,用于限制关系嵌入空间中实体和关系之间的相对位置的参数,通常情况下,可以将边界参数随机初始化为[-0.001,0.001]之间的随机数;在训练过程中,模型通过优化损失函数来学习实体和关系之间的嵌入式表示,并通过更新边界参数来限制实体和关系之间的相对位置关系;E是数据集中所有的实体集合;fr是训练数据集中的正样本集合;f'r是损坏的三元组负样本集合,它是通过将正样本集合fr中有效三元组的头实体eh或尾实体et随机替换成实体集合中的任意头实体e'h或尾实体e't而产生的; 步骤4交替拼接模块;交替拼接模型使用交替排列向量中的元素的方式将实体文本嵌入向量Te与结构嵌入向量Se进行拼接得到矩阵C; 步骤5特征降维模块;实体嵌入向量[Te,Se]通过使用特征降维方法被映射到200维,得到实体嵌入向量Je;特征降维首先对矩阵C进行中心化操作; 其中,是中心化的数据矩阵,X是文本嵌入向量的维度与结构嵌入向量维度的总数,Ci是矩阵C中第i个元素;接下来,计算中心化数据矩阵的协方差矩阵: 表示协方差矩阵;然后,通过特征值分解可以得到协方差矩阵的特征值和特征向量: λ表示特征值,v表示对应的特征向量;最后,将原始矩阵C投影到由第一个200维特征向量v1,v2,…,v200构成的空间中,得到降维后的实体嵌入向量Je: 步骤6特征重排模块;方法将实体嵌入向量Je和关系嵌入向量Sr重排为不同的矩阵方式;特征重排的第一步是对实体和关系嵌入向量进行元素随机排序,生成μ不同的向量表示,旨在从不同角度交替拼接实体和关系嵌入向量产生的交互信息;第二步是按元素交替拼接两个嵌入向量;第三步是将拼接后的向量重新排列成不同的矩阵作为循环卷积的输入; 步骤7循环卷积模块;利用循环卷积神经网络训练重构的置换向量;循环卷积模块为文本和结构嵌入向量提供了统一的嵌入空间;循环卷积将每个重排堆叠为一个单独的通道;以一种深度的方式将循环卷积应用于卷积层的循环填充;它通过分别用卷积核大小的一半的向量填充矩阵的顶部和底部来扩展矩阵的大小;同时使用的归一化函数和激活函数用于防止梯度爆炸;然后,通过隐藏层来防止过拟合,最后,使用激活函数进行反向传播; 步骤8映射到向量空间模块;Pk是使用交替连接和特征降维将实体文本嵌入向量Je与结构嵌入向量Sr连接起来得到的拼接向量;接下来,采用特征重排操作φ对实体和关系的拼接向量Pk进行排列;Θ表示深度循环卷积操作,使用过滤器w连接的实体关系作为卷积层的输入;vec将得到的特征映射张量向量化;eo表示目标实体嵌入矩阵;函数f和g分别是ReLU激活函数和sigmoid激活函数;模型通过矩阵参数W的线性转移将g映射到向量空间;通过矩阵乘法与目标实体嵌入矩阵eo相乘得到最终的预测分数ψ; ψ=gvecfφPkΘwWeo。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。