西安理工大学李军怀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学申请的专利融合实体描述与路径信息的知识图谱表示学习模型的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115438189B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211068938.8,技术领域涉及:G06F16/36;该发明授权融合实体描述与路径信息的知识图谱表示学习模型的方法是由李军怀;武允文;王怀军;崔颖安;张发存设计研发完成,并于2022-08-30向国家知识产权局提交的专利申请。
本融合实体描述与路径信息的知识图谱表示学习模型的方法在说明书摘要公布了:本发明公开了一种融合实体描述与路径信息的知识图谱表示学习模型的方法,首先从大型知识图谱Freebase中抽取两个子集作为训练集,结合RuobingXie人为训练集所做的实体描述,将二者输入微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;然后将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;然后采用梯度下降优化三元组的向量表示,训练得到知识图谱表示学习模型。本发明提升表示学习路径建模效率,增强知识图谱表示学习模型的多跳推理能力。
本发明授权融合实体描述与路径信息的知识图谱表示学习模型的方法在权利要求书中公布了:1.融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,具体按照以下步骤实施: 步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合RuobingXie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量; 所述步骤1具体按照以下步骤实施: 步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下: S1.1.1、假定存在三元组头实体,关系,尾实体,在每个输入序列的头部位置设置分类标签[CLS]; S1.1.2、将头实体或者是对应的实体描述表示成一个包含a个token的句子,,,,;token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇; S1.1.3、将关系表示成一个包含b个token的句子,,,,; S1.1.4、将尾实体或者是对应的实体描述同样被表示成一个包含c个token的句子:,,,; S1.1.5、在实体与关系之间加入特殊分割标签[SEP]; 步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量预测三元组是否正确,通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下: 从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量,键向量和值向量,令在第i个头的自注意力机制向量为,分别根据按照公式1、2和3计算出与: 最后根据与求表示学习向量的对应归一化指数函数softmax: 为维数,Attention为自注意力,为的转置, 在多头注意力机制下,每一个注意力头上都重复操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维; 得到多头注意机制后,在每个编码块中跟随一个层归一化LayerNormalize步骤,层归一化的操作如公式5和6所示: 其中,Y为注意力头输出,relu为激活函数,和为可调参数,表示对多头输出进行拼接,为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出; 步骤1.3、对步骤1.2所输出的向量求平均作为最终的模型输出,得到基于实体描述的向量; 步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP; 所述步骤2具体按照以下步骤实施: 步骤2.1、对步骤1.1输入的三元组进行长路径建模: 公式7定义了能量函数,表示头实体,表示尾实体,表示关系,表示知识图谱中全体实体集合,表示全体关系集合,为从到的关系路径的其中一条,,n为关系路径个数,如果从到的路径是合理的,则得到的能量值较低, 与分别表示有序关系路径中头实体和尾实体的表示学习向量,为给定路径中关于第个关系的序列矩阵,为第i个关系,直接相连的三元组视为头实体和尾实体之间的存在单步路径,因此,的能量值通过将直接关系当作代入公式7获得; 步骤2.2、将关系对应的头实体和尾实体通过两个不同的投影矩阵分别投影到不同的超平面上,设和分别表示关系的头实体和尾实体的投影矩阵,假设有一条从到的路径,定义以下公式10: 其中,表示路径上的第i个节点,对于一条从到的关系路径的实体,在从等式10中消除传递节点之后获得它们的表示,等式7中变量的具体形式如下所示: 将路径中的尾实体投影到的空间中,其中表示路径的投影矩阵,此外,假设存在路径,同时充当关系的尾实体和和的头实体,为了连接不同空间中的关系,公式14中定义,其中,用于将传递节点从的头实体空间转移到的尾实体空间,k由1取到i,I表示单位矩阵,而表示从的头部实体空间到的尾部实体空间的空间转换矩阵; 步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有步路径中选择与最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征; 所述步骤2.3具体按照以下步骤实施: 第一层的池化策略:利用最小池化方法从步路径中提取特征信息,并定义如下能量函数: 其中,定义能量函数,表示与从头实体到尾实体经过关系的所有步路径的集合,为了获得,引入条件概率判断给定关系的情况下路径的可行概率: 表示和的联合概率,表示的边际概率,此外,表示在知识图谱中和连接同一实体对的情况数,表示在知识图谱中的路径数,表示知识图谱中的路径总数,通过给定限制条件过滤,得到所有过滤后的的集合; 第二层的池化策略:定义如下总能量函数: 表示直接关系的能量值,通过将代入公式16中的计算得到; 步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励