河北工业大学王利琴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河北工业大学申请的专利基于逻辑规则与强化学习的知识图谱推理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115660086B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211285505.8,技术领域涉及:G06N5/04;该发明授权基于逻辑规则与强化学习的知识图谱推理方法是由王利琴;宋金晟;李英双;王振;董永峰设计研发完成,并于2022-10-20向国家知识产权局提交的专利申请。
本基于逻辑规则与强化学习的知识图谱推理方法在说明书摘要公布了:本发明涉及基于逻辑规则与强化学习的知识图谱推理方法,针对基于强化学习的多跳推理方法存在的路径关联性弱、探索奖励难以确定的问题,提出利用逻辑规则优化强化学习路径奖励的方法,解决了强化学习在知识图谱推理过程中探索奖励难以确定的缺陷。本发明在强化学习奖励的设定上,采用命中奖励、嵌入奖励和规则奖励相结合的方式,使智能体在探索学习的过程中充分利用逻辑规则作为引导,有效提高模型的学习效率和正确率。对于单步奖励的设定,引入衰减因子以区分不同路径的重要程度。通过实验结果分析,本发明提出的改进方法能够有效提升知识图谱推理任务的准确率。
本发明授权基于逻辑规则与强化学习的知识图谱推理方法在权利要求书中公布了:1.基于逻辑规则与强化学习的知识图谱推理方法,其特征在于:包括以下步骤: 第一步,强化学习状态建模: 1.1知识图谱三元组嵌入表示: 将原始三元组数据输入嵌入方法中进行表示学习,利用打分函数公式1将其转化为向量表示形式, 其中表示原始三元组中头实体的嵌入表示,表示原始三元组中尾实体的嵌入表示,是依赖于的一个关系参数,和分别是和堆叠而成的二维空间上的重构向量,表示卷积操作,表示卷积层的过滤器,方法利用重构向量和作为卷积层的输入,作为卷积核,计算特征张量,之后将特征张量利用变换函数重构成向量,利用矩阵进行线性变换,并通过内积匹配尾实体的嵌入, 之后,将分数进行归一化处理,,其中表示函数,嵌入表示方法利用公式2的损失函数优化参数, 其中,表示标签向量,若实体之间存在关系为1,不存在则为0, 1.2历史路径信息表示: 将探索的路径长度规定为T步,第步的动作根据上述1.1步的关系向量和实体向量进行向量化表示为,利用公式3的长短期记忆网络LongShortTermMemoryNetwork,LSTM存储历史路径信息, 1.3强化学习状态组成: 对上述1.1步实体和关系嵌入表示和1.2步的历史信息进行组合,利用公式4完成强化学习第步的状态的构建, 其中,表示要查询的关系的嵌入表示,表示第步到达实体的嵌入表示,表示第步探索的路径历史信息, 至此完成强化学习状态的构建,得到在第步的状态, 第二步,将状态输入到强化学习策略网络中,用策略网络引导智能体在动作空间中进行探索,得到下一步动作的概率分布,采用随机抽样选择下一步的动作,进而进行下一步的路径探索: 将上述第一步得到的在第步的状态输入到强化学习策略网络中,利用公式5得到在步时需要采用动作的概率分布, 其中,表示在状态下,动作空间中的所有动作的概率分布,表示函数,和表示两个线性神经网络,表示激活函数,动作空间用于在状态下选择下一步需要采用的动作,动作空间的向量表示由动作空间内所有的动作堆叠组成,其中,表示实体和关系向量的维度,之后,采用随机采样的方法,在动作空间中选择一个动作进行状态的转移,从而进行下一步的转移, 第三步,利用逻辑规则优化强化学习奖励: 对上述第二步进行探索T步之后,利用嵌入表示分数和逻辑规则置信度优化强化学习奖励,首先,判断得到的结果是否为期望的目标结果,如果与期望结果一致,则奖励为1,否则,根据推理过程和结果对于奖励进行优化,过程为:首先,对于搜索的结果根据公式1进行嵌入表示打分,得到嵌入奖励,之后,将推理路径与规则挖掘器得到的规则进行比对,以规则挖掘器得到的规则的置信度作为奖励,得到规则奖励,最后,将嵌入奖励与规则奖励进行加权结合,得到最终的奖励, 第四步,利用奖励优化策略网络: 对上述第三步得到的奖励进行衰减处理,进而第步中得到的单步奖励可以表示为,取0.99,之后用公式6进行梯度下降优化策略网络参数, 其中,表示策略网络的参数,表示在网络参数为时,模型可以得到的奖励期望,表示学习率,表示状态价值函数,即从当前状态出发可以获得奖励的期望,状态价值函数公式为,其中,表示两个线性神经网络,表示激活函数, 第五步,结合策略网络采用束搜索方法进行动作选择,实现知识图谱推理: 将上述第一步输入的知识图谱三元组数据,取70%作为训练集,30%作为测试集,将训练集经过上述第一步到第四步的处理后,得到训练好的策略网络,再将测试集的数据经过上述第一步的处理后得到强化学习状态并输入到策略网络中进行预测,对于每一次策略网络输出的结果采用束搜索方法选择概率最高的动作,直到达到训练前规定的步数,由此实现知识图谱的推理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河北工业大学,其通讯地址为:300450 天津市北辰区双口镇西平道5340号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励