中国电子科技集团公司第十研究所王侃获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第十研究所申请的专利基于多源数据信息的知识图谱构建方法、设备及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116244448B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310165820.5,技术领域涉及:G06N5/022;该发明授权基于多源数据信息的知识图谱构建方法、设备及系统是由王侃;宋丹;刘万里;孙文;刘禄波;吴超蓉;刘鑫;韩迎萍;李晨雨;谷裕;王媛媛;王爽设计研发完成,并于2023-02-24向国家知识产权局提交的专利申请。
本基于多源数据信息的知识图谱构建方法、设备及系统在说明书摘要公布了:本发明公开了一种基于多源数据信息的知识图谱构建方法、设备及系统,属于人工智能技术领域,包括步骤:S1,数据获取;S2,信息抽取;S3,知识融合;S4,知识存储。本发明以在获取的多源数据信息中实体冗余繁杂、事件类型多样的情况下,提升了知识融合准确率,完成知识图谱的构建。
本发明授权基于多源数据信息的知识图谱构建方法、设备及系统在权利要求书中公布了:1.一种基于多源数据信息的知识图谱构建方法,其特征在于,包括以下步骤: S1,数据获取; S2,信息抽取; S3,知识融合,将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,包括指代消解、实体消歧、实体对齐;其中,指代消解用于针对指代不明的情况,不同地方出现的代词到底指向前文中出现过的哪个实体的情况采用SpanBERT模型进行处理;利用实体消歧针对一词多义现象,根据当前的语境,联系上下文信息,准确找到对应实体,建立实体链接;利用实体对齐针对多个实体具有不同的名称,但实际是同一种事物,会出现实体的重复和冗余的情况,利用Levenshtein距离和jacard距离来进行实体对齐,相似度大于某设定的阈值则判断为相似实体; S4,知识存储; 在步骤S1中,所述数据获取,包括子步骤: S11,判断网页是静态网页还是动态网页,静态网页全部的内容都在源代码中,而动态网页则不全是; S12,在区分好网页类型后,判断网页请求方式,分为‘get’和‘post’两种方式;判断选取针对不同网页类型的相应爬虫算法获取数据;将获取到的数据,通过python文件存储代码,将获取到的文本,图像,视频数据进行存储,初步建立数据库; S13,通过Python中的re库来进行正则表达式的书写,通过标点符号作为正则表达式判断依据进行分句操作; 在步骤S2中,所述信息抽取,包括子步骤:使用N-Gram模型来进行信息抽取,通过检测文本中报告的事件是否存在,如果存在则从自然语言文本中进行事件元素的抽取,构造事件三元组的成词词性模板,最后以结构化的方式展现出来; 在步骤S3中,所述指代消解,具体包括子步骤: S3a,将输入数据x通过词嵌入Embbeding模块,进行字节编码,段和位置信息的词嵌入,将所有x映射到一个公共特征空间; S3b,将词嵌入后的数据送入到SpanBERT预训练模型中; S3c,根据指代消解任务,对模型进行微调Fine-Tuning,将原模型中使用CLS作为输出,改为代词和对应实体字节编码的输出,添加输出层,输出代词和实际对应的具体实体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第十研究所,其通讯地址为:610000 四川省成都市金牛区茶店子东街48号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励