南京大学张建兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种快速构建重叠关系抽取文本数据的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114707504B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210208405.9,技术领域涉及:G06F40/289;该发明授权一种快速构建重叠关系抽取文本数据的方法是由张建兵;王颖;黄书剑;戴新宇;陈家骏设计研发完成,并于2022-03-04向国家知识产权局提交的专利申请。
本一种快速构建重叠关系抽取文本数据的方法在说明书摘要公布了:本发明提供了一种快速构建重叠关系抽取文本数据的方法,包括:步骤1,构建领域词典;步骤2,获得文本;步骤3,分句并组装数据;步骤4,将锚文本加入候选实体集;步骤5,提取文本中的非锚文本实体,同时调整样本的数据分布;步骤6,查询实体在维基知识图谱中的实体编号,所述编号作为实体的唯一标识;步骤7,查询实体之间的关系,并用所述关系对分句进行关系标注。本发明重新精确定义了重叠关系数据的类型,提供了一个可以进行研究的数据集,为重叠关系研究做好了数据铺垫。
本发明授权一种快速构建重叠关系抽取文本数据的方法在权利要求书中公布了:1.一种快速构建重叠关系抽取文本数据的方法,其特征在于,包括以下步骤: 步骤1,构建领域词典; 步骤2,获得文本; 步骤3,分句并组装数据; 步骤3包括:设定句法模板,截取步骤2得到的基础语料中的描述部分和正文文本的第一句话作为候选文本,用词性标注工具对文本进行词性打标,句法模板匹配度高的则判定是有效文本,通过如下公式计算句法模板匹配度D: 其中A0、A1分别为中心词在句法模板中的开始位置和结束位置,D0、D1分别为文本中词条名出现的开始位置和结束位置,θ为头实体设定比例值,n为实体词的数量,ei为第i个实体的类别,e′i为句法模板中第i个实体的类别; 步骤4,将锚文本加入候选实体集;锚文本是维基语料中以超链接的形式标注好的词语序列,这部分词语序列直接作为候选实体; 步骤5,提取文本中的非锚文本实体,同时调整样本的数据分布;非锚文本实体,指的是句子中在锚文本之外的词语序列中可能存在的实体, 步骤6,查询实体在维基知识图谱中的实体编号,所述编号作为实体的唯一标识; 步骤7,查询实体之间的关系,并用所述关系对分句进行关系标注。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号南京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励