Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京中科智加科技有限公司迟雨桐获国家专利权

北京中科智加科技有限公司迟雨桐获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京中科智加科技有限公司申请的专利一种管道式多事件抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304017B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211735183.2,技术领域涉及:G06F16/353;该发明授权一种管道式多事件抽取方法是由迟雨桐;冯少辉;张建业设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。

一种管道式多事件抽取方法在说明书摘要公布了:本发明涉及一种管道式多事件抽取方法,属于自然语言处理技术领域,解决了现有的事件抽取方法在语料中存在较多事件或多事件重叠的情况下容易出现识别缺漏、事件要素无法匹配,导致准确率低的问题。通过使用提示信息prompt以层层递进的方式抽取事件,将所有事件类型作为提示信息抽取对应的触发词,然后将触发词和待抽取的要素角色按步依次加入提示抽取事件要素,待该事件类型包含的所有事件要素抽取完毕,将最后一步的提示信息与抽取结果组合得到完整的事件;这种管道式的抽取方法为每个可能的事件都提供了一条单独的抽取路径,重点解决了多事件、重叠多事件抽取时识别缺漏、事件要素无法匹配的问题,大大提高了抽取准确率。

本发明授权一种管道式多事件抽取方法在权利要求书中公布了:1.一种管道式多事件抽取方法,其特征在于,包括如下步骤: 获取待抽取文本text; 基于待抽取文本text、事件特征数据集合构建第一步预测样本集合Dstep_1,将Dstep_1输入模型Mtrained,得到第一步预测结果;其中,所述模型Mtrained基于由原始数据集构建得到的包括事件类型正样本数据集D+1、事件要素正样本数据集D+2、事件类型全负样本数据集D-1和事件要素随机负样本数据集D-2的模型训练数据集Dall对T5模型进行训练获得; 基于待抽取文本text,事件特征数据集合和前一步模型Mtrained的预测结果构建提示信息prompt,以text+prompt结构构建下一步模型的预测样本集合,实现按步依次构建第2~n+1步预测样本集合Dstep_2~Dstep_n+1;将Dstep_2~Dstep_n+1按步依次输入模型Mtrained中分别获得第2~n+1步模型Mtrain的预测结果;n为第一步预测结果所对应的事件类型的事件角色数; 基于第n+1步预测样本集合Dstep_n+1和第n+1步模型Mtrained的预测结果,整合得到最终的抽取结果; 其中,所述模型Mtrained通过以下步骤训练得到: 获取已标注的文本数据作为原始数据集; 基于原始数据集获得事件特征数据集合,并进一步构建事件类型正样本数据集D+1、事件要素正样本数据集D+2、事件类型全负样本数据集D-1和事件要素随机负样本数据集D-2,最终得到模型训练数据集Dall; 将模型训练数据集Dall按一定比例划分得到训练集Dtrain、验证集Deval和测试集Dtest; 使用训练数据集Dall对T5模型进行训练,得到训练好的模型Mtrained; 所述事件特征数据集合包括: 事件类型与所有事件角色的对应关系schema、事件类型与单个事件角色的对应集合Stype_role、所有事件类型集合Stype、所有触发词集合Strigger和所有事件要素集合Sargument;其中schema记录了原始数据集中所有事件类型和其分别对应的所有事件角色;Stype_role根据schema得出,包括schema中每个事件的事件类型和所有事件角色的两两组合,以及该事件角色在schema中属于第几事件角色;Stype记录了所有事件类型;Strigger记录了原始数据集中出现的所有触发词;Sargument记录了原始数据集中包含的所有事件要素; 所述模型训练数据集Dall,通过以下步骤构建得到: 对原始数据集的标注信息进行汇总整理,获得事件类型与所有事件角色的对应关系schema、事件类型与单个事件角色的对应集合Stype_role以及所有事件类型集合Stype三种事件特征数据集合; 使用原始数据集和数据集schema构建事件类型正样本数据集D+1和事件要素正样本数据集D+2,以及原始数据集中出现的所有触发词集合Strigger和所有事件要素集合Sargument两种事件特征数据集合; 使用事件类型正样本数据集D+1和事件类型数据集Stype构造事件类型全负样本数据集D-1; 使用事件要素正样本数据集D+2、触发词集合Strigger、事件要素集合Sargument和事件类型与单个事件角色的对应集合Stype_role构建事件要素随机负样本数据集D-2; 将D+1、D+2、D-1、D-2混合打乱,最终得到模型训练数据集Dall; 所述事件类型正样本数据集D+1和事件要素正样本数据集D+2,通过以下步骤构建得到: A1.提取原始数据集文本数据text_p所包含的某一事件对应的事件类型etype,触发词wtrigger,事件角色erole_1~erole_n,对应的事件要素warg_1~warg_n;构建该事件的事件类型正样本的输入为text_p+etype+“触发词”,输出为wtrigger;构建该事件的事件要素正样本的输入为text_p+promptarg,输出为warg_1~warg_n;其中,事件要素提示promptarg用下式获得: ; A2.对文本数据text_p中的每个事件使用A1中方法构建事件类型正样本和事件要素正样本,得到事件类型正样本数据集D+1和事件要素正样本数据集D+2; 所述事件类型全负样本数据集D-1通过以下步骤构建得到: B1.将某一事件类型正样本的etype依次换成事件类型数据集Stype中的该事件的其他事件类型,目标输出都为空,得到该事件的事件类型全负样本; B2.对事件类型正样本数据集D+1中所有事件都使用B1的方法,构建得到事件类型全负样本数据集D-1; 所述事件要素随机负样本数据集D-2通过以下步骤构建得到: 1在D+2中找出某一事件所有事件要素正样本,从事件要素正样本中找出所有事件要素提示promptarg,组成集合Sprompt; 2从Strigger中随机选取一个触发词,得到wtrigger_random;从Stype_role中随机选取一个元素,得到一个事件类型etype_random,一个事件角色erole_random以及该事件角色所处位置p; 3从事件要素集合Sargument中随机选取p个事件要素,得到warg_r_1~warg_r_p,按如下格式组合得到事件要素随机提示promptarg_random; promptarg_random=etype_random+wtrigger_random+warg_r_1+…+warg_r_p+erole_random 4判断promptarg_random是否存在于Sprompt中,若存在则重复步骤2、3、4,若不存在则使用promptarg_random构建负样本,并将promptarg_random加入Sprompt; 5重复步骤1~4直至得到5n个事件要素随机负样本; 6对D+2中所有事件样本都使用1~5中方法构建得到事件要素随机负样本数据集D-2; 所述第一步预测样本集合Dstep_1和所述第一步预测结果以及所述第2~n+1步预测样本集合Dstep_2~Dstep_n+1和第2~n+1步模型Mtrain的预测结果,通过以下步骤获得: 1依次遍历事件特征数据集合中的Stype中的所有事件类型etype,对于任一事件类型,向第一步预测样本集Dstep1中加入样本:text++“触发词”;遍历结束后,Dstep1中的样本数为m,m为事件类型数,k∈[1,m]; 2将第一步预测样本集Dstep1输入Mtrained,当某条样本有输出结果时,其输出结果为待抽取文本text中事件类型的触发词;从事件特征数据集合中的schema中查找对应的第一事件角色,并以格式text+prompt_2将输出结果加入下一步预测样本集Dstep2;其中prompt_2=++; 3将Dstep2输入Mtrained,预测各触发词对应的第一事件角色的事件要素,记为;通过查看schema判断该事件类型是否有其他事件角色,若没有进行整合识别结果步骤; 若该事件类型在schema中存在其他事件角色~,则该事件类型的其他事件角色~按步骤依次构建下一步预测样本集Dstep_3~Dstep_n+1,并将Dstep_3~Dstep_n+1按步依次输入模型Mtrained进行事件要素~的抽取,直到包含的全部事件角色对应的事件要素都被模型Mtrained抽取,进行整合识别结果步骤; 所述下一步预测样本集Dstep_3~Dstep_n+1通过以下步骤构建得到: 以格式text+prompt_X构建样本加入下一步预测样本集Dstep_x;其中prompt_x=+++,为prompt_x-1基础上将替换为,并在最后加入;其中x∈[3,n+1],n为schema中该事件类型所包含的事件角色数; 提示信息prompt中所用到的事件要素包括~,其确定方法如下: ; 其中j∈[1,n-1],n为schema中该事件类型所包含的事件角色数;若中包含多个预测结果,需按照本步中的格式将多个结果分开构建预测样本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科智加科技有限公司,其通讯地址为:100083 北京市海淀区学院路51号10层1010、1011室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。