Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院计算技术研究所郭嘉丰获国家专利权

中国科学院计算技术研究所郭嘉丰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院计算技术研究所申请的专利基于标签序列一致性建模的事件论元检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116595407B

龙图腾网通过国家知识产权局官网在2026-01-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310388963.2,技术领域涉及:G06F40/289;该发明授权基于标签序列一致性建模的事件论元检测方法及系统是由郭嘉丰;靳小龙;程学旗;官赛萍;张付俊;席鹏弼设计研发完成,并于2023-04-12向国家知识产权局提交的专利申请。

基于标签序列一致性建模的事件论元检测方法及系统在说明书摘要公布了:本发明提出一种基于标签序列一致性建模的事件论元检测方法及系统。主要包括词序列语义编码、词标签序列标注、易错标签序列生成、对比学习正则化。词序列语义编码对预处理后的词采用BERT与训练语言模型进行语义表示学习,并将事件类型信息融入表示向量中;词标签序列标注使用全连接网络来对每个词对应的标签概率分布做出预估;易错标签序列生成则是根据一定策略按照词标签序列概率分布生成易错标签序列;对比学习正则化则是基于易错标签序列和正确标签序列的对比学习构建正则化损失,提高词序列标签的一致性。

本发明授权基于标签序列一致性建模的事件论元检测方法及系统在权利要求书中公布了:1.一种基于标签序列一致性建模的事件论元检测方法,其特征在于,包括: 训练语料预处理步骤,获取已标注事件论元角色类别和事件类型的训练语料,对该训练语料中文本进行分词,并根据语言表征模型BERT的预训练词典,得到每个词在该预训练词典中的ID; 词序列语义编码步骤,将所有词ID构成的词序列输入BERT的多层翻译模型Transformer模型对子词序列进行预编码,将事件类型映射为分布式表达向量,并将其与每个词向量分别拼接并通过线性网络加以融合,得到融合事件类型信息的词语义表达向量; 词标签序列标注步骤,将词语义表达向量输入至全连接网络,得到每个词的语义表达向量分别属于各事件论元角色类别的概率分布,选择该概率分布中概率最高的事件论元角色类别作为预测论元角色类别; 易错标签序列生成步骤,根据每个词的该预测论元角色类别和已标注的事件论元角色类别,将该词序列划分为预测正确的正确标签序列和预测发生错误的错误标签序列; 对比学习正则化步骤,对该错误标签序列和该正确标签序列进行表示学习,将其损失作为正则化项对该全连接网络和该Transformer模型进行训练; 事件论元检测步骤,将待检测事件论元的文本及其事件类型依次输入训练完成后的该Transformer模型和该全连接网络,得到该文本的论元角色类别; 该词序列语义编码步骤包括: 通过语料预训练的BERT语言模型对输入字、词序列T进行预编码,获得更为丰富的动态 语义表达; 对输入事件类型E的语义信息进行单独编码,使用参数矩阵V作为各事件类型的表达向 量参与模型训练,将事件类型对应的向量与BERT的输出向量拼接得到中间表达,通过全连接网络对两者的信息进行交互融合,得到最终每个词的融 合事件信息的上下文向量表示,整体计算过程如下: VE表示参数矩阵V中事件类型E对应的向量表达||为向量拼接操作,W1、W2、b1、b2为线性变换矩阵和对应的偏置项;ReLU为激活函数; 该词标签序列标注步骤包括: 对于每个词融合事件信息的上下文表示,使用线性层预测其标签概率分布,表示第i个词的标签概率分布向量: 其中分别为线性变换矩阵和对应的偏置项,变换后得到一个3维向量,属于 {0,1,2}分别表示标签O、B、I对应的索引,表示第i个词被标注为第k个标签的概率;输入 文本对应的局部预测标签},其中表示 第i个词对应的软标签,是一个长度为3的向量; 计算优化序列标注部分对应的损交叉熵失函数,作为序列标注任务对应的损失函 数: 其中表示第i个词在第j个位置对应的真实标签; 该易错标签序列生成步骤包括: 标准的正确标签序列转换为;其中为第i个词对应 的正确标签; 当局部预测标签通过贪心解码得到硬标签序列与正确标签序列不一致 时,将该序列作为生成的错误标签负样本,负样本集合;根据序列标注模块 得到的局部预测软标签P,贪心解码的过程包括: 当预测结果与正确结果一致时,需要进行特定的负样本生成流程,对于当前事件中第k 个论元指称,选取其论元指称内部词中序列标注错误的词,表示该 词在文本中的位置,然后将其对应的正确标签替换为错误标签,由此构成一个错误标签序 列负样本,负样本集合为};具体负采样过程如下: 其中,onehot为将整数索引转化为独热编码向量的操作,mid为取中位数操作; 该对比学习正则化步骤包括: 对各标签序列进行表示学习,其中;对BIO 标签,设置待训练的标签参数矩阵,其中每一列对应BIO中每种标签的特征向量,根据该 矩阵,能够得到各标签序列中每个位置标签的表示: 得到序列中的标签表达Q后,使用一个线性层将标签与词向量的信息进行融合,得到融 合标签信息的词语义表达: 其中,,,为线性变换矩阵及其对应偏置项,||为向量拼接操作; 使用Transformer对U进行序列表示学习得到每个词及标签对应的表示向量,将输出各位置向量的均值作为该序列最终的向量表示: 使用三元间隔损失函数作为构建对比任务的损失函数: 其中margin为超参数,其含义意为表达空间中预测标签序列位置到错误序列位置的距 离与其到正确序列位置的距离之差应不小于margin;使用序列标注任务和对比学习正则化 任务两者的损失函数联合训练,其中为超参数: 该事件论元检测步骤包括: 使用贪心解码方法进行标签标注,将得到的作为最终标签序列,并将标签序列 中以B为开头且其后紧接连续若干个I标签对应的词序列作为解码得出的各个论元。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院计算技术研究所,其通讯地址为:100080 北京市海淀区中关村科学院南路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。