Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京理工大学史树敏获国家专利权

北京理工大学史树敏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京理工大学申请的专利一种融入词边界信息的中文嵌套命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114386417B

龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111620499.2,技术领域涉及:G06F40/295;该发明授权一种融入词边界信息的中文嵌套命名实体识别方法是由史树敏;杨志坤;黄河燕设计研发完成,并于2021-12-28向国家知识产权局提交的专利申请。

一种融入词边界信息的中文嵌套命名实体识别方法在说明书摘要公布了:本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性,有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。

本发明授权一种融入词边界信息的中文嵌套命名实体识别方法在权利要求书中公布了:1.一种融入词边界信息的中文嵌套命名实体识别方法,其特征在于,包括以下步骤: 步骤1:获取中文嵌套实体识别语料库,以及外部词典和开源的中文静态词向量; 步骤2:对于语料中的每一个文本序列s,通过贪心算法得到匹配词M; 其中,文本序列s指待抽取嵌套实体的一个中文句子,由连续的字构成,符号表示为:s={w1,w2,...,wn},其中n表示句子的长度,wi表示句子中第i个字; 贪心算法的计算方式为: 首先,遍历文本序列中的每个字wi,在外部词典D中查找以wi为开始字且与wi之后的字能够一一对应的尽可能长的所有词汇,并记录每个匹配词对应原始文本的开始索引和结束索引位置; 其中,外部词典D是指独立于训练语料的词典文件,是中文常见词的集合,每个词由一个或多个字组成,符号表示为:D={d1,d2,...,dD},|D|表示词典文件中的单词数量,di表示词典中的第i个词汇; 文本匹配词M,是指文本序列与外部词典按照贪心算法匹配,根据文本匹配到的词典中的单词的集合为文本匹配词;文本序列s对应的匹配词表示为:M={m1,...,mK},其中K表示一个文本序列中匹配出来的词汇个数; 然后,将{m1,...,mK}的开始索引记为posM,start={posM,s1,...,posM,sK},将结束索引记为posM,end={posM,e1,...,posM,eK}; {w1,w2,...,wn}的开始索引和结束索引,均是从1开始递增,分别记为poss,start={1,2,...,n}、poss,end={1,2,...,n}; 步骤3:通过开始索引posM,start、结束索引posM,end、poss,start、poss,end计算每两个位置之间的相对位置向量Rij,如下所示: 其中,posstart,i表示posM,start或poss,start中第i个的位置索引,posend,i表示posM,end或poss,end中第i个的位置索引,posstart,j、posend,j的定义同理,以此类推; 通过体现了字、匹配词之间的边界位置信息,表示利用位置向量PE得到索引为的位置向量,其携带边界信息的相对位置编码;Wr为模型需要学习的参数,ReLU为深度学习中常用的激活函数; 位置向量PE指对于文本序列中每个字的位置索引pos对应的向量表示,通过三角函数计算得到,如式6、式7所示: 其中,dmodel表示位置向量的维度,PEpos,2i表示第pos索引位置向量的第i维度上值; 步骤4:从中文静态词向量E中得到文本序列s和匹配词M对应的向量表示E, 中文静态词向量E指根据大规模语料预训练得到开源的中文字、词的静态向量表示,其中,静态字向量表示为Ew,静态词向量表示为Em; 步骤5:使用两层Transformer-XL的编码结构,对步骤4得到的字词向量进行编码计算,再计算Attention阶段融合相对位置,得到带有词边界信息的每个字的向量表示; 具体地,方法如下: sub_layer_output=LayerNormx+SubLayerx8 AttA,V=softmaxAV9 其中,sublayer_output表示Transformer-XL的子层输出,LayerNorm表示层级正则化计算,SubLayer表示Transformer-XL的子层结构,Att表示自注意力计算,A表示自注意力计算的注意力权重矩阵,aij表示A矩阵中第i行第j列的元素,V表示Transformer-XL前一子层的输出经过线性变换的结果,softmax、ReLU均为激活函数,FFN表示前馈神经网络,xi、xj表示i、j索引位置的字符,表示xi、xj在中文静态词向量E中的向量表示,Wk,E、Wk,R均表示模型待学习的不同参数矩阵,其中是参数矩阵W1、W2、Wq的转置矩阵,b1、b2均表示模型待学习的不同参数列向量; 在每个Transformer-XL层中都包含两个子层,最后一层的输出为融合词边界信息的向量表示,记为xboundary,i,式8为子层计算的基本逻辑,x表示子层的输入向量,第一子层式9是式8的输入,第二子层式10是式8的输入,式9中的权重矩阵A的每位元素计算为式10,当前Transformer-XL层的输入为前一层的输出,初始化输出即为E; 步骤6:利用预训练语言模型LMBERT得到每个字带有语义信息的向量表示,将字wi的语义信息的向量表示记为xBERT,i; 语义信息,指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示; 步骤7:按照式12对两种向量表示进行拼接,得到最终字的向量表示xi; xi=[xBERT,i;xboundary,i]12 步骤8:利用双仿射分类器,计算每个开始索引位置为i、结束位置索引为j的文本片段spanij对于实体类型为c的概率pi,j,c: pi,j,c=softmaxscoreij16 其中,FFNNs、FFNNe表示两个维度相同的独立线性映射层,分别表示由步骤7得到的文本片段spanij的开始字符以及结束字符的向量表示,softmax表示常见的归一化层,Um、Wm表示模型的训练参数矩阵,bm表示模型的训练参数列向量; 实体类型c指语料库中标注出来的实体类型的集合,符号表示为c={O,c1,c2,...,c|C|},其中,O类型表示非实体类型,其余为预定义实体类型; 式13至式15是双仿射分类器的计算过程;首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息hstarti、实体结尾位置信息的向量表示hendj,经过双仿射分类器计算得到一个文本片段spani,j在不同实体类型上的得分scoreij,将分数经过softmax层转化成最终的实体分类的概率pi,j,c,模型选择概率最大的类型作为spani,j的实体类型预测结果; 使用模型预测结果与语料库中的标注结果的交叉熵,作为模型训练的损失函数,通过不断优化损失函数值来训练调整模型参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。