昆明理工大学毛存礼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利基于改进多头自注意力机制的越南语实体识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115470779B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211059832.1,技术领域涉及:G06F40/279;该发明授权基于改进多头自注意力机制的越南语实体识别方法及装置是由毛存礼;唐聪;余正涛;高盛祥;黄于欣;张勇丙设计研发完成,并于2022-08-31向国家知识产权局提交的专利申请。
本基于改进多头自注意力机制的越南语实体识别方法及装置在说明书摘要公布了:本发明涉及基于改进多头自注意力机制的越南语实体识别方法及装置,属于自然语言处理技术领域。为了解决越南语实体识别未考虑依存句法知识导致效果不佳的问题,针对依存知识对实体识别任务的影响,本发明提出了一种改进多头自注意力机制的越南语实体识别方法,包括越南语实体数据标注和数据预处理、融入依存句法知识的越南语文本特征表示、基于改进多头自注意力机制的越南语实体识别模型构建以及越南语文本实体识别四个部分构成。根据这四个部分功能模块化制成基于改进多头自注意力机制的越南语实体识别装置,对输入的句子进行实体识别,本发明有效提升了越南语实体识别效果。
本发明授权基于改进多头自注意力机制的越南语实体识别方法及装置在权利要求书中公布了:1.基于改进多头自注意力机制的越南语实体识别方法,其特征在于:所述基于改进多头自注意力机制的越南语实体识别方法的具体步骤如下: Step1、越南语实体数据标注和数据预处理:采用爬虫技术和人工结合来对汉越跨语言实体链接候选实体生成以及汉越跨语言实体消歧任务数据集进行构建,对现有数据集VLSP2016使用PhoNLP来对数据进行自动标注,对网络爬取的数据进行去重、过滤特殊字符以及数据清洗处理构建数据集; Step2、融入依存句法知识的越南语文本特征表示:对输入模型的越南语各个词语进行向量化表征,其中包括通过越南语预训练语言模型PhoBERT得到的越南语各个词的向量表征以及通过查表得到的各个词的词性、组块标签以及依存关系标签的向量表征; Step3、利用基于改进多头自注意力机制的越南语实体识别模型进行识别:通过改进多头自注意力机制融入依存句法知识使模型效果得到提升,对编码并融入依存关系信息得到的向量通过BiLSTM对嵌入层输出进行特征提取,再使用词本身、词的前后相邻词、依存词和被依存词构成邻接矩阵,通过该邻接矩阵进行掩码自注意力机制后得到的结果与BiLSTM得到的特征提取结果进行残差链接后送入解码层,通过解码器CRF对输入的越南语句子中的实体进行预测,得到最后的越南语实体识别结果; 所述Step2的具体步骤为: Step2.1、词向量表征:给定由n个单词w1;w2;…;wn组成的句子作为输入,通过PhoBERT得到越南语输入中第i个词语wi的嵌入表示word,具体公式如下: ; 因为PhoBERT采用BPE对句子进行子词分割,词嵌入表示实际上是通过一个词语所切分的多个子词表示加和得来; Step2.2、多特征向量表征:为了嵌入层表示能获得更加丰富的语义信息,在得到上述词嵌入后拼接词语的词性标签嵌入pi、组块标签嵌入ci以及依存关系标签嵌入di,具体公式如下: ; Step2.3、越南语词向量、词性标签向量、组块标签以及依存关系标签向量拼接:基于Step2.1以及Step2.2获得了越南语的词语、词性、组块以及依存关系向量,为了进行模型训练,将越南语的词语、词性、组块以及依存关系向量进行拼接,得到最终的嵌入层表示ei,具体公式如下 ; 其中“∘”表示矩阵拼接操作,词性标签嵌入、组块标签嵌入依存关系标签嵌入通过随机初始化生成,随着模型训练一起训练优化; Step2.4、句法图构建:为了使各词能只关注于所需要关注的词信息,减少Self-Attention关注全局而带来的噪声信息;通过各词与依存词以及相邻词语之间的关系构建出邻接矩阵,得到最终用于进行MaskSelf-Attention的mask矩阵Dmask;具体公式如下: ; 所述Step3的具体步骤为: Step3.1、通过Step2中得到最终嵌入层表示e1:n后,把它送入BiLSTM得到提取特征信息后的特征表示ℎi,具体公式如下: ; Step3.2、在经过BiLSTM得到特征表示ℎ1:n后使用MaskSelf-Attention得到隐藏表示,其中mask矩阵为上述构成的Dmask,具体公式如下: ; Step3.3、为了不丢失词语本身的特征信息,使词语本身的特征信息与经过MaskSelf-Attention后得到的隐藏信息能够有效融合,模型通过对ℎi和ℎl加和后的向量进行归一化后再送入FFNN得到编码层最终表示ri,具体公式如下: 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励