重庆邮电大学胡峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种用于病理文本命名的多粒度实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115587595B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211380333.2,技术领域涉及:G06F40/295;该发明授权一种用于病理文本命名的多粒度实体识别方法是由胡峰;何晓莲;邓维斌;刘群;张清华;杨新瑞;林兴设计研发完成,并于2022-11-03向国家知识产权局提交的专利申请。
本一种用于病理文本命名的多粒度实体识别方法在说明书摘要公布了:本发明属于自然语言处理技术领域,具体涉及一种用于病理文本命名的多粒度实体识别方法,该方法包括:获取病理文本信息,对病理文本按照字粒度、词粒度进行切分;对切分后的文本进行随机mask掩码和向量初始化,使用两个参数共享的Bert模型对随机mask掩码和向量初始化后的文本进行编码;给每个类别的每个实体预设中心代替词和中心代替字;使用KLloss和CEloss对字粒度和词粒度构造损失函数,CEloss针对替换后的字粒度计算损失进行优化,KEloss对替换后词粒度计算损失进行优化,得到实体识别结果。本发明通过字粒度,词粒度构建模板进行预测,可对病理文本的实体进行精准的识别抽取,实体识别效果较好。
本发明授权一种用于病理文本命名的多粒度实体识别方法在权利要求书中公布了:1.一种用于病理文本命名的多粒度实体识别方法,其特征在于,包括: S1:获取病理文本信息,对病理文本按照字粒度、词粒度进行切分; S2:对切分后的文本进行随机mask掩码和向量初始化,使用两个参数共享的Bert模型对随机mask掩码和向量初始化后的文本进行编码,得到病理文本数据的字符编码序列; S3:给每个类别的每个实体预设中心代替词和中心代替字; 给每个类别的每个实体预设中心代替词和中心代替字,表示为: 其中,zc表示实体词的中心代替词或中心代替字,表示实体词或字向量wi到其他实体词或字向量的欧式距离之和,Wc表示类别c的实体词或字集合,argmin表示最小值时wi的取值,wik表示第i个实体词或字向量的第k维度的向量值,wjk表示第j个实体词或字向量的第k维度的向量值,n表示实体词或字向量的维度; S4:对字符编码序列进行掩码字词的预测,掩码的实体字替换为对应类别的预设中心替代字,掩码的实体词替换为对应类别的预设中心替代词,非实体的字词替换为原始字词; S5:使用KEloss和CEloss对字粒度和词粒度构造损失函数,CEloss针对替换后的字粒度计算损失进行优化,KEloss对替换后词粒度计算损失进行优化,得到优化后的实体识别结果; 使用KEloss和CEloss对字粒度和词粒度构造的联合损失函数,包括: CEloss针对字粒度计算损失进行优化: KEloss对词粒度计算损失进行优化: 其中,CELoss[MASK]表示字粒度掩码的损失函数,py|x表示掩码位置可能的概率分布,py|x=p[MASK]=Zc|V',[MASK]表示对mask掩码位置进行预测,Zc表示实体字的代替字,V'表示非实体被mask掉的原文字,y表示标签,X表示样本集合,x表示原始实体字,|X|表示样本的数量,KELoss表示词粒度散度损失函数,r表示中心替代词的首字向量与尾字向量相减,dh,t表示正例词的首字向量与尾字向量相减,dh,t=||h-t||2,n表示负例的词的个数,h表示正例词的第一个字,t表示正例词的最后一个字,hi'表示第i个负例词的第一个字,ti'表示第i个负例词的最后一个字。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。