北京林业大学蒋东辰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京林业大学申请的专利一种无监督自适应领域术语识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116701628B 。
龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310676884.1,技术领域涉及:G06F16/353;该发明授权一种无监督自适应领域术语识别方法及系统是由蒋东辰;唐溪;蒋翱远;牛颖设计研发完成,并于2023-06-08向国家知识产权局提交的专利申请。
本一种无监督自适应领域术语识别方法及系统在说明书摘要公布了:本发明涉及一种无监督自适应领域术语识别方法及系统,其方法包括:S1:对待识别文本进行预处理,得到字符串序列;S2:分词处理字符串序列,对分词结果序列的邻接汉字对进行非偶然共现判定,得到非偶然相邻的汉字对集合NCP;S3:根据独立性假设检验,得到NCP中具有强关联性的汉字对,合并汉字对所在的字符串,进而获得满足非偶然性且具有强关联性的字符串作为备选术语;S4:过滤术语备选词中的垃圾字符串,得到过滤后的备选术语;S5:基于掩码语言模型获取过滤后的备选术语的词向量;S6:对备选术语和已有术语的词向量进行密度聚类和筛选,确定备选术语的所属领域。本发明提供的方法可对专业领域文本中的专业术语进行自动识别。
本发明授权一种无监督自适应领域术语识别方法及系统在权利要求书中公布了:1.一种无监督自适应领域术语识别方法,其特征在于,包括: 步骤S1:对待识别文本进行预处理,得到字符串序列charList; 步骤S2:分词处理所述字符串序列charList,对分词结果序列的邻接汉字对进行非偶然共现判定,得到非偶然相邻的汉字对集合NCP,具体包括: 步骤S21:统计序列charList中所有相邻汉字对a,b的出现次数,并由LocalCounta,b记录;用N记录序列charList中所有相邻汉字对的出现次数,使用分词工具对charList进行分词,将分词得到词语序列保存至存储String类型元素的列表segList中; 步骤S22:依次遍历segList的每一个元素,对当前遍历的第i个字符串元素segList[i],当segList[i]与segList[i+1]均存在且均不为$时,取出segList[i]的最后一个字符ci、segList[i+1]的第一个字符cj组成相邻汉字对ci,cj,将ci,cj加入集合charPairSet; 步骤S23:创建备选相邻汉字对集合NCP,初始化为空,用于记录非偶然共现的相邻汉字对; 步骤S24:令ci,cj为charPairSet中的第一个相邻汉字对; 步骤S25:由中文汉字对频率查询系统Freq确定任意两个汉字ci,cj在相邻位置的出现概率Freqci,cj,并根据预设的概率分布计算ci,cj在文本text中出现n次的累积概率Fci,cj: 其中,,N为charList中所有相邻汉字对的出现次数;; 令非偶然性显著水平为,如果,则将相邻汉字对ci,cj加入NCP; 步骤S26:如果ci,cj不是charPairSet的最后一个相邻汉字对,令ci,cj为charPairSet的下一个相邻汉字对,转至步骤S25,否则,结束; 步骤S3:根据独立性假设检验,得到NCP中具有强关联性的汉字对,并合并所述汉字对所在的字符串,进而获得满足非偶然性且具有强关联性的汉字字符串作为备选术语candidates; 步骤S4:过滤所述术语备选词中的垃圾字符串,得到过滤后的备选术语filteredcandidates; 步骤S5:基于掩码语言模型获取备选术语filteredcandidates的词向量wordVecDict; 步骤S6:对所述备选术语和已有术语的词向量进行密度聚类和筛选,从而确定所述备选术语的所属领域,属于目标领域的备选术语确定为最终术语。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京林业大学,其通讯地址为:100083 北京市海淀区清华东路35号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励