Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京智谱华章科技有限公司姜鹏获国家专利权

北京智谱华章科技有限公司姜鹏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京智谱华章科技有限公司申请的专利一种学术关键词批量识别系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115392244B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211119575.6,技术领域涉及:G06F40/289;该发明授权一种学术关键词批量识别系统是由姜鹏;仇瑜;高云鹏;刘德兵设计研发完成,并于2022-09-15向国家知识产权局提交的专利申请。

一种学术关键词批量识别系统在说明书摘要公布了:本发明涉及学术关键词批量识别系统,属于自然语言处理技术领域;包括分词模块、关键词粗排批处理模块和关键词精排批处理模块;分词模块用于构建学术词表并基于学术词表对所有待识别论文的标题和摘要进行分词,得到每个论文的召回关键词;关键词粗排批处理模块用于对所有待识别论文的召回关键词进行批量排序处理,得到每个论文对应的候选关键词;关键词精排批处理模块用于对所有待识别论文对应的候选关键词及对应的标题和摘要的语义相似度进行批量排序处理,基于语义相似度得到每个论文对应的学术关键词。本发明解决了现有的关键词提取系统无法进行批量处理,效率低,且存在噪音词的问题。

本发明授权一种学术关键词批量识别系统在权利要求书中公布了:1.一种学术关键词批量识别系统,其特征在于,包括分词模块、关键词粗排批处理模块和关键词精排批处理模块; 所述分词模块包括词表构建单元和关键词召回单元;所述词表构建单元用于对所有待识别论文的标题和摘要进行词频统计并计算成词概率,根据所述成词概率构建得到学术词表;所述关键词召回单元用于基于所述学术词表对所有待识别论文的标题和摘要进行分词,得到每个论文的召回关键词;构建所述学术词表包括:构建论文语料库,所述论文语料库中包括所有待识别论文的标题及对应的摘要;对论文语料库中的论文标题和摘要进行词频统计;基于N-Gram词频、点互信息、左右熵及时间影响因子计算每个词的成词概率,选择成词概率大于概率阈值的词构建得到学术词表;所述时间影响因子基于包含词的论文发表时间与词首次出现时间的平均时间跨度计算得到,计算公式为: 其中,n表示包含词x的论文数量,ti表示包含词x的第i篇论文的发表年份,tv表示词x在论文语料库中首次出现的论文发表的时间; 通过下述公式计算成词概率: 其中,|D|表示论文总数,|{d∈D:x∈d}|表示论文语料库中包含词x的论文数,表示逆文档频率;freqx表示词x的N-Gram词频,即词x在论文语料库中出现的频率,PMIx表示词x的点互信息,HxlXl表示左邻字信息熵,HxrXr表示右邻字信息熵,Xl表示词x的所有左邻字集合,Xr表示词x的所有右邻字集合; 所述关键词粗排批处理模块用于根据召回关键词的统计得分对所有待识别论文的召回关键词进行批量排序处理,得到每个论文对应的候选关键词; 所述关键词精排批处理模块用于对所有待识别论文对应的所述候选关键词及对应的标题和摘要的语义相似度进行批量排序处理,基于所述语义相似度得到每个论文对应的学术关键词;所述语义相似度通过预先训练的深度语义模型计算得到。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京智谱华章科技有限公司,其通讯地址为:100084 北京市海淀区中关村东路1号院8号楼五层B501;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。