燕山大学宫继兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉燕山大学申请的专利基于预训练模型与决策树的增量式论文同名作者消歧方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115329072B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210906649.4,技术领域涉及:G06F16/355;该发明授权基于预训练模型与决策树的增量式论文同名作者消歧方法是由宫继兵;郑嘉壮;房小涵;寇肖萌;赵祎;丛方鹏设计研发完成,并于2022-07-29向国家知识产权局提交的专利申请。
本基于预训练模型与决策树的增量式论文同名作者消歧方法在说明书摘要公布了:本发明公开了基于预训练模型与决策树的增量式论文同名作者消歧方法,属于神经网络与作者同名消歧技术领域,所述方法利用人工定义特征与XLNet提取特征相结合的特征提取,首先使用人工定义特征提取论文中作者名称、机构等字段的信息,使用XLNet提取论文标题、摘要等字段的信息,之后利用XGBoost与提取出的特征来预测每篇论文应该归属的正确作者,对于该步未能分配出的论文进行凝聚式聚类的后处理,获取主聚类作为新的作者论文集,预测结果使用准确率、召回率以及F1值。本发明能够对论文的信息进行更加充分地提取,具有较强的可解释性,具有较强的鲁棒性,在处理噪点较多以及论文信息较为齐全的数据上有较优秀的表现。
本发明授权基于预训练模型与决策树的增量式论文同名作者消歧方法在权利要求书中公布了:1.一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:包括以下步骤: S1,构建数据集,对作者名称、候选集ID、论文ID、论文信息进行数据预处理; S2,使用人工定义规则的方式提取不含语义信息字段的第一特征,使用XLNet预训练模型提取含有语义信息字段的第二特征,将第一特征和第二特征合并到一起得到所需特征向量; S3,将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率,并据此判断是否将待分配论文分配给该候选集; 具体包括: 3.1,将步骤2得到的特征输入到XGBoost决策树中,确定待分配论文是分配给相应作者还是不进行分配; 假设与当前待分配论文相对应的候选集共有i篇,那么通过步骤2中会得到i个特征向量,将这些特征向量输入到XGBoost中,能够得到对应的i个得分score,0score1,将概率最高的那个候选集记作最可能的候选集,最高得分记作score_max; 3.2,对于较为简单的情况使用阈值进行判断,一般阈值选取0.9;加入score_max≥0.9,那么将待分配论文分配给score_max对应的候选集,否则将该待分配论文记作未分配论文,在对所有待分配论文进行操作后,将所有未分配论文进行汇总,并将该集合记作未分配论文集; 3.3,将每个未分配论文看作一个簇,使用步骤2中的方法,将这些簇进行两两比较,能够得到若干个特征向量; 3.4,将3.3中得到的特征向量输入到XGBoost或者训练好的MLP中进行概率预测,将概率最高的两个簇看作最近的两个簇,将这两个簇合并到一起,当最大簇中的论文数量大于5时,认为这是主聚簇,停止层次聚类; 3.5,将未分配候选集中剩余的论文向3.4中得到的主聚簇进行3.1和3.2中提到的增量消岐操作,分配失败的返回未分配候选集,成功的直接加入主聚簇,将最终增量后的主聚簇作为一个新的候选集,此时完成一整轮增量消岐操作; S4、构建基于凝聚式层次聚类的增量消岐后处理框架,对增量S3中未能分配出去的论文进行后处理操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人燕山大学,其通讯地址为:066004 河北省秦皇岛市海港区河北大街438号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励