山东省科学院情报研究所魏墨济获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东省科学院情报研究所申请的专利基于半监督学习的提问式垂直领域文献检索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116775883B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310798567.7,技术领域涉及:G06F16/353;该发明授权基于半监督学习的提问式垂直领域文献检索方法及系统是由魏墨济;赵燕清;朱世伟;李晨;李宪毅;于俊凤;李思思;徐蓓蓓设计研发完成,并于2023-06-30向国家知识产权局提交的专利申请。
本基于半监督学习的提问式垂直领域文献检索方法及系统在说明书摘要公布了:本发明公开了一种基于半监督学习的提问式垂直领域文献检索方法及系统,涉及文献检索技术领域。该方法包括步骤:获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。本发明通过采用半监督学习框架,将检索问题转化为基于半监督学习的分类问题,实现了垂直领域政策文献的高效可靠检索。
本发明授权基于半监督学习的提问式垂直领域文献检索方法及系统在权利要求书中公布了:1.一种基于半监督学习的提问式垂直领域文献检索方法,其特征在于,包括以下步骤: 获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集; 根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型; 利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继续训练; 根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东省科学院情报研究所,其通讯地址为:250014 山东省济南市历下区科院路19号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。