Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电信科学技术第十研究所有限公司陈霄鹏获国家专利权

电信科学技术第十研究所有限公司陈霄鹏获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电信科学技术第十研究所有限公司申请的专利一种基于主动学习的开放域小样本文本学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115344696B

龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210927182.1,技术领域涉及:G06F16/35;该发明授权一种基于主动学习的开放域小样本文本学习方法是由陈霄鹏设计研发完成,并于2022-08-03向国家知识产权局提交的专利申请。

一种基于主动学习的开放域小样本文本学习方法在说明书摘要公布了:本发明公开了一种基于主动学习的开放域小样本文本学习方法,首先对小样本文本数据特征编码并初始化小样本模型;再采用主动学习算法获取正确数据集与候选集数据,对候选数据集编码;然后对编码后的候选数据集进行聚类分析,得到最优数目的聚类簇;将最优数目的聚类簇重新聚类,判别出最优簇;进行标注后生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;重复执行最终得到充分的文本数据集。本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。

本发明授权一种基于主动学习的开放域小样本文本学习方法在权利要求书中公布了:1.一种基于主动学习的开放域小样本文本学习方法,其特征在于,包括如下步骤: 步骤101:小样本文本数据特征编码; 将小样本文本数据集的数据编码成特征向量:如果小样本文本数据的分类模型采用存在预训练模型的分类模型,则使用该分类模型的预训练模型进行特征向量编码;如果小样本文本数据的分类模型不存在预训练模型,则随机编码生成特征向量; 步骤102:初始化小样本模型; 将已经编码的特征向量输入小样本文本数据的分类模型,训练得到小样本模型; 步骤103:获取正确数据集与候选集数据; 将未标注的文本数据通过步骤101的编码方法编码后,输入至小样本模型,通过投票熵主动学习算法得到正确数据集和需要人工标注的候选数据集; 步骤104:候选数据集编码; 将候选数据集通过步骤101的编码方法进行编码; 步骤105:对编码后的候选数据集进行聚类分析;通过多次迭代计算簇的误差平方和,找到误差平方和的拐点,得到最优数目的聚类簇; 步骤106:将最优数目的聚类簇重新聚类,对现有标签的小样本文本数据进行预测,通过寻找预测簇中包含最多已知标签,判别出最优簇; 步骤107:对最优簇进行标注; 步骤108:对最优簇进行判别和标注后标注数据会生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集; 步骤109:设定重复次数,重复执行步骤101至步骤108; 步骤110:步骤109的重复执行结束后,得到充分的文本数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电信科学技术第十研究所有限公司,其通讯地址为:710061 陕西省西安市雁塔区雁塔西路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。