网经科技(苏州)有限公司刘继明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉网经科技(苏州)有限公司申请的专利融合数据扩充与课程学习的小样本文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115455182B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211039005.6,技术领域涉及:G06F16/35;该发明授权融合数据扩充与课程学习的小样本文本分类方法是由刘继明;孟亚磊;胡磊;金宁;陈浮设计研发完成,并于2022-08-29向国家知识产权局提交的专利申请。
本融合数据扩充与课程学习的小样本文本分类方法在说明书摘要公布了:本发明公开了融合数据扩充与课程学习的小样本文本分类方法,先用策略对已标注样本集进行数据扩充,再根据扩充样本的改变程度划分数据集,继而构建神经网络分类器并训练分类模型,最后使用训练得到的模型对新的样本进行分类。对学习方法进行改进和重构,一方面采用多种策略进行数据扩充,另一方面将样本按照变化程度从小到大对样本划分等级,并且在学习过程中采用课程学习的策略从易到难逐步学习,分类准确率方面显著提高。
本发明授权融合数据扩充与课程学习的小样本文本分类方法在权利要求书中公布了:1.融合数据扩充与课程学习的小样本文本分类方法,其特征在于:包含以下步骤: S1用策略对已标注样本集进行数据扩充; S2根据扩充样本的改变程度划分数据集; 经过步骤S1获得原始样本变体后,为达到更好的学习效果,将样本变体按照改变程度分组并按顺序安排机器学习进度,步骤如下: S21计算样本变体与原样本的编辑距离; 编辑距离又称Levenshtein距离,是度量两个字符串差异程度的量化指标,指的是至少需要多少次编辑操作能从一个字符串变成另一个字符串;其允许的基本编辑操作包括插入一个字符、删除一个字符、将一个字符替换为另一个字符; S22计算样本变体相对原样本的改变系数; 在同等编辑距离改变的情况下,较长的句子能容许较多字符的变动而保持语义一致,而较短的句子容易发生语义变化;为更好地度量样本相对原句的改变程度,需要将句子长度纳入考虑;引入改变系数g,可由公式1计算得到; gSen0,Sen1=LevSen0,Sen1Lensen0公式1 其中LevSen0,Sen1为两个样本的编辑距离,Lensen0为Sen0的句子长度,句子中包含的字数; S23按照改变系数及其分布将样本变体划分为若干等级; 划分等级时,如果有些范围样本稀少,则可忽视这些孤立样本,最后将这些超范围样本合并到邻近的等级中; S24在各等级的样本变体中进行类别均衡化; 通过策略对各等级的样本变体进行类别均衡化处理,使得各类别样本数大致相当;如在某些等级中,有些类别的样本偏多,可随机剔除一部分备用;有些类别的样本数量偏少,则可重复步骤S1适当增补,最终可获得K个不同改变等级的变体样本集用于模型学习; S25将样本集划分为训练集、验证集与测试集; 在模型训练前,根据功能对数据进行切分,可按比例从各类别随机选择样本构成训练集、验证集与测试集; S3构建神经网络分类器并训练分类模型; S4使用训练得到的模型对新的样本进行分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人网经科技(苏州)有限公司,其通讯地址为:215021 江苏省苏州市工业园区金鸡湖大道1355号国际科技园一期;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励