南京苏逸实业有限公司;南京苏逸实业有限公司科技信息网络分公司;江苏鑫顺能源产业集团有限公司沈彪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京苏逸实业有限公司;南京苏逸实业有限公司科技信息网络分公司;江苏鑫顺能源产业集团有限公司申请的专利一种基于数据增强的小样本学习方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119493996B 。
龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411521429.5,技术领域涉及:G06F40/284;该发明授权一种基于数据增强的小样本学习方法和系统是由沈彪;颜肃;赵磊;华琦设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。
本一种基于数据增强的小样本学习方法和系统在说明书摘要公布了:一种基于数据增强的小样本学习方法和系统。从多个数据源收集电力运维文本数据并进行预处理和标注,构建电力领域语料库;利用电力领域语料库对预定义的预训练语言模型进行微调,从电力领域语料库中训练电力领域词向量和实体向量,融入预训练语言模型;基于预训练语言模型进行命名实体识别和电力运维知识的多任务学习,结合对抗学习算法构建多任务对抗学习模型,采用多种数据增强策略来训练多任务对抗学习模型,利用多任务对抗学习模型通过集成学习和自训练进行数据预测;对模型预测结果进行评估,基于评估结果动态调整各个数据增强策略的权重。本发明提升了小样本学习性能。
本发明授权一种基于数据增强的小样本学习方法和系统在权利要求书中公布了:1.一种基于数据增强的小样本学习方法,其特征在于,包括以下步骤: 步骤1:从多个数据源收集电力运维文本数据并进行预处理,对预处理后的数据进行标注,所述标注包括命名实体识别、关系抽取和文本分类,以构建电力领域语料库; 步骤2:利用电力领域语料库对预定义的预训练语言模型进行微调,利用该模型从电力领域语料库中训练电力领域词向量和实体向量,将电力领域词向量和实体向量融入预训练语言模型; 步骤3:基于所述预训练语言模型进行命名实体识别和电力运维知识的多任务学习,结合对抗学习算法构建多任务对抗学习模型,采用多种数据增强策略来训练所述多任务对抗学习模型,利用训练后的多任务对抗学习模型,通过集成学习和自训练进行数据预测; 步骤4:对模型预测结果进行评估,基于评估结果动态调整各个数据增强策略的权重; 所述采用多种数据增强策略来训练所述多任务对抗学习模型,进一步包括: 将样本中的每个词语与电力运维领域词典进行匹配,确定该词语的同义词集合;根据同义词的词频、词性或上下文语义因素,选择同义词进行替换; 使用预训练语言模型,根据上下文语境,为样本中的每个词语生成候选替换词列表;利用电力运维知识库,对候选替换词列表进行过滤,去除与电力运维领域无关的词语;根据候选词与被替换词语的语义相似度或词性一致性,设置不同的替换概率; 选择与电力运维领域相关的技术语言进行回译,然后选择性能最优的神经机器翻译模型进行回译,根据电力运维文本对模型进行微调,对回译生成的样本进行筛选,去除语法错误、语义不通顺的样本; 利用实体识别和实体链接技术,将样本中的实体链接到电力运维知识图谱中对应的实体;根据知识图谱中的关系和属性信息,为每个实体生成候选替换实体列表;根据候选实体与被替换实体的语义相似度和上下文相关性,选择实体进行替换;设置实体替换比例阈值; 使用预测概率熵或最大概率差指标,度量模型对样本预测的不确定性;根据不确定性度量值,对未标注样本进行排序;选择排名在预定义数量之前的样本进行人工标注,利用新标注的样本对模型进行更新; 所述动态调整各个数据增强策略的权重,进一步包括: 增加基于领域词典的同义词替换和基于知识图谱的实体替换策略的权重; 增加基于回译的句子增强策略的权重;或 增加特定类型实体的增强样本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京苏逸实业有限公司;南京苏逸实业有限公司科技信息网络分公司;江苏鑫顺能源产业集团有限公司,其通讯地址为:210008 江苏省南京市鼓楼区中山路251号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励