中山大学王沛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利一种文本单类别分类方法、系统、计算机设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117520543B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311474423.2,技术领域涉及:G06F16/35;该发明授权一种文本单类别分类方法、系统、计算机设备及存储介质是由王沛;任江涛设计研发完成,并于2023-11-07向国家知识产权局提交的专利申请。
本一种文本单类别分类方法、系统、计算机设备及存储介质在说明书摘要公布了:本发明提供了一种文本单类别分类方法、系统、计算机设备及存储介质,所述方法为对单分类文本集进行词性标注得到词性标注文本集,并将基于依此构建的多个词性自编码器获取的词性强语义词替换为预设无语义词得到弱语义困难样本集后,根据单分类文本集和弱语义困难样本集对预训练模型进行类别级监督对比学习训练得到领域特征提取器,并根据领域特征提取器构造领域特征原型和提取待识别文本的待识别领域特征,以及对待识别领域特征与领域特征原型进行相似度计算得到待识别文本领域评分,并结合预设评分阈值得到待识别文本分类结果。本发明能基于词性分析生成的弱语义困难负样本,极大提升对比学习训练效果,进而有效提高文本单类别的分类精度。
本发明授权一种文本单类别分类方法、系统、计算机设备及存储介质在权利要求书中公布了:1.一种文本单类别分类方法,其特征在于,所述方法包括以下步骤: 获取单分类文本集,并对所述单分类文本集进行词性标注,得到词性标注文本集; 根据所述词性标注文本集,构建多个词性自编码器,并根据各个词性自编码器,获取所述单分类文本集的词性强语义词;所述词性自编码器包括名词自编码器、动词自编码器和专有名词自编码器; 将所述单分类文本集中的所有词性强语义词替换为等长的预设无语义词,得到对应的弱语义困难样本集; 根据所述单分类文本集和所述弱语义困难样本集,对预设的预训练模型进行类别级监督对比学习训练,得到领域特征提取器,并根据所述领域特征提取器,构造所述单分类文本集对应的领域特征原型; 将待识别文本输入所述领域特征提取器进行特征提取,得到对应的待识别领域特征,并对所述待识别领域特征与所述领域特征原型进行相似度计算,得到对应的待识别文本领域评分; 根据所述待识别文本领域评分和预设评分阈值,得到对应的待识别文本分类结果; 其中,所述根据所述词性标注文本集,构建多个词性自编码器的步骤包括: 将所述词性标注文本集输入所述预训练模型进行词义提取,得到对应的词语语义特征集; 根据词性类别,对所述词语语义特征集进行分类,得到多个词性语义特征集; 分别根据各个词性语义特征集,对预设自编码器进行训练,得到对应的词性自编码器;所述预设自编码器包括4层全连接; 所述分别根据各个词性语义特征集,对预设自编码器进行训练,得到对应的词性自编码器的步骤包括: 根据所述词性语义特征集,基于重构均方误差损失函数对所述预设自编码器进行训练,得到对应的词性自编码器;所述重构均方误差损失函数表示为: 其中,L表示重构均方误差损失;X表示词性语义特征集中的词性语义特征;encX和decencX分别表示词性语义特征X通过预设自编码器得到的编码特征和对应的解码重构特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510275 广东省广州市新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励