西华大学吴越获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西华大学申请的专利一种基于大模型的文本隐毒识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119377952B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411309884.9,技术领域涉及:G06F21/56;该发明授权一种基于大模型的文本隐毒识别方法是由吴越;陈慧;廖明朗;袁雪;杨崧;陈镜宇设计研发完成,并于2024-09-19向国家知识产权局提交的专利申请。
本一种基于大模型的文本隐毒识别方法在说明书摘要公布了:本发明提供了一种基于大模型的文本隐毒识别方法,涉及互联网安全技术领域。该方法包括通过在RoBERTa模型的顶层添加一个由全连接层和softmax层组成的分类头,构建文本隐毒检测模型;从社交软件中爬取评论文本数据并进行数据清洗和数据预处理,并经人工数据标注将评论文本数据分类为显毒文本、隐毒文本或无毒文本;将经人工数据标注的评论文本数据输入文本隐毒检测模型,进行有监督学习;待识别的文本输入经有监督学习的文本隐毒检测模型,输出识别的分类结果显毒文本、隐毒文本或无毒文本。该方法可将输入的文本分类为显毒文本、隐毒文本和无毒文本,即实现对隐毒文本的有效识别。
本发明授权一种基于大模型的文本隐毒识别方法在权利要求书中公布了:1.一种基于大模型的文本隐毒识别方法,其特征在于,包括以下步骤: 步骤S1;构建文本隐毒检测模型,具体为在RoBERTa模型的顶层添加一个由全连接层和softmax层组成的分类头; 步骤S2:从社交软件中爬取评论文本数据并进行数据清洗、数据预处理和人工数据标注; 人工数据标注具体为:通过分类标签将评论文本数据分为显毒文本、隐毒文本或无毒文本; 步骤S3:将经人工数据标注的评论文本数据输入文本隐毒检测模型,进行有监督学习; 步骤S4:将待识别的文本输入经有监督学习的文本隐毒检测模型,输出识别的分类结果; 其中,分类结果包括显毒文本、隐毒文本和无毒文本; 步骤S3之前,还包括通过GeniusAug模型对评论文本数据进行数据增强; GeniusAug模型包括依次连接的输入层、特征提取层、双向编码层、草图构建层、自回归解码层和输出层; 数据增强过程如下: 输入层:输入评论文本数据d及对应的第一分类标签; 特征提取层:提取评论文本数据d的n元语法[w1,w2,...,wm],n=1,2,3;其中,m为评论文本数据d的字词数量; 双向编码层:编码评论文本数据d、第一分类标签和n元语法,获取评论文本数据d的文本嵌入ed、n元语法[w1,w2,...,wm]的语法嵌入[v1,v2,...,vm]、第一分类标签的标签嵌入et; 对评论文本数据d,计算每一个n元语法与融合嵌入ef的相似度Si,公式如下: ef=λed+1-λet; 式中,λ为预设的融合权重,i为字词序数; 选取相似度前A%的n元语法作为关键字词; 草图构建层:基于关键字词,通过应用提取掩蔽投影过程构造草图; 自回归解码层:通过预训练的GENIUS模型,采用波束搜索方法,基于草图生成新的文本数据; 输出层:输出新的文本数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西华大学,其通讯地址为:610039 四川省成都市金牛区土桥金周路999号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。