北京寓诚科技有限公司贾磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京寓诚科技有限公司申请的专利一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116975287B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310867226.0,技术领域涉及:G06F16/35;该发明授权一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统是由贾磊设计研发完成,并于2023-07-14向国家知识产权局提交的专利申请。
本一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统在说明书摘要公布了:本发明公开了一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统,涉及文本分类技术领域,该系统输入的是人工随机标注的情感分类数据集,该系统输出的是情感分类器模型;该系统主要包括分词模块、图学习模块、RoBERTa获取语义模块、图模型和RoBERTa模型融合模块和主动学习模块。本发明为一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统,可以有效提升分词效果;可以得到词节点以及语句高质量的embedding表示;可以有效提升文本语句embedding表示,从而提升分类器模型效果;可以提升语料标注效率;结合不确定性和多样性策略一起来选择高质量样本进行标注,从而进一步提升情感分类器模型效果。
本发明授权一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统在权利要求书中公布了:1.一种基于GraphSAGE图模型和RoBERTa相融合的文本分类系统,其特征在于:该系统输入的是人工随机标注的情感分类数据集,该系统输出的是情感分类器模型; 该系统主要包括分词模块、图学习模块、RoBERTa获取语义模块、图模型和RoBERTa模型融合模块和主动学习模块; 该系统的操作流程如下: S1、首先通过RoBERTa根据互信息对文本数据进行分词操作得到词序列,将词序列以词为节点、词顺序为边构建图,使用图模型GraphSAGE进行训练得到各词对应的embedding,将词序列中各词对应的embedding和词序位置编码相加,再经过avg池化操作得到语句对应的embedding作为图模型的文本表示embedding; S2、将文本同时输入到RoBERTa模型,将第一层和最后一层Transformer模型得到的embedding进行avg池化层操作得到文本对应的语义embedding; S3、将图模型和RoBERTa模型得到的embedding进行avg层操作得到最终语句向量的embedding,后面接多层Softmax分类层,得到分类器模型; S4、将构建好的分类器模型去业务相关的无标签数据中预测概率,根据置信度最低策略选出难以识别的样本,同时根据最终语句向量的embedding使用kmeans算法进行聚类操作选出差异大的样本,将模型难以识别和embedding差异大的样本选出来提交给标注人员标注,从而提升标注效率,增加高质量训练集样本数量,从而进一步提升文本分类系统的效果; 图模型和RoBERTa模型融合模块共包括两种融合策略,第一种是语句向量融合策略,第二种策略是分类模型融合策略; 所述语句向量融合策略的操作流程如下: S1、将GraphSAGE图模型得到的语句embedding和RoBERTa模型得到的语句Embedding进行融合操作得到最终的语句表示向量embedding; S2、将三种融合操作再进行拼接作为最终的语句向量,第一种是concat拼接操作,也就是将embedding1和embedding2拼接,第二种是sum池化层操作,第三种是avg池化层操作; 所述分类模型融合策略的操作流程如下: S1、将GraphSAGE图模型得到的语句embedding和RoBERTa模型得到的语句Embedding分别进行concat、sum池化层操作和avg池化层操作,并接分类层得到模型预测结果; S2、使用模型融合的策略将三个分类器得到的结果进行融合,采用投票的方式得到最终的分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京寓诚科技有限公司,其通讯地址为:100000 北京市朝阳区水岸南街16号楼12层1227;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励