西安理工大学朱磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学申请的专利基于奇异值分解和领域预训练的短文本聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115357715B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211039043.1,技术领域涉及:G06F16/353;该发明授权基于奇异值分解和领域预训练的短文本聚类方法是由朱磊;文苗青;张彤;张贝贝;孟海宁;王一川;黑新宏设计研发完成,并于2022-08-29向国家知识产权局提交的专利申请。
本基于奇异值分解和领域预训练的短文本聚类方法在说明书摘要公布了:本发明公开了一种基于奇异值分解和领域预训练的短文本聚类方法,步骤为:获取短文本作为数据集,对数据集进行预处理;采用CBOW模型提取词向量特征,包括频繁词和对应的文档;将频繁词与文档形成矩阵形式,使用SVD方法对矩阵进行分解,随后构造GCN表示,形成对应的图结构向量,使用RoBERTa模型对文档进行基础训练,再添加新的语义子任务进行训练,生成NLP语义向量,使用两个向量相结合,采用D‑D‑Kmeans算法进行聚类,得到聚类结果。本发明更能提高聚类收敛速度和准确性,能够较好抵抗噪声干扰,具有较强的鲁棒性。
本发明授权基于奇异值分解和领域预训练的短文本聚类方法在权利要求书中公布了:1.基于奇异值分解和领域预训练的短文本聚类方法,其特征在于,步骤包括: 步骤1,获取短文本作为数据集,对数据集进行预处理; 步骤2,对预处理后的数据集,采用CBOW模型提取词向量特征,包括频繁词和对应的文档;所述步骤2具体的为: 步骤2.1,将预处理后的数据集映射到二维向量空间; 步骤2.2,建立CBOW模型,在CBOW模型中输入一个词表大小为V,大小为V维的one-hot向量,该向量中,仅有所对应的词的下标处为1,其他位置均为0,我们可以将输入向量记为x; 输入层经过与一个大小的矩阵相乘后,得到N维大小的隐藏层的向量h,相乘后的结果实际上是从矩阵中取出第k行的向量,也就是词所对应的词向量,即 步骤2.3,隐藏层再经过与一个大小的矩阵相乘后,得到V维大小的输出层的向量u;其中输出层向量中的第j个元素就是矩阵中的第列向量与隐藏层向量h的乘积: 步骤2.4,输出的向量u进行softmax处理,得到此表中每一个词的预测概率,而输出概率最大的词即为本次预测的结果,即频繁词,频繁词及其对应的文档构成词向量特征; 步骤3,利用词向量特征通过TF-IDF算法构建矩阵Q,对矩阵Q进行奇异值分解后使用GCN进行卷积,形成对应的图结构向量;所述步骤3具体的为: 步骤3.1,对于词向量特征中的频繁词按降序排序,建立FP-Tree,挖掘FP-Tree以获得词频集合;根据词频建立IDF模型,通过IDF模型获取频繁词的IDF值; 步骤3.2,获取每个频繁词的词频矩阵,所述词频矩阵由两列组成,第一列为标签,第二列为该频繁词的IDF值并添加列名; 步骤3.3,将步骤3.2得到的矩阵集映射到向量空间,转换为TF-IDF词频m×n的矩阵Q; 步骤3.4,对矩阵Q的进行奇异值分解得到起奇异值矩阵Σ;所述步骤3.4包括: 步骤3.4.1,将矩阵Q表示为: 其中,U是一个m×m的矩阵,Σ是m×n的奇异值矩阵,除了主对角线上的元素以外全为0,主对角线上的每个元素都称为奇异值,V是一个n×n的矩阵;U和V都是酉矩阵,即满足: 步骤3.4.2,将Q的转置和Q做矩阵乘法,那么会得到n×n的一个方阵,对方阵进行特征分解,得到的特征值和特征向量满足下式: 得到矩阵的n个特征值和对应的n个特征向量v,将的所有特征向量张成一个n×n的矩阵V,我们将V中的每个特征向量叫做Q的右奇异向量,λ为矩阵的特征值; 步骤3.4.3,将Q和Q的转置做矩阵乘法,那么会得到m×m的一个方阵,对方阵进行特征分解,得到的特征值和特征向量满足下式: 得到矩阵的m个特征值和对应的m个特征向量u,将的所有特征向量张成一个m×m的矩阵U,我们将U中的每个特征向量叫做Q的左奇异向量; 步骤3.4.4,由于Σ除了对角线上是奇异值其他位置都是0,那我们只需要求出每个奇异值的σ,由于: 则,求出每个奇异值σ,进而求出奇异值矩阵Σ; 步骤3.5,建立GCN模型,将奇异值矩阵输入GCN模型输出图结构向量;所述步骤3.5包括: GCN模型对图数据进行卷积操作,融合图中节点的属性信息和节点之间的结构信息,通过堆叠多层网络抽取节点的多阶邻域中的信息,构造GCN表示,形成了对应的图结构向量: 其中是无向图的邻接矩阵加上相同大小的单位矩阵进行自连接操作,目的是信息在图卷积神经网络每一层传播的时候,图中节点自身的信息也能得以保留;是的度矩阵,Hl是图卷积神经网络中第l层的激活单元矩阵,网络未训练时的激活单元矩阵为特征矩阵X,Wl是图卷积神经网络中第l层的权值参数; 步骤4,建立RoBERTa模型,对步骤2提取出的特征向量,进行预训练,抽出Token-DocumentRelationPrediction子任务、添加IRRelevance子任务进行再训练后输出NLP语义向量; 步骤5,将图结构向量与NLP语义向量相拼接结合,采用D-D-Kmeans算法进行聚类,得到聚类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励