Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京工业大学范青武获国家专利权

北京工业大学范青武获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京工业大学申请的专利基于自适应变分编码器的短文本聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114625879B

龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210299111.1,技术领域涉及:G06F16/353;该发明授权基于自适应变分编码器的短文本聚类方法是由范青武;王子栋设计研发完成,并于2022-03-13向国家知识产权局提交的专利申请。

基于自适应变分编码器的短文本聚类方法在说明书摘要公布了:基于自适应变分编码器的短文本聚类方法涉及文本聚类技术领域。首先,对短文本使用sentence‑Bert的方法进行文本表示;其次,使用自编码器将向量转化为低维特征向量,使用K‑means方法提取聚类中心;然后,使用聚类中心作为变分自编码器的期望均值对于输入向量进行预训练,转化为满足以聚类中心为期望均值的分布的特征向量;将特征向量根据K‑means算法构建分类器,通过分类后的分布对分类器与编码器的权重进行微调。最后根据微调后的编码器与分类器得到聚类结果。本发明能够很好的处理短文本聚类中的文本向量高维稀疏的问题,为短文本聚类提供了新的特征深度嵌入算法。

本发明授权基于自适应变分编码器的短文本聚类方法在权利要求书中公布了:1.基于自适应变分编码器的短文本聚类算法,其特征在于,步骤如下: S1数据收集; S2将文本输入到sentence-Bert中,转化成词向量; S3使用自编码器对词向量进行预训练,得到降维编码器; S4使用K-means对降维后的数据进行聚类,得到每一文本的聚类标签和聚类中心; S5将文本词向量使用变分自编码器进行预训练,使用聚类中心作为期望均值训练编码器网络参数; S6使用K-means对预训练编码器产生的特征向量做聚类,得到初始的聚类中心; S7使用聚类中心对向量进行软分配; S8使用辅助目标分布,从当前的高置信度分配中,学习更新预训练编码器并重新定义聚类质心; S9重复S7、S8,满足收敛标准或迭代次数时,输出聚类结果; 在步骤S2中,无需对数据进行预处理操作,使用Sentence-BERT对文本进行向量空间表示; 在步骤S3中,使用自动编码器训练文本向量,对于转化为的句向量xi∈Rm;构建编码器对原始数据进行编码: zi=fφx=σeWexi+be∈Rl#1 在使用解码器对原始数据进行解码: 损失函数为最小化重建误差: 其中xi、和zi分别是输入数据、输出数据和潜在变量,fφ和gψ分别表示编码器和解码器的转化函数;σ是激活函数这里选用ReLUx,We和be是权重和偏差,其中e和d分别表示编码器和解码器; 自动编码器往往通过最小化重建误差,更新网络权重We与偏差be,在完成设定的迭代次数t后,得到一个编码器fφx:X∈Rm→Z∈Rl;t设置t为10,其中Z是潜在的特征空间,这里的m为上文中提到的输入句向量的维度384维,l为隐层的维度与聚类文本的聚类目标类别k相同,由于聚类类别k小于输入维度d因此得到降维编码器fφx; 在步骤S4中,使用K-means作为聚类算法对降维后的文本zi进行聚类;这里采用了欧式距离作为K-means算法的距离度量,K-means的目标是旨在选择集群中的质心μk,能够最小化簇内平方和: 这一步聚类的目的是找到质心和每一条文本对应的文本类别k;通过类别k和质心得到每一文本的期望均值记为 经过预处理,得到文本的向量化X,与降维文本的聚类中心μ*; 在步骤S7种根据聚类中心,计算在特征空间中的Z′每个数据点的软簇分配;使用单自由度t分布qij,以测量嵌入点zi′和质心kj之间的相似性: 其中zi′=fxi∈Z′对应于SVAE嵌入后的xi∈X,其中α是student的t分布的自由度,而qij为将样本i分配给聚类j的概率即软分配,α取1。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。