当前位置 : 首页 > 专利喜报 > 合肥工业大学李培培获国家专利权

合肥工业大学李培培获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉合肥工业大学申请的专利一种基于对比学习的Web短文本数据流聚类方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN117235550B 。

龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202311151489.8，技术领域涉及：G06F18/23；该发明授权一种基于对比学习的Web短文本数据流聚类方法是由李培培;张雅茹;司先良设计研发完成，并于2023-09-07向国家知识产权局提交的专利申请。

本一种基于对比学习的Web短文本数据流聚类方法在说明书摘要公布了：本发明公开了一种基于对比学习的Web短文本数据流聚类方法，包括：1、将数据流划分为有标签和无标签数据块；2、利用Sentence‑Bert对有标签数据块中的短文本进行特征表示，并利用有监督的对比学习损失函数训练编码器，根据有标签数据块的降维特征表示初始化聚类簇集合和相似度阈值；3、利用Sentence‑Bert和编码器对无标签数据块每个短文本进行降维特征表示，计算每个短文本与聚类簇的余弦相似度，与相似度阈值比较确定每个短文本的聚类簇归属，并为当前短文本打上伪标签，最后利用无标签数据的特征表示及其伪标签信息动态更新聚类簇集合以及编码器。本发明能提高Web领域短文本数据流的聚类准确性。

本发明授权一种基于对比学习的Web短文本数据流聚类方法在权利要求书中公布了：1.一种基于对比学习的Web短文本数据流聚类方法，其特征在于，是按如下步骤进行：步骤1：将给定的一组短文本数据流D按照是否带有标签划分为两个数据块，记为D＝{Dl,Du}，其中，Dl，Du分别表示所述短文本数据流D中有标签的数据块与无标签的数据块，且其中，m表示所述有标签数据块Dl的短文本数量，n表示所述短文本数据流D中总的短文本数量，mn；与分别表示所述有标签数据块Dl中第i个短文本以及所述无标签数据块Du中第j个短文本，1≤i≤m，1≤j≤n-m；并有：与分别表示有标签数据块Dl中第i个短文本的特征空间，以及无标签数据块Du中第j个短文本的特征空间，且表示所述有标签数据块Dl中第i个短文本的第r个词，且表示所述有标签数据块Dl中第i个短文本的长度；表示所述无标签数据块Du中第j个短文本的第p个词，且表示所述无标签数据块Du中第j个短文本的长度；表示所述有标签数据块Dl中第i个短文本的类标签空间，并有：K表示所述类标签空间中类标签的个数，表示所述有标签数据块Dl中第i个短文本的类标签空间中的第k维类标签值，1≤k≤K，从而得到所述有标签数据块Dl的类标签空间集步骤2：基于所述有标签数据块Dl训练编码器并初始化聚类簇集合和相似度阈值：步骤2.1、采用预训练语言模型Sentence-Bert对特征空间进行处理，得到第i个短文本的特征表示其中，表示第i个短文本的特征表示中的第s维特征值，1≤s≤S，S表示所述第i个短文本的特征表示的向量维度；从而得到m个短文本的特征表示所构成的特征表示集步骤2.2、利用所述有标签数据块Dl的特征表示集V和类标签空间集Y对编码器进行训练，并最小化如式1所示的有监督的对比损失函数从而得到训练后的编码器模型Encoder及其模型参数θ；式1中，Ai表示所述特征表示集V中除第i个短文本的特征表示之外的其他短文本的特征表示集合，Pi表示所述特征表示集V中除第i个短文本的特征表示之外，与第i个短文本的类标签空间相同的其他短文本的特征表示集合，|Pi|表示所述特征表示集合Pi中的短文本数量；τ表示温度参数的常量，τ∈R+；R+表示正实数；表示特征表示集Pi中第b个短文本的特征表示，表示特征表示集Ai中第a个短文本的特征表示；步骤2.3、利用编码器模型Encoder对所述第i个短文本的特征表示进行降维编码，得到所述第i个短文本的降维特征表示从而得到降维后的有标签数据块D'l；步骤2.4、定义当前时刻为t；定义当前聚类簇的序号为k；步骤2.5、初始化t＝0；步骤2.6、初始化k＝1；步骤2.7、初始化i＝1；步骤2.8、判断i≤m是否成立，若成立，则执行步骤2.9；否则，表示处理完t时刻所述降维后的有标签数据块D'l中所有短文本，并得到有标签数据块D'l所划分的t时刻的聚类簇集合并执行步骤2.12；其中，m'表示t时刻的聚类簇总数；步骤2.9、在t时刻判断第i个短文本的标签是否成立，若成立，则执行步骤2.10；否则，执行步骤2.11；步骤2.10、根据式2初始化t时刻的第k个聚类簇后，令i+1赋值给i，执行步骤2.8；式2中，分别表示t时刻的第k个聚类簇的短文本数量、短文本集合、聚类中心与更新时间，并有步骤2.11、根据式3得到t时刻的第k个聚类簇令k+1赋值给k，i+1赋值给i，执行步骤2.8：式3中，←表示赋值符号；步骤2.12、选取所述降维后的有标签数据块D'l中具有相同类标签的任意两个短文本且的类标签空间与的类标签空间相同；根据式4计算所述降维后的有标签数据块D'l具有相同类标签空间的任意两个短文本和的余弦相似度式4中，分别表示所述有标签数据块Dl中第p个短文本中的降维特征表示的模与第q个短文本的降维特征表示的模；步骤2.13、重复步骤2.12直到计算完t时刻所述降维后的有标签数据块D'l中所有具有相同标签的短文本间的相似度，并计算平均值得到步骤2.14、选取所述降维后有标签数据块D'l中具有不同类标签的任意两个短文本1≤p',q'≤m，p'≠q'，且的类标签空间与的类标签空间不相同；根据式5计算降维后的有标签数据块D'l具有不同类标签空间的任意两个短文本和的余弦相似度式5中，分别表示标签数据块D'中第p'个短文本的降维特征表示的模和第q'个短文本的降维特征表示的模；步骤2.15、重复步骤2.14直到计算完降维后的有标签数据块D'l中所有具有不同标签的短文本间的相似度，并计算平均值得到步骤2.16、根据式6计算阈值R；式6中，β表示常量权重，0≤β≤1；步骤3：对所述无标签数据块Du进行聚类簇划分，并更新聚类簇集合和编码器：步骤3.0、定义当前时段为T，并初始化T＝0；将编码器模型Encoder作为第T时段的编码器模型EncoderT；将编码器参数θ作为第T时段的模型参数θT；步骤3.1、初始化j＝t+1，将所述无标签数据块Du中的第j个短文本作为t+1时刻的短文本利用预训练语言模型Sentence-Bert和所述第T时段的编码器EncoderT对进行特征提取，得到t+1时刻降维后的特征表示步骤3.2、根据式7计算t+1时刻降维后的特征表示分别与所述t时刻的聚类簇集合Zt中所有聚类簇的余弦相似度，并取t+1时刻的余弦相似度最大值式7中，表示与的余弦相似度；步骤3.3、如果则执行步骤3.4；否则，执行步骤3.5；步骤3.4、将t+1时刻的短文本划分给所对应的聚类簇中，从而利用式8得到t+1时刻的第max个聚类簇并根据被划分到的聚类簇的下标max为t+1时刻的短文本打上伪标签max：式8中，分别表示t+1时刻的第max个聚类簇的短文本数量，降维短文本集合、聚类中心与更新时间，并有分别表示t时刻的第max个聚类簇的短文本数量，降维短文本集合、聚类中心；步骤3.5、令m'+1赋值给m'，根据式9生成一个新的聚类簇从而更新述t时刻的聚类簇集合Zt为t+1时刻的聚类簇集合并为t+1时刻的短文本打上伪标签m'；式9中，分别表示t+1时刻的第m'个聚类簇的短文本数量，降维短文本集合、聚类中心与更新时间；步骤3.6、根据式10更新t+1时刻的聚类簇集合Zt+1中的第k个聚类簇权重式10中，表示t+1时刻的聚类簇集合Zt+1中第k个聚类簇的更新时间，c表示修正参数；步骤3.7、低于给定的阈值l，则删除t+1时刻的聚类簇集合Zt+1中第k个聚类簇；否则，保留t+1时刻的聚类簇集合Zt+1中第k个聚类簇；步骤3.8、将t+1赋值给t后，判断t％U＝0是否成立，若成立，则执行步骤3.9；否则，返回步骤3.1顺序执行，其中，％表示取余符号，U表示短文本数量阈值；步骤3.9、利用U条无标签数据的特征表示及伪标签对第T时段的训练编码器EncoderT进行训练，并得到第T+1时段的编码器模型EncoderT+1及其模型参数θT+1；步骤3.10、根据式11对第T+1时段的模型参数θT+1进行更新，得到更新后的模型参数θ'T+1； 0'T+1←α·θ'r+1-ωθT+111 式11中，ω表示动量系数，且ω∈[0,1；θ'T表示第T时段的更新后的模型参数，当T＝0时，令θ'T＝θT；步骤3.11、将T+1赋值给T后，返回步骤步骤3.1顺序执行。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人合肥工业大学，其通讯地址为：230009 安徽省合肥市包河区屯溪路193号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

合肥工业大学李培培获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务