来也科技(北京)有限公司门波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉来也科技(北京)有限公司申请的专利基于人工智能AI的文本聚类方法、装置及电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115033697B 。
龙图腾网通过国家知识产权局官网在2025-11-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210716671.2,技术领域涉及:G06F16/355;该发明授权基于人工智能AI的文本聚类方法、装置及电子设备是由门波;李艳丹设计研发完成,并于2022-06-23向国家知识产权局提交的专利申请。
本基于人工智能AI的文本聚类方法、装置及电子设备在说明书摘要公布了:本申请涉及一种基于人工智能AI的文本聚类方法、装置及电子设备,方法包括:对待聚类文本集中各文本进行分词处理,以得到每个文本所包含的多个关键词;对于每个文本,将所包含的多个关键词按照预设方式进行拼接,以得到对应的至少一个候选词组;基于各文本对应的至少一个候选词组,对待聚类文本集进行分组,以得到多个文本集合;按照预设聚类方式,对多个文本集合分别进行聚类处理,以得到多个目标类簇。通过基于多个候选词组,对待聚类文本集进行分组,得到多个文本集合后,再对多个文本集合分别进行聚类处理,提高了文本聚类的效率,进而提高了对话机器人的搭建效率。本申请还能结合RPA和AI实现IA的文本聚类,从而减少文本聚类的人工成本。
本发明授权基于人工智能AI的文本聚类方法、装置及电子设备在权利要求书中公布了:1.一种基于人工智能AI的文本聚类方法,其特征在于,包括: 对待聚类文本集中各文本进行分词处理,以得到每个所述文本所包含的多个关键词; 对于每个所述文本,将所包含的多个所述关键词按照预设方式进行拼接,以得到对应的至少一个候选词组,包括:对于每个所述文本,将所包含的多个所述关键词中,任意相邻的两个关键词顺序拼接,以得到对应的所述至少一个候选词组,其中,在所述对于每个所述文本,将所包含的多个所述关键词按照预设方式进行拼接,以得到对应的至少一个候选词组之前,还包括:对每个所述文本所包含的多个所述关键词进行命名实体识别,以获取各所述关键词的所属类别,将所属类别为预设类别的关键词替换为对应的预设类别,以对所述关键词进行更新; 基于各所述文本对应的所述至少一个候选词组,对所述待聚类文本集进行分组,以得到多个文本集合; 按照预设聚类方式,对多个所述文本集合分别进行聚类处理,以得到多个目标类簇,包括:对多个所述文本集合分别进行初次聚类,以得到包括多个初始类簇的类簇集,基于所述类簇集,采用单遍Singlepass聚类算法,对多个所述文本集合进行二次聚类,以得到所述多个目标类簇; 所述类簇集中包括所述多个文本集合中的部分文本;所述基于所述类簇集,采用单遍Singlepass聚类算法,对多个所述文本集合进行二次聚类,以得到所述多个目标类簇,包括: 对于多个所述文本集合中未归入所述类簇集的目标文本,确定所述目标文本与所述类簇集中当前包括的各初始类簇的簇心之间的第一相似度,并获取各所述第一相似度中的最高相似度; 在所述最高相似度大于第一预设阈值的情况下,将所述目标文本归入所述最高相似度对应的初始类簇; 在所述最高相似度不大于所述第一预设阈值的情况下,新建一个初始类簇,并将所述目标文本归入新建的所述初始类簇,以及将新建的所述初始类簇加入所述类簇集,以对所述类簇集进行更新; 将多个所述文本集合中各文本均归入所述类簇集时,所述类簇集中包括的各初始类簇,确定为所述多个目标类簇; 在对所述类簇集进行更新后,对于后续的目标文本确定第一相似度时,所述类簇集中当前包括的各初始类簇为更新后的类簇集中包括的多个初始类簇,其中,获取目标文本与初始类簇的簇心之间的第一相似度方式包括:将所述目标文本向量化,获取所述目标文本对应的第一向量,从所述初始类簇中任意获取一个文本,并将所述文本向量化,将得到的向量作为所述初始类簇的簇心对应的第二向量,确定所述第一向量与所述第二向量的相似度,将所述相似度作为所述目标文本与所述初始类簇的簇心之间的第一相似度; 所述基于各所述文本对应的所述至少一个候选词组,对所述待聚类文本集进行分组,以得到多个文本集合,包括: 确定各所述候选词组在预设统计指标下的统计值,并根据所述统计值,对各所述候选词组进行筛选,得到多个目标候选词组,其中,所述预设统计指标包括自由度、内聚度、词频中的至少一个; 对于每个所述目标候选词组,将所述待聚类文本集中,包含所述目标候选词组中各关键词的文本的集合,确定为对应的所述文本集合; 所述将所述目标文本归入所述最高相似度对应的初始类簇之后,还包括: 更新所述最高相似度对应的初始类簇的簇心; 对于所述最高相似度对应的初始类簇中各文本,确定与所述更新后的簇心之间的第二相似度; 将与所述更新后的簇心之间的第二相似度不大于所述第一预设阈值的文本,从所述最高相似度对应的初始类簇中移出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人来也科技(北京)有限公司,其通讯地址为:100080 北京市海淀区丹棱街3号B座17层1-43单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励