吉林大学程博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利文本聚类方法、装置、电子设备和计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116150360B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211653394.1,技术领域涉及:G06F16/353;该发明授权文本聚类方法、装置、电子设备和计算机可读存储介质是由程博;李熙铭;常毅设计研发完成,并于2022-12-21向国家知识产权局提交的专利申请。
本文本聚类方法、装置、电子设备和计算机可读存储介质在说明书摘要公布了:本申请通过提供一种文本聚类方法、装置、电子设备和计算机可读存储介质,基于用以表示各训练文本的全文语义对应的锚词,得到与锚词相应的锚词模型特征,避免额外嘈杂特征的引入,之后,基于锚词模型特征得到各训练文本的第一聚类结果和第二聚类结果,并基于各第一聚类结果与各第二聚类结果分别确定多个训练文本的自训练目标函数,以及确定自训练目标函数的自训练目标值;最后基于自训练目标值更新文本聚类模型,直到文本聚类模型收敛,将收敛后的文本聚类模型应用于文本聚类,经过不断训练直到收敛的文本聚类模型的准确性和稳定性均在不断提高,并且避免了文本聚类的准确率受到额外嘈杂特征的影响。
本发明授权文本聚类方法、装置、电子设备和计算机可读存储介质在权利要求书中公布了:1.一种文本聚类方法,其特征在于,所述方法包括: 获取多个训练文本中各训练文本对应的锚词,基于文本聚类模型确定与各锚词对应的锚词模型特征;其中,各锚词用于表示与各锚词对应的训练文本的全文语义; 将各训练文本中的各锚词模型特征输入所述文本聚类模型,得到各训练文本的第一聚类结果,对各第一聚类结果分别进行归一化处理以得到各第一聚类结果对应的第二聚类结果; 基于各第一聚类结果与各第二聚类结果分别确定所述多个训练文本的自训练目标函数,以及确定所述自训练目标函数的自训练目标值; 基于所述自训练目标值更新所述文本聚类模型,直到所述文本聚类模型收敛,将收敛后的文本聚类模型应用于文本聚类; 其中,所述获取多个训练文本中各训练文本对应的锚词包括: 基于多个训练文本中每个训练文本中的组成词,确定每个训练文本中各组成词的信息量权重; 将每个训练文本对应的各组成词的信息量权重分别由大至小进行排序,获得每个训练文本对应的排序在前的预设锚词数量的信息量权重; 基于所述预设锚词数量的信息量权重对应的组成词,得到每个训练文本中对应的所述预设锚词数量的锚词; 所述将各训练文本中的各锚词模型特征输入所述文本聚类模型,得到各训练文本的第一聚类结果包括: 将每个训练文本中的各锚词模型特征分别输入所述文本聚类模型,得到每个训练文本中各锚词模型特征的预聚类结果; 将每个训练文本中的各锚词模型特征对应的预聚类结果进行加权平均,得到每个训练文本的第一聚类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。