成都天奥集团有限公司杨茗迪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都天奥集团有限公司申请的专利一种面向开放域的自适应舆情数据分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121092717B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511653415.3,技术领域涉及:G06F16/353;该发明授权一种面向开放域的自适应舆情数据分类方法及系统是由杨茗迪;范振军;覃超;张鹏新;王以财;牛攀峰;周欣怡;胡碟;兰家龙;涂玉珊;吴绪亮;任军;伏坤;刘薇;张帅兵;邓迦心;邹杰林;刘祥凤;张明艳;赖敏;彭浩瀚;何政;邓文杰;古开祥;黄鑫;侯富久;马多良;幸礼璞;席从海;赵正富;施杰池;秦冠文;李杨;罗伟强;吴世军设计研发完成,并于2025-11-12向国家知识产权局提交的专利申请。
本一种面向开放域的自适应舆情数据分类方法及系统在说明书摘要公布了:本申请公开了一种面向开放域的自适应舆情数据分类方法及系统,该方法包括:从多种数据源采集原始文本数据并对其进行预处理,得到纯文本列表,将纯文本列表批量转换为高维语义向量,所有的高维语义向量构成嵌入矩阵;根据纯文本列表中的文本的数量,计算最小聚类数和最大聚类数,通过聚类范围内的所有聚类阈值,生成嵌入矩阵对应的多种聚类方案,计算每种聚类方案的综合评分,选择综合评分最高的聚类方案作为最优方案;基于大模型生成所有聚类簇的主题词;整合最优参数、各聚类簇中的文本、各聚类簇内的主题词,输出结构化分类结果。本申请能够对开放域舆情数据进行高效、智能、可解释的分类。
本发明授权一种面向开放域的自适应舆情数据分类方法及系统在权利要求书中公布了:1.一种面向开放域的自适应舆情数据分类方法,其特征在于,包括: 步骤1:从多种数据源采集原始文本数据并对其进行预处理,得到纯文本列表,将纯文本列表批量转换为高维语义向量,所有的高维语义向量构成嵌入矩阵; 步骤2:根据纯文本列表中的文本的数量,计算最小聚类数和最大聚类数,将最小聚类数和最大聚类数作为聚类范围的最小值和最大值; 步骤3:通过聚类范围内的所有聚类阈值,生成嵌入矩阵对应的多种聚类方案,获得多种聚类方案中的每个聚类方案的聚类标签后,计算每种聚类方案的综合评分,选择综合评分最高的聚类方案作为最优方案,获取最优方案对应的聚类阈值、聚类标签、聚类数量、所有聚类簇的主题词;综合评分根据轮廓系数、类别数量合理性、分布均衡性和句向量语义一致性所确定;句向量语义一致性根据句向量一致性和关键词一致性所确定;聚类标签用于区分不同的聚类方案; 步骤4:提取最优方案对应的所有聚类簇内所有文本,基于大模型生成所有聚类簇的主题词; 步骤5:整合最优参数、各聚类簇中的文本、各聚类簇内的主题词,输出结构化分类结果;所述结构化分类结果包括聚类阈值、聚类数、轮廓系数、综合评分、聚类编号ID、各聚类簇内的主题词、对应文本列表;文本列表包括文本条数及文本示例;最优参数包括聚类阈值、轮廓系数、类别数量合理性得分、分布均衡性得分、语义一致性得分、综合评分; 所述步骤4包括: 步骤41:提取最优方案中每个聚类簇内的所有文本,进行内容清洗,从内容清洗后的所有文中提取前n条文本,从前n条文本中截取前k个字符并拼接为摘要串;内容清洗包括去除前缀标识; 步骤42:构造结构化提示词Prompt,以指令大语言模型根据提供的文本片段即摘要串,提炼核心主题词,并以指定JSON格式输出,避免模型生成冗长解释或思考过程; 步骤43:将构造的结构化提示词Prompt输入大语言模型,获得JSON格式的关键词输出; 步骤44:对大语言模型返回的JSON格式的关键词进行解析,得到每个聚类簇的主题词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都天奥集团有限公司,其通讯地址为:610000 四川省成都市高新西区新业路88号天奥科技产业园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励