当前位置 : 首页 > 专利喜报 > 合肥大智慧财汇数据科技有限公司冯卫强获国家专利权

合肥大智慧财汇数据科技有限公司冯卫强获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉合肥大智慧财汇数据科技有限公司申请的专利一种大规模文本数据的主题识别方法、系统和可读介质获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120745647B 。

龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202511233192.5，技术领域涉及：G06F40/30；该发明授权一种大规模文本数据的主题识别方法、系统和可读介质是由冯卫强;张友豪;朱宏民;刘顿;周泳杰;吴彦儒设计研发完成，并于2025-09-01向国家知识产权局提交的专利申请。

本一种大规模文本数据的主题识别方法、系统和可读介质在说明书摘要公布了：本发明公开了一种大规模文本数据的主题识别方法、系统和可读介质，涉及大数据人工智能技术领域，一种大规模文本数据的主题识别方法包括：对所有大规模文本数据进行格式统一处理，基于每篇预处理好的文本数据，获取每篇文本数据的摘要，然后对每篇文本数据的摘要进行向量化处理，再对每篇摘要对应的语义向量查找出语义相近的其他前k个语义向量，并计算与其他前k个语义向量的语义相似度M，基于每个语义向量与其他前k个语义向量的语义相似度进行聚类，得到文本数据的主题识别结果，显著提升大规模文本主题识别的泛化能力、准确率和计算效率，减少了计算资源消耗。

本发明授权一种大规模文本数据的主题识别方法、系统和可读介质在权利要求书中公布了：1.一种大规模文本数据的主题识别方法，其特征在于，包括： S1：对所有大规模文本数据进行格式统一处理，得到所有预处理好的文本数据； S2：基于每篇预处理好的文本数据，获取每篇文本数据的摘要； S3：对每篇文本数据的摘要进行向量化处理，获取每篇摘要的语义向量； S4：对每篇摘要对应的语义向量查找出语义相近的其他前k个语义向量，并计算与其他前k个语义向量的语义相似度M； S5：基于每个语义向量与其他前k个语义向量的语义相似度进行聚类，得到文本数据的主题识别结果；步骤S5包括： S51：基于每个语义向量与其他前k个语义向量的语义相似度，构建对称矩阵； S52：基于对称矩阵构建最小生成树； S53：利用层次聚类方法对最小生成树进行拆分聚类，获取文本数据的主题类别以及每个主题类别的文本集合，从而得到每个主题类别对应的主题识别结果；在步骤S51中基于每个语义向量与其他前k个语义向量的语义相似度，构建对称矩阵，包括： S511：基于每个语义向量与其他前k个语义向量的语义相似度，计算每篇文本数据与其他前k个语义向量对应的文本数据的语义距离，计算公式为：其中，，；i为文本数据篇数编号，也即摘要篇数编号；N为文本数据总篇数；表示第i篇摘要对应的语义向量；n为最相近的其他前k个语义向量中的语义向量编号；表示第i篇文本数据与其他前k个语义向量对应的文本数据中的第n篇文本数据之间的语义距离；表示最相近的第n个语义向量； S512：将文本数据的篇数编号作为矩阵的行列，构建距离矩阵DM；其中，每篇文本数据与其他前k个语义向量对应的文本数据的语义距离作为对应矩阵的值，同时将距离矩阵的对角线上元素置为0，剩余其他元素置为正无穷； S513：基于距离矩阵DM获取对称矩阵，计算公式为：其中，表示矩阵的转置操作。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人合肥大智慧财汇数据科技有限公司，其通讯地址为：230000 安徽省合肥市蜀山区望江西路99号安高城市广场办2402室；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

合肥大智慧财汇数据科技有限公司冯卫强获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务