福建亿榕信息技术有限公司;国网信息通信产业集团有限公司邢国用获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福建亿榕信息技术有限公司;国网信息通信产业集团有限公司申请的专利基于语言大模型的文档聚类排序方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118152572B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410377375.3,技术领域涉及:G06F16/355;该发明授权基于语言大模型的文档聚类排序方法、系统、设备及介质是由邢国用;庄莉;梁懿;丘志强;郑耀松设计研发完成,并于2024-03-29向国家知识产权局提交的专利申请。
本基于语言大模型的文档聚类排序方法、系统、设备及介质在说明书摘要公布了:本发明公开了基于语言大模型的文档聚类排序方法、系统、设备及介质,其中方法包括:收集文档数据进行结构化处理与预处理;将文档内容输入语言大模型得到向量化表示;对向量化文档内容使用聚类算法得到文档簇及文档簇中的相似度矩阵,对各文档簇内文档按照相似度矩阵的加权和进行簇内排序,将排序前十的文档标题作为种子文档标题;统计文档簇中的各等级文档数量、文档总数与文档簇相关系数加权和,并计算所述三个指标的加权和,得到各文档簇最终得分,按照得分高低排序;将种子文档标题与设定prompt输入语言大模型生成短句,作为文档簇的类标签。本发明能够使得文档向量化更加准确,类排序依据更加科学,类标签的生成更加具体化、自动化。
本发明授权基于语言大模型的文档聚类排序方法、系统、设备及介质在权利要求书中公布了:1.基于语言大模型的文档聚类排序方法,其特征在于,包括以下步骤: S1:收集文档数据并进行结构化处理,所述文档数据包括文档内容与文档信息,所述文档信息包括文档标题与文档等级,对经过结构化处理的文档内容进行预处理; S2:将经过预处理的文档内容输入语言大模型计算得到文档内容的向量化表示; S3:对经过向量化处理的文档内容使用聚类算法得到多个文档簇,各文档簇中文档通过向量计算得到基于向量距离的相似度矩阵,对各文档簇内文档按照相似度矩阵的加权和进行簇内排序,将簇内排序为前十的文档作为种子文档,所述种子文档的文档标题为种子文档标题; S4:使用种子文档标题计算各文档簇内相关系数得到相关系数加权和,基于经过结构化处理的文档信息中的文档等级,统计文档簇中的各等级文档数量,根据各等级文档数量、文档总数与文档簇内相关系数加权和三个指标,计算所述三个指标的加权和,得到各文档簇最终得分,按照得分高低对文档簇进行文档排序; S5:将各文档簇内的种子文档标题与设定prompt输入语言大模型生成概括文档簇信息特征的短句,将所述短句作为文档簇的类标签; 所述步骤S3中对各文档簇内文档按照相似度矩阵的加权和进行簇内排序具体为: S31:各文档簇内的文档的向量化表示集合为,其中为文档簇内文档总数,文档簇内第个文档与第个文档的相似度矩阵为,相似度矩阵的计算公式具体为: 式中,为文档簇内第个文档的向量化表示,为文档簇内第个文档的向量化表示; S32:文档簇内第个文档的相似度矩阵加权和的计算公式具体为: 式中,为第个文档的相似度矩阵加权和,为第个相似度矩阵的权重,为文档簇内第个文档的向量化表示; S33:对各文档簇内文档按照相似度矩阵的加权和进行簇内排序。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福建亿榕信息技术有限公司;国网信息通信产业集团有限公司,其通讯地址为:350000 福建省福州市鼓楼区软件大道89号G区20号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励