Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华东师范大学夏阳获国家专利权

华东师范大学夏阳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华东师范大学申请的专利一种基于大语言模型的多文献智能分类与自动综述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119760143B

龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411924961.1,技术领域涉及:G06F16/355;该发明授权一种基于大语言模型的多文献智能分类与自动综述生成方法是由夏阳;吴淑婧设计研发完成,并于2024-12-25向国家知识产权局提交的专利申请。

一种基于大语言模型的多文献智能分类与自动综述生成方法在说明书摘要公布了:本发明公开了一种基于大语言模型的多文献智能分类与自动综述生成方法,其特点是该方法包括:检索文献或上传本地文献,提取文本内容;利用算法或大型语言模型识别关键词;运用向量化模型将关键词转换为向量形式;利用大语言模型对聚类结果的研究方向进行总结;利用大型语言模型对单篇文献及不同研究方向的文献进行综合概述;通过大型语言模型和向量化语义匹配技术执行综述润色和引文插入等步骤。本发明与现有技术相比具有显著提高文献分类和综述生成的效率与品质,较好地融合了文本向量化、主题聚类以及大型语言模型生成等技术,实现高效、准确的多文献综述自动生成,适用于跨学科的学术文献分析和信息整合应用,展现出广阔的应用潜力。

本发明授权一种基于大语言模型的多文献智能分类与自动综述生成方法在权利要求书中公布了:1.一种基于大语言模型的多文献智能分类与自动综述生成方法,其特征在于,该方法具体包括以下步骤: 1从文献数据库获取目标研究主题的文献集合,并对文献进行初步过滤及文本预处理; 2提取文献中的关键词; 3利用Embedding向量化模型对关键词进行语义向量表示; 4基于向量化结果,采用多种聚类算法对关键词进行分类,并根据每一类关键词的语义特征,利用大语言模型生成对应的研究角度; 5利用大语言模型生成针对单篇文献以及不同研究角度的文献群的分级与分类综述文本,通过整合各研究角度的总结文本,形成经过优化的完整综述文本,实现全面且结构化的总结结果; 6借助大语言模型实施全面的扩写润色及逻辑优化,并依托大型语言模型的分析判断能力结合Embedding模型的语义匹配功能,定位相关文献并在适当位置插入引文; 所述步骤1具体包括: 1.1:获取文献集群 从文献数据库获取与综述主题相关的文献或由用户自主上传文献,形成与综述主题相关的文献集群,该文献集合为特定研究主题、特定研究机构或研究者个人所涉及的文献集合; 1.2:对文献进行初步筛选 逐条检查检索结果中指向文献网页的摘要,判断其是否与选定的综述主题相关联,若相关联,则提取网页中的文献内容进行保存;若无关联,则视为不相关文献,并不予保存; 1.3:文本提取 解析文献的文本内容,提取文献题名、文献摘要及文献正文,整理为结构化数据集; 所述步骤2的关键词提取采用下述方案中的一种或多种方案: 方案一:正则化提取关键词 通过正则化的代码规则提取关键词,利用代码中的正则表达式查找类似规律,精准提取出文献中已明确列出的关键词; 方案二:算法提取关键词 采用包括但不限于:TF-IDF、TextRank或LDA主题模型的算法提取文本中的关键词; 方案三:模型提取关键词 使用大语言模型三次总结文献或摘要得出关键词,并将其输入大语言模型进一步总结关键词; 所述步骤3具体包括: 3.1:将所有的关键词整合成一个关键词表,并将文献与关键词之间形成相互对应的关系,同一篇文献对应多个关键词,同一个关键词对应多篇文献; 3.2:对所有的关键词利用Embedding向量化模型进行向量化,向量化模型包括但不限于SimBERT、BERT或text2vec-large及其相关语言的变种; 所述步骤4具体包括: 4.1:计算并确定各个关键词之间的余弦相似度距离; 4.2:根据所计算的关键词间距离,执行聚类分析操作,所述聚类分析操作采用的聚类算法包括但不限于层次聚类、K-means聚类或密度聚类算法; 4.3:基于聚类算法得到由多个关键词组成每一类的分析结果,利用大型语言模型根据每一类的关键词构建相应的研究视角; 4.4:将每篇文献与其对应的关键词及研究视角进行匹配,以此形成各个研究视角下的文献集合; 所述步骤5利用大语言模型进行以下三次文献总结: 5.1:利用大语言模型对每篇文献的全文内容进行单篇文献的总结提炼,生成每篇文献的综述; 5.2:将各种研究视角的文献总结文本,借助大型语言模型进行第二次分类总结,聚焦于相关研究视角,所述第二次分类总结时需在提示词中明确研究视角,引导模型依据文献在该特定研究主题下进行精准提炼,以确保提炼结果的准确性和完整性,将不同视角下的文献总结文本作为输出结果的一部分供用户参考; 5.3:根据各研究视角生成的综述文本,对整体研究主题进行综合性的分析,得到最终的综述文本; 所述步骤6具体包括: 6.1:借助大型语言模型对文章内容进行扩展,并对其进行逻辑上的优化处理,通过添加衔接上下文的过渡语句以及强化逻辑思维的表述,以提升文章的整体质量; 6.2:借助交互界面实施人工干预,对特定段落或语句进行调整和润饰,系统支持撤销操作、重新生成文本以及自定义编辑; 6.3:将每篇文献的全文通过Embedding模型向量化,如全篇字数超过其模型所能输入的最大长度,则需分段进行向量化; 6.4:将最终的综述文本逐句通过大语言模型进行评估,若评估结果表明需添加引用,则执行下一步;若评估结果表明无需添加,则对下一句进行同样的评估; 6.5:若需引用特定语句,应对其进行向量化处理,采用类似RAG的检索增强方法,通过计算余弦相似度来识别与之最相关的参考文献,并选取相似度最高的文献; 6.6:设定一个阈值以决定是否将相似度最高的文献纳入引用,若最高相似度的文献未能满足阈值要求,则赋予用户手动添加该文献的选项。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。