Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华南理工大学杜广龙获国家专利权

华南理工大学杜广龙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华南理工大学申请的专利基于大语言模型的数据知识提取方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119646134B

龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411555650.2,技术领域涉及:G06F16/3329;该发明授权基于大语言模型的数据知识提取方法、系统、设备及存储介质是由杜广龙;李筱茜设计研发完成,并于2024-11-04向国家知识产权局提交的专利申请。

基于大语言模型的数据知识提取方法、系统、设备及存储介质在说明书摘要公布了:本发明公开了一种基于大语言模型的数据知识提取方法、系统、设备及存储介质,方法包括:对获取到的原始数据进行预处理;从原始数据中提取特征,选择对应任务特征,通过计算特征之间的相关系数矩阵,去除高相关性的特征;选择任务的大语言模型,捕捉通用语言和知识,在特定领域或任务的标注数据集上对大语言模型进行微调;基于大语言模型推理与提示词工程,采用二次分块迭代的方式提取知识源信息,利用微调训练后的大语言模型的上下文理解能力,将不同数据源提取的信息进行整合;定义评估标准,分析大语言模型的错误案例,识别改进方向,根据评估结果和错误分析,调整模型参数和训练数据。本发明具备提高知识提取方法的效率和准确率的优点。

本发明授权基于大语言模型的数据知识提取方法、系统、设备及存储介质在权利要求书中公布了:1.基于大语言模型的数据知识提取方法,其特征在于,包括下述步骤: 获取原始数据,对获取到的原始数据进行预处理; 从预处理后的原始数据中提取特征,选择对应的任务特征,通过计算特征之间的相关系数矩阵,去除高相关性的特征; 选择任务的大语言模型,基于大语言模型捕捉通用语言和知识,在对应任务的标注数据集上对大语言模型进行微调;所述在对应任务的标注数据集上对大语言模型进行微调,包括下述步骤: 根据特定任务的需求,修改大语言模型结构,调整输出层、增加特定任务的辅助损失函数,具体为: 首先,对大语言模型进行监督微调,以使得大语言模型具有初步数据知识提取能;所述监督微调是通过收集一个包含输入提示和所需输出的监督数据集,以对大语言模型进行微调; 其次,训练一个奖励模型,所述奖励模型是将监督微调训练后的大语言模型最后的嵌入层去掉后的模型;所述奖励模型以提示和回复作为输入,计算标量奖励值作为输出,奖励模型的训练通过拟合人类对于不同回复的倾向性实现,通过每条样本中两个回复的奖励值之差计算倾向性概率拟合人类标签,进而完成奖励模型的训练;所述奖励模型的损失函数的目标是最大化用户更喜欢的响应和不喜欢的响应之间的差值; 再次,生成策略优化PPO模型,通过所述奖励模型来指导监督微调后的SFT模型继续训练,具体为:首先,当前策略根据输入的查询采样回复;然后,奖励模型针对回复的质量计算奖励,反馈回当前策略用以更新;所述SFT模型继续训练时,在损失函数中加入惩罚项以保证PPO的模型输出和SFT模型的输出差距尽量小,同时在训练目标中加入通用的大语言模型目标来提升性能; 根据预设的微调策略,选择冻结部分预训练模型参数,保留大语言模型在通用语言和知识上的学习,使用标注数据集对大语言模型进行微调与训练,通过反向传播算法更新模型参数; 基于大语言模型推理与提示词工程,采用二次分块迭代的方式提取知识源信息,利用微调训练后的大语言模型的上下文理解能力,将不同数据源提取的信息进行整合;具体为: 结合来自不同数据源的信息,将数据源信息分块,基于微调的中文词嵌入模型生成向量后,基于提示词与大语言模型计算各块信息之间的相似度,并由大语言模型自身生成检索相似度较高的数据源的对应输入问题,并将该输入问题通过大语言模型重新检索不同信息源,再次将信息源内容分块与进行词嵌入,二次检索中的分块大小为第一次的两倍,并将检索后的内容相关性较高的数据信息通过上下文理解考虑文本间的关系,将提取的实体和关系整合成知识图谱,展示实体之间的关系和连接,消除重复信息,并基于检索结果后的内容相似度大小对歧义信息进行处理; 定义评估标准,分析大语言模型的错误案例,识别改进方向,根据评估结果和错误分析,调整大语言模型参数和训练数据。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510640 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。