Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 辽宁材料实验室吴宏辉获国家专利权

辽宁材料实验室吴宏辉获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉辽宁材料实验室申请的专利一种基于大语言模型的文本数据自动提取方法和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120911446B

龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511096892.4,技术领域涉及:G06F40/211;该发明授权一种基于大语言模型的文本数据自动提取方法和设备是由吴宏辉;姜峒伯;朱德鑫;汪水泽;毛新平设计研发完成,并于2025-08-06向国家知识产权局提交的专利申请。

一种基于大语言模型的文本数据自动提取方法和设备在说明书摘要公布了:本发明涉及数据信息处理技术领域,具体为一种基于大语言模型的文本数据自动提取方法和设备。所述方法包括获取目标文本,并将其转化为Markdown格式的文本数据集,文本数据集包括文本数据和表格数据;根据大语言模型构建实体提取提示词,利用大语言模型和实体提取提示词从文本数据集中提取包含目标数据的目标实体,并记录目标实体数量;根据大语言模型构建关系抽取提示词,基于目标实体和目标实体数量,利用大语言模型和关系抽取提示词对文本数据集进行关系抽取,得到目标文本数据集;采用最短路径匹配算法对目标文本数据集进行匹配,得到结构化的目标文本数据。以此方式,可以发挥大语言模型成本低、能力强、速度快和泛化性好的优势,提高文本数据的利用效率。

本发明授权一种基于大语言模型的文本数据自动提取方法和设备在权利要求书中公布了:1.一种基于大语言模型的文本数据自动提取方法,其特征在于,包括: 获取目标文本,并对所述目标文本转化为Markdown格式文本,再运用正则匹配技术对Markdown格式文本的内容进行处理得到文本数据集,文本数据集包括文本数据和表格数据; 根据大语言模型构建实体提取提示词,利用大语言模型和所述实体提取提示词从文本数据集中提取包含目标数据的目标实体,并记录目标实体数量; 根据大语言模型构建关系抽取提示词,基于所述目标实体和目标实体数量,利用大语言模型和关系抽取提示词对文本数据集进行关系抽取,得到目标文本数据集; 采用最短路径匹配算法对目标文本数据集进行匹配,得到结构化的目标文本数据; 所述根据大语言模型构建关系抽取提示词,基于所述目标实体和目标实体数量,利用大语言模型和关系抽取提示词对文本数据集进行关系抽取,得到目标文本数据集,包括:根据大语言模型的上下文分析能力构建关系抽取提示词,所述关系抽取提示词包括小样本关系抽取提示词和大样本关系抽取提示词;若目标实体的数量等于1时,基于目标实体利用大语言模型和小样本关系抽取提示词对文本数据集进行关系抽取,得到小样本文本数据集;若目标实体的数量大于1时,基于目标实体利用大语言模型和大样本关系抽取提示词对文本数据集进行关系抽取,得到文本关系数据集,所述文本关系数据集包括文本实体和文本实体关系;构建评估模型,通过二进制交叉熵损失函数训练所述评估模型,利用训练后评估模型对文本关系数据集进行评价,将评价结果符合评价标准的文本关系数据集作为大样本文本数据集;将所述小样本文本数据集和大样本文本数据集作为目标文本数据集; 所述构建评估模型,通过二进制交叉熵损失函数训练所述评估模型,利用训练后评估模型对文本关系数据集进行评价,将评价结果符合评价标准的文本关系数据集作为大样本文本数据集,包括:采用评估模型从文本关系数据集中提取目标专有名词向量数据集;根据所述文本关系数据集和目标专有名词向量数据集计算得到目标非专有名词向量数据集;利用评估模型的评价模块对所述目标专有名词数据集和目标非专有名词数据集进行评价,将评价结果符合评价标准的文本关系数据集作为大样本文本数据集; 所述评估模型的评价模块,包括: ; ; ; ; ; 其中,为拼接后的特征向量;为目标非专有名词向量数据集;为目标专有名词向量数据集;为特征向量的维度空间;为查询向量;为查询向量的权重矩阵;为查询向量的偏置项;为键向量;为键向量的权重矩阵;为键向量的偏置项;为键向量的维度;为查询向量的转置;为实体对之间的关联评分;为第一个实体在句子中的结束位置索引;为第一个实体中token的索引;为第一个实体在句子中的起始位置索引;为第二个实体在句子中的结束位置索引;为遍历宾语实体中token的索引;为第二个实体在句子中的起始位置索引;为主语实体的第个token与宾语实体的第个token之间的注意力得分。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人辽宁材料实验室,其通讯地址为:110000 辽宁省沈阳市浑南区全运路109-1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。