合肥大智慧财汇数据科技有限公司冯卫强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥大智慧财汇数据科技有限公司申请的专利一种基于RAG的非结构化数据通用结构化采集方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120448393B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510947600.7,技术领域涉及:G06F16/22;该发明授权一种基于RAG的非结构化数据通用结构化采集方法及系统是由冯卫强;张友豪;周凡;邓常欢;陶厚扣;赵满意设计研发完成,并于2025-07-10向国家知识产权局提交的专利申请。
本一种基于RAG的非结构化数据通用结构化采集方法及系统在说明书摘要公布了:本发明涉及人工智能与数据工程技术领域,尤其是一种基于RAG的非结构化数据通用结构化采集方法及系统。本发明首先构建存储业务表的表结构和字段信息的知识库;然后利用大模型对输入的非结构化文本进行指标识别和抽取;接着利用检索增强生成技术,针对每个抽取出的指标,在知识库中检索匹配出多个最相似业务字段;基于输入的非结构化文本以及各指标的最相似的业务字段信息,辅助大语言模型选举出指标在特定业务场景下的最匹配业务字段;最后,结合最匹配业务字段将指标自身的指标值存储到知识库中。本发明适用于针对领域内各业务线通用的指标抽取,能自动化对齐和筛选特定业务场景下的业务字段并入库,实现了一种非结构化数据通用的数据采集方法。
本发明授权一种基于RAG的非结构化数据通用结构化采集方法及系统在权利要求书中公布了:1.一种基于RAG的非结构化数据通用结构化采集方法,其特征在于,首先构建知识库存储业务数据表及业务字段的元数据; 针对待采集文本采用第一大语言模型抽取指标,每一个指标关联有指标名称、指标值、指标类型和置信度分数; 在知识库中针对各指标进行检索匹配,得到各指标的一个或者多个最相似业务字段; 采用预训练的第二大语言模型基于指标及其对应的最相似业务字段筛选一个最匹配业务字段,并标注匹配度和匹配依据;筛选有效最匹配业务字段,有效最匹配业务字段的匹配度大于设定的匹配阈值;令保留有效最匹配业务字段的指标记作有效指标; 对有效指标进行校验,保留通过校验的有效指标作为业务指标,结合业务指标对应的最匹配业务字段将业务指标存储到知识库中;业务字段的元数据包括字段名称、业务语义描述、数据类型、值域约束和业务表名称; 知识库中各业务字段还关联有元数据的语义向量;在知识库中采用混合检索匹配搜索各指标的最相似业务字段。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥大智慧财汇数据科技有限公司,其通讯地址为:230000 安徽省合肥市蜀山区望江西路99号安高城市广场办2402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励