国家能源集团财务有限公司何毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家能源集团财务有限公司申请的专利基于RAG处理封装的金融数据预处理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121168458B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511089082.6,技术领域涉及:G06F40/30;该发明授权基于RAG处理封装的金融数据预处理方法及系统是由何毅;许强;李向明;李媛媛;桑旭;刘永红;刘庆贺设计研发完成,并于2025-08-05向国家知识产权局提交的专利申请。
本基于RAG处理封装的金融数据预处理方法及系统在说明书摘要公布了:本发明公开了一种基于RAG处理封装的金融数据预处理方法及系统,涉及数据处理技术领域,所述方法具体包括如下步骤:接收源文档进行多模态解析初处理,输出初始处理数据;根据初始处理数据,提取文档特征确定文档复杂度;进行分片参数动态调整;切分源文档输出初始文本分片序列;根据初始文本分片序列对应标记引用;基于带引用标记的文本分片序列,输出带有量化置信度的溯源数据;执行分级增强并输出增强后的文本分片;校验修正与迭代优化;输出标准化封装并构建图谱。解决了现有技术中基于检索增强生成RAG系统在处理金融等逻辑严密型文档时,通过机械式文本切分策略可能导致的语义关联割裂以及信息完整性受损的的技术问题。
本发明授权基于RAG处理封装的金融数据预处理方法及系统在权利要求书中公布了:1.一种基于RAG处理封装的金融数据预处理方法,其特征在于,包括如下步骤: 接收源文档,并针对源文档进行多模态解析初处理,输出初始处理数据; 根据初始处理数据,进一步提取文档特征确定文档复杂度; 基于文档复杂度进行分片参数动态调整; 结合动态调整的分片参数切分源文档,输出初始文本分片序列; 根据初始文本分片序列对应标记显性引用、隐性引用及跨语言引用; 基于带引用标记的文本分片序列,进一步输出带有量化置信度的溯源数据; 根据带有量化置信度的溯源数据执行分级增强,并输出增强后的文本分片; 进一步针对增强后的文本分片进行校验修正与迭代优化; 根据校验通过的文本分片及优化数据,输出标准化封装并构建图谱; 所述根据初始处理数据,进一步提取文档特征确定文档复杂度,具体包括: 根据接收的源文档初始处理数据,分析所述源文档的句子平均长度、引用表述占比密度、专业术语占比密度、多模态元素占比及语言类型,最终计算生成文档复杂度评分S,具体计算公式如下: S=0.3×Ln+0.2×Rᵣ+0.2×M+0.15×T+0.15×Lᵥ 式中,Ln为句子平均长度归一化值,计算方式为单句平均语义字符数量单句语义字符最大阈值,以此完成不同句子长度的标准化比较,能够将绝对长度数值转换为相对比例数值; Rᵣ为引用表述占比密度,即源文档中隐性引用与显性引用次数之和占比,计算方式为源文档特定字数当中的引用表述总次数,源文档特定字数取值1000时,每1000字中出现的引用表述总次数; M为多模态元素占比,计算方式为图片+公式+表格数量之和源文档总段落数,其中,所述源文档中的图片、公式及表格数量及其总段落数均通过所述源文档初始处理数据获取; T为专业术语占比密度,计算方式为专业术语总次数源文档的总语义字符数; Lᵥ为语言类型系数其中,单语言文档=0.5,多语言文档=1.0; 多语言类型处理增加复杂度,权重为0.15; 根据最终计算生成的文档复杂度评分S划分文档,具体为: 当S≥0.6时,则划分为高复杂度评分文档; 当S0.6时,则划分为低复杂度评分文档; 所述基于文档复杂度进行分片参数动态调整,结合动态调整的分片参数切分源文档,输出初始文本分片序列,具体包括: 根据划分的高复杂度评分文档或低复杂度评分文档,动态调整初始目标分片处理参数:目标分片长度、相邻分片间重叠长度和隐性引用召回K值; 针对高复杂度评分文档,将目标分片长度范围调整为800~1024个字符标记,重叠长度调整为128个字符标记,隐性引用召回K值调整为5; 针对低复杂度评分文档,将目标分片长度范围调整为300~400个字符标记,重叠长度调整为32个字符标记,隐性引用召回K值调整为2; 之后,引入递归字符文本分割算法,所述递归字符文本分割算法的目标分片长度、相邻分片间重叠长度均根据文档特征动态确定,且当所述递归字符文本分割算法检测分割位置可能破坏上下文连续性时,则会触发递归机制,回溯调整分割点,将分割位置前移或后移至完整语义单元,直至所述递归字符文本分割算法检测各组分片内文本逻辑连贯; 将提取的纯文本信息以及虚拟文本片段关联后的文本切割为具有动态重叠区域的初始文本分片,并输出一组带有唯一标识符、原始文档位置元数据及多模态关联标记的初始文本分片序列;所述唯一标识符即为每组分片的专属标识,用于后续分片关联检索;所述原始文档位置元数据为记录每组分片在源文档中的原始位置以用于溯源;所述多模态关联标记即为关于分片包含多模态元素的虚拟文本,标记其与原始多模态元素的关联关系; 显性引用,即初始文本分片中明确指向目标部分的表述; 隐性引用,即不含明确指向但存在回溯指代关系的表述。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家能源集团财务有限公司,其通讯地址为:100044 北京市西城区西直门外大街18号楼2层7单元201、202, 3层7单元301、302;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励