Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 山东浪潮科学研究院有限公司李圣伟获国家专利权

山东浪潮科学研究院有限公司李圣伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉山东浪潮科学研究院有限公司申请的专利一种RAG多模态文档解析方法、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120087357B

龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510571284.8,技术领域涉及:G06F40/205;该发明授权一种RAG多模态文档解析方法、设备及介质是由李圣伟;周祥龙;仵夺;李彬;魏子重设计研发完成,并于2025-05-06向国家知识产权局提交的专利申请。

一种RAG多模态文档解析方法、设备及介质在说明书摘要公布了:本说明书实施例公开了一种RAG多模态文档解析方法、设备及介质,涉及自然语言处理技术领域,用于解决现有解析方式的处理能力低的问题。方法包括:识别多模态文档的文档类型,基于文档类型将多模态文档的解析任务,分配到对应的Kubernetes任务节点;基于多模态文档的解析需求,调整各Kubernetes任务节点的解析流程,以基于更新后的解析流程执行所述多模态文档的解析任务,获得解析数据;对解析数据进行预处理,以基于预置大语言模型的动态文本分窗方式对处理后的解析数据进行语义切片,获得处理后的解析数据所对应的语义分块;将语义分块转换为嵌入向量,并存储于预置向量数据库中,以便基于预置向量数据库进行快速检索。

本发明授权一种RAG多模态文档解析方法、设备及介质在权利要求书中公布了:1.一种RAG多模态文档解析方法,其特征在于,所述方法包括: 基于多模态文档解析系统获取用户端上传的多模态文档,以基于分类模型识别所述多模态文档的文档类型; 基于所述文档类型将所述多模态文档的解析任务,分配到对应的Kubernetes任务节点;其中,各所述Kubernetes任务节点具有相应的解析器; 基于所述多模态文档的解析需求,调整各所述Kubernetes任务节点的解析流程,以基于更新后的解析流程执行所述多模态文档的解析任务,获得解析数据; 对所述解析数据进行预处理,以基于预置大语言模型的动态文本分窗方式对处理后的解析数据进行语义切片,获得处理后的解析数据所对应的语义分块; 将所述语义分块转换为嵌入向量,并存储于预置向量数据库中,以便基于所述预置向量数据库进行快速检索; 获取用户端上传的多模态文档之前,所述方法还包括: 在所述多模态文档解析系统上安装配置Kubernetes集群的容器编排环境,并安装初始化预置分布式存储系统,实现所述多模态文档解析系统的环境初始化; 获取用户端创建的文档上传任务所对应的元数据属性,以基于所述元数据属性自动生成存储路径; 基于预置分片大小对所述多模态文档进行分片,以基于所述存储路径将各分片并行上传至所述预置分布式存储系统,并生成所述多模态文档所对应的唯一文档标识符;其中,所述预置分布式存储系统为MinIO分布式存储系统; 基于所述文档类型将所述多模态文档的解析任务,分配到对应的Kubernetes任务节点,具体包括: 获取Kubernetes集群的可扩展调度器框架,以基于用户端的所对应的解析场景对所述可扩展调度器框架进行二次开发,构建所述解析任务的调度决策引擎; 接收用户端创建的批量解析任务,以基于批量解析任务所对应的各多模态文档的文档类型和存储路径,生成各所述多模态文档的解析任务,并将各解析任务提交至Kubernetes的任务队列中; 获取Kubernetes集群中各个任务节点的指标数据,以基于所述指标数据评估所述Kubernetes集群中各任务节点的资源状况; 基于所述调度决策引擎获取所述任务队列中各解析任务,以基于各文档类型所对应的平均解析资源与各节点的资源状况进行,对所述解析任务进行调度,确定各解析任务所对应的Kubernetes任务节点; 若确定所述多模态文档已存储到预置分布式存储系统,则基于所述预置分布式存储系统触发所述多模态文档的分类任务,以提取所述多模态文档内对应的前置内容,以将所述前置内容作为所述分类任务的分类依据内容; 提取所述多模态文档内对应的前置内容,以将所述前置内容作为所述分类任务的分类依据内容,具体包括: 基于文档领域的历史分类任务记录,确定所述多模态文档提取内容的约束条件;其中,所述约束条件包括:延迟预算、计算资源限制; 根据所述历史分类任务记录所对应的历史解析数据,确定不同类型文档的关键信息分布信息; 基于所述不同类型文档的关键信息分布信息,确定所述多模态文档所对应的关键信息集中区域; 基于所述约束条件与所述关键信息集中区域,定义当前提取内容所对应的目标函数; 在所述分类模型的可分析容量范围内对所述目标函数进行模拟退火,以迭代确定所述多模态文档应提取的前置内容的大小。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东浪潮科学研究院有限公司,其通讯地址为:250101 山东省济南市高新区浪潮路1036号S02号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。