Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浪潮通用软件有限公司王雪飞获国家专利权

浪潮通用软件有限公司王雪飞获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浪潮通用软件有限公司申请的专利一种面向RAG的文档解析方法、系统及计算机设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120849350B

龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511349299.6,技术领域涉及:G06F16/11;该发明授权一种面向RAG的文档解析方法、系统及计算机设备是由王雪飞;路宽;丁一凡;韩嘉懿;张士良;路鹏程;武淑美;王秀芳;刘金桐设计研发完成,并于2025-09-22向国家知识产权局提交的专利申请。

一种面向RAG的文档解析方法、系统及计算机设备在说明书摘要公布了:本发明涉及人工智能领域,提供了一种面向RAG的文档解析方法、系统及计算机设备。面向RAG的文档解析方法包括,对获取的不同格式的文档进行统一归一化,得到所有文档的Markdown格式;提取Markdown格式的文档中的纯文本内容,对纯文本内容按照Markdown语义结构进行切分,得到若干个文本片段,对所有文本片段进行向量化;提取Markdown格式的文档中的非文本内容,将提取的非文本内容与文本片段向量进行关联,并存储在关系型数据库中;根据用户输入的查询请求,检索关系型数据库中的文本片段向量以及与文本片段向量关联的非文本内容,生成上下文片段。提升了检索精确度和生成答案的完整性。

本发明授权一种面向RAG的文档解析方法、系统及计算机设备在权利要求书中公布了:1.一种面向RAG的文档解析方法,其特征在于,包括: 对获取的不同格式的文档进行统一归一化,得到所有文档的Markdown格式; 所述对获取的不同格式的文档进行统一归一化,得到所有文档的Markdown格式;方法包括: 基于DOCXDOC文档,采用库解析,识别包括段落、标题、列表以及表格,并转换为Markdown格式; 基于PDF文档,进行布局分析,识别包括文本块、图片以及表格,并根据文本块、图片以及表格在页面上的样式信息,推断PDF文档的结构,并转换为Markdown格式; 基于PPTXPPT文档,提取文本内容和非文本内容,按照文本内容和非文本内容在幻灯片中的顺序和层级关系,转换为Markdown格式;所述非文本内容包括:图片、代码以及表格; 基于XLSXXLS文档,转换为Markdown格式的表格语法; 基于TXT文档,提取纯文本内容,转换为Markdown格式; 基于Markdown格式的文档,提取Markdown格式的文档中的纯文本内容,对纯文本内容按照Markdown语义结构进行切分,得到若干个文本片段,对所有文本片段进行向量化;提取Markdown格式的文档中的非文本内容,将提取的非文本内容与文本片段向量进行关联,并存储在关系型数据库中; 所述对纯文本内容按照Markdown语义结构进行切分,方法包括:对纯文本内容,以标题、段落为单位进行切分; 对于非文本,将MD中的图片、代码、表格内容单独存储,并与其在原始文档中的位置、上下文建立关联; 当用户进行检索时,根据用户输入的查询请求,检索关系型数据库中的文本片段向量以及与文本片段向量关联的非文本内容,合并重组后,生成上下文片段;方法包括:将用户输入的查询请求进行向量化,并在向量数据库中进行相似性检索,得到最相关的文本片段向量;对于检索到的每个文本片段向量,检查其在关系型数据库中的关联信息;若该文本片段向量关联非文本内容,从关系型数据库中取出关联的非文本内容;将检索到的文本片段向量对应的内容与关联的非文本内容进行合并和重组,生成上下文片段;经大语言模型生成答案并展示; 在得到文本片段向量之后,存储至向量数据库;在提取Markdown格式的文档中的非文本内容之后,将提取到的非文本内容存储到关系型数据库中; 在对纯文本内容按照Markdown语义结构进行切分之后,采用总损失函数,优化文本片段内语义的连贯性以及不同文本片段之间语义区分性; 所述总损失函数,采用以下公式表示: 其中,表示总损失函数,表示内容一致性损失,表示文本片段连贯性损失,、表示系数,表示文本片段中所有句子的数量,表示句子与句子之间的语义相似度,表示第i个句子的权重,表示参与计算的句子总数,表示跨文本片段对比的范围,表示当前文本片段中位置处于末端的句子与其他多个文本片段中位置处于首端的句子进行语义相似度,、j均表示不同的文本片段,表示文本片段中句子的数量。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮通用软件有限公司,其通讯地址为:250000 山东省济南市历下区浪潮路1036号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。