浪潮云信息技术股份公司赵桂越获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浪潮云信息技术股份公司申请的专利基于关键词检索DOCX文档内容的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121029978B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511574244.5,技术领域涉及:G06F16/334;该发明授权基于关键词检索DOCX文档内容的方法及系统是由赵桂越;董方辉;朱璐;于希光;冯树新设计研发完成,并于2025-10-31向国家知识产权局提交的专利申请。
本基于关键词检索DOCX文档内容的方法及系统在说明书摘要公布了:本发明属于文本处理技术领域,具体涉及基于关键词检索DOCX文档内容的方法及系统,包括通过解析DOCX文档的OfficeOpenXML结构,结合样式名称等多维特征,利用标题分类得分模型精准区分标题与正文,有效保留了文档的语义层级结构;其次,引入多级语义扩展机制,融合Sentence‑BERT、HowNet知识库与Word2Vec模型,实现对关键词的同义词、近义词智能扩展,显著提升检索的召回率与语义理解能力。再者,采用BM25模型结合段落长度归一化与结构位置权重计算相关性得分,使检索结果排序更加精准合理。倒排索引的构建结合位置编码与压缩优化策略,兼顾检索效率与存储性能。
本发明授权基于关键词检索DOCX文档内容的方法及系统在权利要求书中公布了:1.一种基于关键词检索DOCX文档内容的方法,其特征在于,包括: S1、通过文档解析模块加载DOCX文件,遍历所有段落与表格,提取各段落文本及样式信息,并依据样式名称、字体大小、加粗属性中的至少一种特征将段落分类为标题或正文,形成结构化文本数据; S2、对结构化文本数据进行文本预处理:去除非中英文字符及多余空格,采用分词工具对剩余文本进行分词,并加载停用词表过滤无意义词汇,得到净化后的词序列; S3、基于词序列构建倒排索引,建立关键词到出现位置的一一映射关系,位置至少包括段落编号及段落内偏移量; S4、接收用户输入的关键词,利用自然语言处理模型对关键词执行语义扩展,获得原关键词的同义词和或近义词集合,形成扩展关键词列表; S5、依据扩展关键词列表在倒排索引中执行多模式匹配,多模式至少包括精确匹配、模糊匹配、同义词匹配中的一种,得到初始匹配段落集合; S6、对初始匹配段落集合中的每一段落计算相关性得分,并按相关性得分降序排列后输出排序结果; S7、将排序结果中的关键词在对应段落中进行高亮标记,并提取匹配句及其前后相邻句子生成摘要,摘要长度由用户配置的最大句子数动态决定; S8、将高亮后的段落及摘要导出为HTML、TXT或PDF格式,完成检索结果的持久化; 步骤S1包括: S11、通过文档解析模块加载指定路径的DOCX文件,利用python-docx库解析文档的OfficeOpenXML结构,生成文档对象模型树,该模型树包含所有段落元素和表格元素,并确保文档结构完整性; S12、遍历文档对象模型树中的每个段落元素,提取段落的文本内容,并获取段落的样式属性信息,样式属性信息至少包括样式名称、字体大小和加粗属性,其中样式名称从段落样式的name属性提取,字体大小从字体尺寸属性提取,加粗属性从字体重量属性提取; S13、基于所提取的样式属性信息,计算每个段落的标题分类得分,并根据得分与预设阈值的比较结果,将段落分类为标题或正文,其中标题分类得分的计算公式为: ; 其中,表示段落p的标题分类得分;是指示函数,当段落p的样式名称属于预定义标题样式集合T时取值为1,否则为0;表示段落p的字体大小,单位为磅;表示段落p的加粗属性,如果加粗则取值为1,否则为0;表示基准字体大小,为预设常数;、为权重系数;若,则将段落p分类为标题,否则分类为正文,其中θ为预设得分阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮云信息技术股份公司,其通讯地址为:250101 山东省济南市高新区浪潮路1036号浪潮科技园T03号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励