中国标准化研究院王蒙湘获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国标准化研究院申请的专利一种基于非结构化文档的知识重组检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120179809B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510434778.1,技术领域涉及:G06F16/334;该发明授权一种基于非结构化文档的知识重组检索方法是由王蒙湘;付强;崔宁宁;邱涛;宗传玉;刘娜;张雨辰设计研发完成,并于2025-04-08向国家知识产权局提交的专利申请。
本一种基于非结构化文档的知识重组检索方法在说明书摘要公布了:本发明公开了一种基于非结构化文档的知识重组检索方法,涉及知识重组检索领域,主要方案为:提取用于分析的文本数据,通过对文本数据进行深度分析,得到每个关系分析文本的后验概率和类别概率,实现对所有非结构化文档数据进行分类存储;通过将检索提示词转化为检索文档数据,通过数据处理分析,得到对应检索文档数据的后验概率和类别概率,根据后验概率和类别概率筛选出符合要求的非结构化文档数据,避免出现传统的非结构化文档处理方法难以高效地将大量非结构化数据转换为可供分析的结构化形式,实体识别和关系抽取独立进行,缺乏对两者之间关联性的有效整合,导致信息提取不完整和不准确的问题,显著提高了文本分析和分类的准确性和效率。
本发明授权一种基于非结构化文档的知识重组检索方法在权利要求书中公布了:1.一种基于非结构化文档的知识重组检索方法,其特征在于,包括: 步骤一:获取非结构化文档数据,对非结构化文档数据进行预处理,并提取用于分析的文本数据,形成结构化文本; 步骤二:通过实体识别工具识别每一个结构化文本,输出标注有实体类型和词汇关系的实体信息文本; 步骤三:通过关系抽取工具分析每个实体信息文本,抽取出实体信息文本中的实体类型和不同实体类型之间的关系词,构成关系分析文本; 步骤四:通过BERT预训练模型对关系分析文本进行处理,获取与每个关系分析文本对应的嵌入向量;具体而言,将关系分析文本输入BERT预训练模型,将关系分析文本中的实体类型和词汇关系映射到模型的词汇表中,对应唯一标识符或索引,形成整数序列T={t1,t2,…,tn},将整数序列T输入BERT预训练模型的嵌入层,得到初始嵌入向量E={e1,e2,…,en},将初始嵌入向量E输入BERT预训练模型的Transformer编码器中,输出注意力分数向量;将注意力分数向量输入前馈神经网络,通过对注意力分数向量进行非线性转换,得出注意力转换向量;将注意力分数向量和注意力转换向量进行残差连接和层归一化,得到嵌入向量;注意力转换向量的计算方法为: 将注意力分数向量输入前馈神经网络,通过对注意力分数向量进行非线性转换,得出注意力转换向量,所依据的公式如下: ; 其中,W 1 是转换权重二,W 2 是转换权重三,b1是偏置参数一,b2是偏置参数二; 步骤五:将嵌入向量输入通过图神经网络进行分析,并输出嵌入表示向量; 步骤六:通过朴素贝叶斯模型对嵌入表示向量进行分析,输出每个关系分析文本的后验概率和类别概率,并对所有非结构化文档数据进行分类存储; 步骤七:输入法律领域的检索提示词后,检索提示词形成检索文档数据,通过步骤一至步骤六的数据处理分析,得到对应检索文档数据的后验概率和类别概率,根据后验概率和类别概率筛选出符合要求的非结构化文档数据,作为此次检索的检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国标准化研究院,其通讯地址为:100080 北京市海淀区知春路4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励