中国电子科技集团有限公司电子科学研究院梁生霖获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团有限公司电子科学研究院申请的专利一种裁判文书的文本抽取方法及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116894090B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310702271.0,技术领域涉及:G06F16/353;该发明授权一种裁判文书的文本抽取方法及计算机可读存储介质是由梁生霖;郭庆浪;廖勇;林晖;李姗殷;张靖雅;马丽红设计研发完成,并于2023-06-14向国家知识产权局提交的专利申请。
本一种裁判文书的文本抽取方法及计算机可读存储介质在说明书摘要公布了:本发明公开了一种裁判文书的文本抽取方法及计算机可读存储介质,本发明是针对裁判文书信息抽取任务,对现有技术进行优化,将下游任务的输入输出形式改造成预训练任务中的指定形式,从而将信息抽取的各个任务统一起来,不需要研究人员对不同任务构建不同的模型,也不需要对每个抽取任务单独标注。这样可以极大节省资源的消耗,提高信息抽取的效率,同时保证准确率较高。
本发明授权一种裁判文书的文本抽取方法及计算机可读存储介质在权利要求书中公布了:1.一种裁判文书的文本抽取方法,其特征在于,包括: 对待抽取的裁判文书进行筛选处理,得到符合预设分类要求的裁判文书文本,将筛选后的裁判文书中的理由和事实部分基于进行识别并提取; 根据接收到的用户指示确定所要获取的裁判文书中的目标信息,构建本体设计,并利用所构建的本体设计来提取裁判文书对应的文本内容,基于本体设计来对裁判文书进行训练得到抽取模型,使得训练后的抽取模型能够识别出本体设计中的信息,所述目标信息为裁判文书的任务; 基于训练得到的抽取模型对待分类的裁判文书进行抽取分类,并利用所述抽取模型分类后的裁判文书以及对应的本体设计进一步对所述抽取模型进行调优处理; 其中,所述本体设计是根据所述裁判文书的分类进行设置的; 所述利用所构建的本体设计来提取裁判文书对应的文本内容,基于本体设计来对裁判文书进行训练得到抽取模型,包括: 将提取后的裁判文书的文本内容及其对应的任务,以提示词语言输入抽取模型,所述任务包括实体识别任务、关系提取任务、事件提取任务和情感提取任务; 所述抽取模型,其中,s为结构化模式指导器,s下包括多个结构化模式指导器,为要输入的句子,下包括多个句子,M为抽取模型,y为抽取任务的输出,j和k均为自然数;= 其中,spot为信息提取任务中的目标名称标签,asso为目标之间关系的名称标签,在使用结构化模式指导器提取时,在目标前面加上spot和asso; 将结构化模式指导器s和要输入的句子拼接后输入至编码器Encoder,将s和x重新编码,得到每一个标签token的隐层表示: ,其中是提示信息,是要抽取的句子; 使用隐层表示在解码器Decoder端生成目标结构化信息:,为第i个输出信息,为第i个token的状态,H为上一步得到的编码信息; 将输入的各个提取任务转化为预设的抽取结构,即将不同的提取任务均拆分为两个抽取操作,其中,第一抽取操作是在输入的原句中找到目标信息片段,第二抽取操作是找出目标信息片段之间的关系; 所述目标信息片段之间的关系包括关系抽取中两个实体之间的关系或事件抽取中论元和触发词之间的关系; 所述抽取模型的损失函数包括: 捕获基本的文本到结构的映射能力:,其中,是编码器参数,是解码器参数,x,y为输入的句子和得到的输出信息对,为正负样例结合的元模式,为每个输入x输出y的二元组x,y的集合,为y的条件概率; 生成有效结构的能力的损失函数:,即对每一个输出结果y的概率p取负对数log,为每条信息抽取记录的集合; 语义表示能力的损失函数:,为每个提取任务句子的合集,为被掩盖的文本,为源文本,是编码器参数,是解码器参数; 将三个损失函数相加得到最终的损失函数:。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团有限公司电子科学研究院,其通讯地址为:100041 北京市石景山区双园路11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励