河海大学张涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河海大学申请的专利一种多罪名预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114519103B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210124252.X,技术领域涉及:G06F16/35;该发明授权一种多罪名预测方法是由张涛;徐良;张燕设计研发完成,并于2022-02-10向国家知识产权局提交的专利申请。
本一种多罪名预测方法在说明书摘要公布了:本发明提供了一种多罪名预测方法,包括:步骤1,对文本摘要模型进行训练,得到案情摘要;步骤2,将案情描述与案情摘要拼接,得到当前时间步的案情编码向量;步骤3,采用UniLM模型的双向语言模型对向量序列进行编码,取编码后所有位置的输出向量;步骤4,计算得到当前时间步的案情和罪名注意力编码向量;步骤5,得到当前时间步预测出的罪名。本发明能够获取各罪名的语义信息以及罪名之间的相互关系,最后在解码过程中加入案情‑罪名注意力机制,计算解码过程中隐藏状态和所有罪名的相关性,显著提升了多罪名预测的准确率。
本发明授权一种多罪名预测方法在权利要求书中公布了:1.一种多罪名预测方法,其特征在于,包括如下步骤: 步骤1,对文本摘要模型进行训练,将案情描述输入训练好的文本摘要模型,得到案情摘要; 步骤1包括:文本摘要模型选择UniLM模型,在训练文本摘要模型时,输入内容包括:[CLS]新闻内容[SEP]新闻摘要[SEP],其中[CLS]为开始标记,[SEP]为结束标记,通过UniLM模型的掩码机制掩盖新闻摘要中的字,让UniLM模型学习逐个恢复被掩盖的字,训练目标是基于上下文最大化被掩盖字的似然度,结束标记[SEP]也能够被掩盖,模型预测到结束标记即结束预测; 步骤2,将案情描述与案情摘要拼接; 步骤3,将所有罪名精简为长度为X1的字符串; 步骤4,取步骤2得到的案情编码向量作为解码过程中的当前隐藏状态,计算得到当前时间步的案情和罪名注意力编码向量; 步骤5,将案情编码向量与案情和罪名注意力编码向量拼接作为解码过程中的当前时间步的输入,将所述输入经过全连接层映射到中文字典的维度,取概率最大的位置对应的罪名即当前时间步预测出的罪名; 步骤2包括:案情描述与案情摘要之间加入@@@作为分隔符,通过字级分词器和中文字典分别进行分词和词嵌入,将输入文本转化为向量序列,采用UniLM模型的双向语言模型对向量序列进行编码,取输出的最后一个向量作为当前时间步的案情编码向量; 步骤2中,训练时案情描述和对应罪名以句子对的形式进行输入,测试时仅输入案情描述,格式为:[CLS]案情描述@@@案情摘要[SEP],其中@@@用于区分案情描述和案情摘要,每个字的表征方式由词嵌入、位置嵌入和分段嵌入组合而成; 步骤2中,首先由Bert的字级分词器对拼接的案情描述和案情摘要进行分词,返回分词后的字的数组,再根据中文字典中字和数值的一一对应关系将字的数组转化为值的数组,通过深度学习pytorch框架的nn.embedding方法将每个字的独热编码转化为768维的稠密向量; 位置嵌入将单词的位置信息编码成特征向量,从而引入单词位置关系; 步骤2还包括:对于长度512的输入,词向量维度为768,位置嵌入是512,768的查询表,序列的每个位置的位置嵌入对应表中相应的行,其中的值在模型训练过程中不断学习; 步骤2还包括:UniLM模型的骨干网络包括24层Transformer网络,经过词嵌入之后,UniLM模型的输入向量转化为由768维词向量组成的序列H0=[x1,...,x|x|],送入24层Transformer网络,在不同层融合上下文信息,每层Transformer使用多头注意力融合上一层输出的向量,第l层编码输出为 表示词向量在第l层编码对应位置的输出; 对于第l层Transformer网络,Transformer网络中的自注意头Al的输出的计算方式为: Q=Hl-1Wl Q, K=Hl-1Wl K, V=Hl-1Wl V 上一层的输出Hl-1通过第l层三个参数矩阵Wl Q、Wl K、Wl V分别被线性的投影为查询向量Q、键向量K和值向量V,dk为词向量的维度,掩码矩阵M则用来控制对应位置的信息是否对上下文可见,Mij表示掩码矩阵M中第i行第j列的值;如果Mij值为0,则allowtoattend表示所有字都可以访问,如果Mij值为-∞,则preventfromattending表示对上下文不可见。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:210024 江苏省南京市鼓楼区西康路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。