浙江大学冯天获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利一种基于RoBERTa模型的长文本信息立场检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115203406B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210717351.9,技术领域涉及:G06F16/35;该发明授权一种基于RoBERTa模型的长文本信息立场检测方法是由冯天;张微;尤宁宁设计研发完成,并于2022-06-23向国家知识产权局提交的专利申请。
本一种基于RoBERTa模型的长文本信息立场检测方法在说明书摘要公布了:本发明公开了一种基于RoBERTa模型的长文本信息立场检测方法。本发明在长文本信息立场检测任务中引入基于文本切割的RoBERTa模型,用于编码各索引片段;引入BiLSTM和CRF模块,用于标记关键证据;引入基于Self‑training的半监督学习方法,用于训练BiLSTM和CRF模块。与现有长文本信息立场检测方法相比,本发明通过创新文本分割过程,解决RoBERTa模型对文本长度的限制问题,使其可更关注全局信息,避免因文本长度限制导致的局部信息丢失;通过基于半监督学习的关键句标注,提高模型的可解释性,并抑制长文本噪声对模型最终预测的干扰。
本发明授权一种基于RoBERTa模型的长文本信息立场检测方法在权利要求书中公布了:1.一种基于RoBERTa模型的长文本信息立场检测方法,其特征在于:将待检测的证据文档和声明句,输入已预先训练的立场检测模型中,对声明的真假进行预测; 其中,所述立场检测模型由编码器层、层次注意力机制层、关键句标记层和分类层组成,其中层次注意力机制层包括词级别注意力机制和句级别注意力机制;首先,对拼接后的证据文档和声明句进行分词并转换,得到词索引;对所有词索引构成的索引序列进行带重叠的分割,得到一系列索引片段,将其输入编码器层;在编码器层,使用RoBERTa模型对每个索引片段进行编码,得到词向量;对词向量去除重叠部分后进行重新拼接,得到证据文档和声明句中每个句的词向量序列;然后,在层次注意力机制层,对声明句的词向量序列中的所有词向量进行平均融合,得到声明句向量,将其作为层次注意力机制的查询;对证据文档中每个分句的词向量序列进行词级别注意力机制加权融合,得到句向量;对证据文档中每个分句的句向量进行句级别注意力机制加权融合,得到证据文档向量;同时,在关键句标记层,将证据文档中每个分句的句向量标记为关键句或非关键句;对所有关键句的句向量进行加权融合,得到关键句加权平均向量;最后,将拼接后的关键句加权平均向量、证明文档向量和声明句向量输入分类层,输出声明真假的分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。