复旦大学邱锡鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利一种基于子词编码和逆文档频率遮蔽的中文预训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115270764B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110480038.3,技术领域涉及:G06F40/216;该发明授权一种基于子词编码和逆文档频率遮蔽的中文预训练方法是由邱锡鹏;邵云帆设计研发完成,并于2021-04-30向国家知识产权局提交的专利申请。
本一种基于子词编码和逆文档频率遮蔽的中文预训练方法在说明书摘要公布了:本发明提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,包括以下步骤:步骤1,收集中文语料,根据语料通过迭代算法学习一元语言模型,得到词典和出现概率;步骤2,基于一元语言模型对中文语言模型的输入文本进行子词编码,得到子词元素序列;步骤3,计算子词元素序列中每个子词元素的逆文档频率;步骤4,通过逆文档频率遮蔽预测任务来进行预训练,将逆文档频率最高的子词元素进行遮蔽,中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练;步骤5,将语料输入中文语言模型,经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务进行预训练,在计算训练后得到训练好的中文语言模型。
本发明授权一种基于子词编码和逆文档频率遮蔽的中文预训练方法在权利要求书中公布了:1.一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,其特征在于,包括以下步骤: 步骤1,收集大规模无监督的中文语料,根据所述大规模无监督的中文语料通过迭代算法学习一元语言模型,得到所述一元语言模型中用于子词编码的词典和出现概率; 步骤2,基于所述一元语言模型对所述中文语言模型的输入文本进行子词编码,得到子词元素序列; 步骤3,计算所述子词元素序列中每个子词元素的逆文档频率; 步骤4,通过逆文档频率遮蔽预测任务来进行预训练,该逆文档频率遮蔽预测任务为将所述逆文档频率最高的所述子词元素进行遮蔽,所述中文语言模型通过对被遮蔽的所述子词元素进行预测来进行预训练; 步骤5,将所述大规模无监督的中文语料输入所述中文语言模型,分别经过所述子词编码和计算所述逆文档频率后通过所述逆文档频率遮蔽预测任务来进行预训练,在经过大规模计算训练后得到训练好的所述中文语言模型, 其中,所述一元语言模型假设每个子词元素都独立出现,将一段文本作为一个子词元素序列,该段文本的出现概率为文本中所有子词元素出现概率的乘积: 公式1中,V为一个可学习的词典,x为输入的文本,xi为一个子词元素,通过计算所述大规模无监督的中文语料形成的整个数据集上所述中文语言模型的似然L来优化所述出现概率px,公式如下:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。