新译信息科技(深圳)有限公司李翔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉新译信息科技(深圳)有限公司申请的专利蒸馏方法、装置及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115018051B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210617823.3,技术领域涉及:G06N3/096;该发明授权蒸馏方法、装置及计算机可读存储介质是由李翔;郭佳华;徐金安;王文正;邢俊文设计研发完成,并于2022-06-01向国家知识产权局提交的专利申请。
本蒸馏方法、装置及计算机可读存储介质在说明书摘要公布了:本发明公开了一种蒸馏方法、装置及计算机可读存储介质,其中,所述蒸馏方法包括:将源端语句输入教师模型的编码器,得到第一低级隐层、第一中级隐层和第一高级隐层;将所述源端语句输入学生模型的编码器得到第二低级隐层、第二中级隐层和第二高级隐层;基于所述第一低级隐层蒸馏所述第二低级隐层,得到第一蒸馏损失,基于所述第一中级隐层蒸馏所述第二中级隐层,得到第二蒸馏损失,以及基于所述第一高级隐层蒸馏所述第二高级隐层,得到第三蒸馏损失;根据所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失优化所述学生模型的编码器。本发明旨在提高蒸馏后的模型的性能。
本发明授权蒸馏方法、装置及计算机可读存储介质在权利要求书中公布了:1.一种蒸馏方法,其特征在于,所述蒸馏方法包括: 将源端语句输入教师模型的编码器,得到第一低级隐层、第一中级隐层和第一高级隐层,所述教师模型的编码器包括六层多头自注意力的编码层; 将所述源端语句输入学生模型的编码器得到第二低级隐层、第二中级隐层和第二高级隐层,所述学生模型的编码器包括三层多头自注意力的编码层; 基于所述第一低级隐层蒸馏所述第二低级隐层,得到第一蒸馏损失,基于所述第一中级隐层蒸馏所述第二中级隐层,得到第二蒸馏损失,以及基于所述第一高级隐层蒸馏所述第二高级隐层,得到第三蒸馏损失; 根据所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失优化所述学生模型的编码器; 其中,所述基于所述第一低级隐层蒸馏所述第二低级隐层,得到第一蒸馏损失,基于所述第一中级隐层蒸馏所述第二中级隐层,得到第二蒸馏损失,以及基于所述第一高级隐层蒸馏所述第二高级隐层,得到第三蒸馏损失的步骤包括: 基于教师模型的第一、第二层的编码层的输出隐层进行拼接后的全连接映射结果蒸馏学生模型的第一层输出隐层,得到第一蒸馏损失,使用教师模型的第三、第四层的输出隐层进行拼接后的全连接映射结果蒸馏学生模型的第二层输出隐层,得到第二蒸馏损失,使用教师模型的第五、第六层的输出隐层进行拼接后的全连接映射结果蒸馏学生模型的第三层输出隐层,得到第三蒸馏损失; 其中,所述根据所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失优化所述学生模型的编码器的步骤,还包括: 将平行语料库中的源端语句和目标端语句输入学生模型中,学生模型对源端语句进行处理,得到学生模型的翻译结果,将翻译结果与目标端语句进行比较,得到学生模型的模型损失;确定所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失的均方差估计值;根据所述模型损失和所述均方差估计值构建多个辅助学习任务;根据所述多个辅助学习任务优化所述学生模型的编码器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人新译信息科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励