东吴证券股份有限公司华仁杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东吴证券股份有限公司申请的专利大语言模型的蒸馏方法、装置、电子设备及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119129690B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411311464.4,技术领域涉及:G06N3/084;该发明授权大语言模型的蒸馏方法、装置、电子设备及可读存储介质是由华仁杰;任川;臧延秋;朱巧明;葛菊平;李俊涛设计研发完成,并于2024-09-20向国家知识产权局提交的专利申请。
本大语言模型的蒸馏方法、装置、电子设备及可读存储介质在说明书摘要公布了:本发明提供了一种大语言模型的蒸馏方法、装置、电子设备及可读存储介质,该蒸馏方法包括:获取若干已训练的教师大语言模型,获取包含有多个训练数据的第一数据集合;获取第一数据集合的子集为第二数据集合,基于若干大语言教师模型对第二数据集合中的每个训练数据均进行处理,从而得到第二数据集合中的每个训练数据对应的若干文本序列;获取大语言学生模型,对第二数据集合中的训练数据的文本序列对大语言学生模型进行训练。从而能够对大语言模型的进行蒸馏处理。
本发明授权大语言模型的蒸馏方法、装置、电子设备及可读存储介质在权利要求书中公布了:1.一种大语言模型的蒸馏方法,其特征在于,包括以下步骤: 获取若干已训练的教师大语言模型,获取包含有多个训练数据的第一数据集合; 获取第一数据集合的子集为第二数据集合,基于若干教师大语言模型对第二数据集合中的每个训练数据均进行处理,并获取每个教师大语言模型所输出的文本序列,从而得到每个训练数据对应的若干文本序列; 获取学生大语言模型,对第二数据集合中的每个训练数据均进行以下处理:获取所述训练数据对应的若干文本序列一一对应的若干token向量,将若干token向量排成一个队列,按照从队头朝向队尾的次序获取待训练token向量,所述待训练token向量中的token的数量为Len3,i=1,持续进行以下操作直至i=Len3,所述操作包括:获取所述token向量中的前i个token,将前i个token输入到所述学生大语言模型进行推理,将推理得到的词表的概率分布和第i+1个token的独热编码的向量进行计算并得到交叉熵,将所述交叉熵作为损失函数,进行损失函数计算,梯度计算和反向传播,之后,i的值增加1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东吴证券股份有限公司,其通讯地址为:215000 江苏省苏州市工业园区星阳街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。