哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)施少怀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种混合专家模型的训练方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120911554B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511433405.9,技术领域涉及:G06N3/098;该发明授权一种混合专家模型的训练方法、装置、设备及介质是由施少怀;于潍泓;王强设计研发完成,并于2025-10-09向国家知识产权局提交的专利申请。
本一种混合专家模型的训练方法、装置、设备及介质在说明书摘要公布了:本发明涉及大语言模型技术领域,具体是涉及一种混合专家模型的训练方法、装置、设备及介质。本发明每次迭代过程中,本地节点会产生用于激活远程节点群上的子网络的原始激活值,本发明压缩原始激活值,得到压缩激活值,之后本地节点将压缩激活值发送至远程节点群。每次迭代之后,本地节点生成模型原始梯度并压缩该梯度,以得到压缩梯度,再把压缩梯度发送至远程节点群,远程节点群基于压缩激活值和压缩梯度继续迭代训练混合专家模型。本发明在本地节点和远程节点群之间通信的是压缩梯度和压缩激活值,而不是模型原始梯度和原始激活值,压缩梯度和压缩激活值相对模型原始梯度和原始激活值减少了通信的数量,从而提高了混合专家模型的训练速度。
本发明授权一种混合专家模型的训练方法、装置、设备及介质在权利要求书中公布了:1.一种混合专家模型的训练方法,其特征在于,包括: 迭代训练混合专家模型时,获取在本地节点上产生的原始激活值,压缩所述原始激活值得到压缩激活值; 迭代训练混合专家模型时,获取本地节点上的模型原始梯度,压缩所述模型原始梯度得到压缩梯度; 将所述压缩激活值发送至远程节点群,并将所述压缩梯度发送至远程节点群,所述远程节点群用于基于所述压缩激活值和所述压缩梯度继续迭代训练所述混合专家模型; 迭代训练混合专家模型时,获取本地节点上的模型原始梯度,压缩所述模型原始梯度得到压缩梯度,包括: 本地节点迭代训练混合专家模型时,获取所述混合专家模型中的稠密模型产生的模型原始梯度和所述混合专家模型中的稀疏专家网络产生的模型原始梯度; 分别压缩所述稠密模型的模型原始梯度和所述稀疏专家网络的模型原始梯度,得到各自的压缩梯度,稠密模型的模型原始梯度和稀疏专家网络的模型原始梯度采用不同的压缩阈值; 压缩所述原始激活值得到压缩激活值,包括: 确定所述原始激活值中的最大激活值; 确定以FP8数据格式所能存储的最大值; 基于所述最大激活值和所述最大值,确定缩放因子; 基于缩放因子压缩所述原始激活值,以实现将所述原始激活值压缩成所述FP8数据格式的压缩激活值; 训练之后的混合专家模型用于文本分类,包括: 稠密模型基于输入的文本数据,生成激活值,根据激活值选择稀疏专家网络,被选中的稀疏专家网络并行处理文本数据,根据各个稀疏专家网络的输出结果,得到文本数据的分类结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518055 广东省深圳市南山区西丽平山一路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励