湖南大学唐卓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利改进深度学习模型分布式数据并行训练效率的方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115859117B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211656348.7,技术领域涉及:G06F18/214;该发明授权改进深度学习模型分布式数据并行训练效率的方法和系统是由唐卓;宋莹洁;李肯立;肖雄;纵瑞星;阳王东;周旭;刘楚波设计研发完成,并于2022-12-22向国家知识产权局提交的专利申请。
本改进深度学习模型分布式数据并行训练效率的方法和系统在说明书摘要公布了:本发明公开了一种改进深度学习模型分布式数据并行训练效率的方法,首先,在预训练阶段,判断深度学习模型的所有层中哪些相邻层一起执行梯度通信能够使迭代时间最短,以得到梯度合并策略;其次,在正式训练的参数同步阶段,所有节点按照梯度合并策略执行分组式的梯度通信。本发明能够解决现有基于通信计算重叠和梯度合并的分布式深度学习分布式数据并行训练中存在的训练效率低的问题,使得每次迭代训练的用时更短,分布式深度学习更加高效。
本发明授权改进深度学习模型分布式数据并行训练效率的方法和系统在权利要求书中公布了:1.一种改进深度学习模型分布式数据并行训练效率的方法,是应用在包括多个节点的Horovod系统中,其特征在于,所述方法包括以下步骤: 1每个节点获取数据集; 2每个节点对深度学习模型进行初始化,以得到初始化后的深度学习模型; 3第1个节点对初始化后的深度学习模型进行n次迭代预训练,并获取n次迭代预训练得到的前向传播计算时间的平均值tf、n次迭代预训练得到的反向传播计算时间的平均值tb、深度学习模型第l层的反向传播计算的开始时间戳以及深度学习模型第l层的梯度pl,且有 表示深度学习模型中第l层的前向传播计算时间,表示深度学习模型中第l层的反向传播计算时间,且有l∈[1,L],L为深度学习模型的层数; 4第1个节点设置计数器k=1; 5第1个节点计算深度学习模型第k层的梯度通信时间 α表示的是Horovod系统中所有节点通信的启动持续时间,β表示Horovod系统中两个节点之间通信过程中传输每字节大小的梯度占用的时间,并设置k=k+1; 6第1个节点判断k是否大于L,如果是则转入步骤7,否则转入步骤5; 7第1个节点设置计数器i=L-1,并设置深度学习模型第L层梯度通信的开始时间戳 8第1个节点获取深度学习模型第i层的梯度通信的开始时间戳并设置计数器i=i-1; 9第1个节点判断i是否小于1,如果是则转入步骤10,否则转入步骤8; 10第1个节点设置计数器j=1,计数器g=1,初始化合并小组二级列表group[:]和一级列表m[:]; 11第1个节点判断是否成立,如果是则转入步骤12,否则转入步骤13; 12第1个节点将深度学习模型第j层的层索引号j添加到一级列表m[:]中,设置设置并转入步骤14; 13第1个节点设置g=g+1,将一级列表m[:]添加到合并小组二级列表group[:]中,清空一级列表m[:],并转入步骤14; 14第1个节点设置j=j+1,并使用步骤12得到的和步骤3得到的以及更新深度学习模型中第j层至第1层的梯度通信的开始时间戳; 15第1个节点判断是否有jL,如果是则返回步骤11,否则转入步骤16; 16第1个节点将合并小组二级列表group[:]以广播的方式发送至Horovod集群的其他所有节点; 17每个节点对深度学习模型从第1层至第L层依次执行前向传播计算,对深度学习模型从第L层至第1层依次执行反向传播计算以获取各层的梯度,并利用获取的深度学习模型中各层的梯度调用Horovod系统中的Ring-AllReduce通信函数执行梯度通信。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410082 湖南省长沙市岳麓区麓山南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。