Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学胡海洋获国家专利权

杭州电子科技大学胡海洋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种面向GPU集群的动态资源调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114647515B

龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210382828.2,技术领域涉及:G06F9/50;该发明授权一种面向GPU集群的动态资源调度方法是由胡海洋;宋建飞;傅懋钟;李忠金设计研发完成,并于2022-04-12向国家知识产权局提交的专利申请。

一种面向GPU集群的动态资源调度方法在说明书摘要公布了:本发明公开一种面向GPU集群的动态资源调度方法。构建资源‑时间模型和资源‑性能模型;进行分布式深度学习任务的动态资源方案决策;根据任务的最优方案执行物理资源节点分配;在动态资源调度算法每次执行任务调度流程前,将分析已运行任务情况,决定是否进行资源迁移:调度器执行调度算法选择新的任务至GPU集群运行。本发明综合考虑了任务自身的完成时间和用户截至完成时间,根据GPU集群负载情况和任务运行情况可实时动态调度GPU工作,有效减少了深度学习训练任务完成时间,最大化截止时间保证率并有效地提高了GPU集群工作效率和GPU集群节点的资源利用率。

本发明授权一种面向GPU集群的动态资源调度方法在权利要求书中公布了:1.一种面向GPU集群的动态资源调度方法,其特征在于包括以下步骤: 步骤1、基于分布式机器学习的Ring-Allreduce通信架构下的DNN模型迭代特征和GPU设备间的带宽差异,构建资源-时间模型: 所述资源-时间模型包括如下: 1.1分布式深度学习任务在某个资源方案下的实际运行时间Trun表示如下: Trun=Tstep×Nstep×Nepoch式1 其中,Tstep是DNN模型训练一个批次大小的数据集所花费的时间,Nstep是DNN模型在一个迭代回合中可输入的一个批次大小的数据集个数,Nepoch表示迭代回合; 1.2Tstep由单个CPU设备上的计算时间Tcal、CPU与CPU设备间的通信时间Tcomm所组成,其计算公式如下: Tstep=Tcal+Tcomm式2 1.3Nstep会随着资源方案所包含的GPU总数不同而发生变化,数量越多,则Nstep则相应地减少;Nstep、DNN模型训练数据集大小Sdataset、批次大小Sbatch和GPU总数NGPU在分布式数据并行训练过程中的关系如下: 其中,NGPU由资源方案上每个节点的cused累加得到,cused表示训练任务在单个节点上被使用的GPU数量; 1.4通过将DNN模型放置在单个GPU设备上进行若干批次的迭代并记录对应的运行时间,由于不涉及多设备通信,因此该运行时间仅包含将单个GPU设备上的计算时间表示如下: 其中,T'step是若干次迭代的运行时间,N'step是相应的迭代次数; 1.5如果不存在通信时间,那么任务的运行时间和资源方案所包含的GPU总数将为反比关系,即随着GPU总数上升,任务的运行时间将会成比例下降,而存在通信时间时,则会导致运行效率的下降;Ring-Allreduce通信架构下的通信时间Tcomm表示如下: 其中,BW是两GPU设备之间的带宽速度,如果两GPU设备处于同一个节点上,则BW就是节点内GPU设备之间的带宽,如果两GPU设备处于不同节点,则BW就是节点间的网络带宽; 步骤2、基于资源方案使用的资源数量、任务运行时间和任务截止时间构建资源-性能模型: 2.1截止时间建模: 2.1.1设用户对于任务的截止时间需求由任务到达时间、任务优先级以及任务最大运行时间所组成,其中最大运行时间是任务仅在单个GPU设备上的运行时间,定义若干任务优先级,将优先级转换为任务的期望运行时间Texp,其计算公式表示如下: 其中,α对应任务优先级,表示任务在单个GPU设备上运行的时间; 2.1.2设任务的到达时间和运行开始时间分别为Tarr和Tstart,则任务的截止时间Tdl和运行结束时间Tend则可分别表示为: Tdl=Tarr+Texp式7 Tend=Tstart+Trun式8 2.1.3当任务的截止时间Tdl和运行结束时间Tend满足下述的式9时,说明任务结束时满足用户的截止时间需求: TendTdl式9 2.2当资源方案所持有的GPU设备都位于同一节点上时,其带宽速度为GPU设备之间的直连带宽,而当资源方案所持有的GPU设备位于不同节点上时,其带宽速度则为节点和节点之间的网络带宽;由式5可知,在NGPU和Nparam不变时,Tcomm随着BW的减少而增加,将式2和式3代入式1中,并要求多机分布式训练的时间比单机训练的运行时间要来得短,则得到如下不等式: 其中,不等式前半部分和后半部分分别为DNN模型在多个节点和单个节点上训练一个迭代回合的时间,化简式10可得: TcommNGPU-1×Tcal式11 当DNN模型在进行多机分布式训练时,Tcomm、NGPU和Tcal只有符合式10才能达到模型训练加速的目的; 2.3为衡量任务在不同资源方案下的性能,并在满足截止时间需求的多个资源方案中选择运行效率最高的资源方案,充分发挥资源性能,将资源-性能模型的性能公式定义为: 其中Tdl表示任务的截止时间; 步骤3、在步骤1、2基础上进行分布式深度学习任务的动态资源方案决策: 为等待队列中的每个任务基于集群空闲资源和资源布局生成可用资源方案列表,根据资源-性能模型并结合集群节点负载情况,确定每个任务的最优资源方案; 步骤4、在步骤3的基础上,根据任务的最优方案执行物理资源节点分配; 步骤5、在动态资源调度算法每次执行任务调度流程前,将分析已运行任务情况,决定是否进行资源迁移; 步骤6、调度器执行调度算法选择新的任务至GPU集群运行。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。