Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)王继彬获国家专利权

齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)王继彬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)申请的专利一种分布式数据并行训练中的弹性资源调整方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120448040B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510947207.8,技术领域涉及:G06F9/455;该发明授权一种分布式数据并行训练中的弹性资源调整方法是由王继彬;李迪;郭莹;潘景山;吴晓明;杨美红设计研发完成,并于2025-07-10向国家知识产权局提交的专利申请。

一种分布式数据并行训练中的弹性资源调整方法在说明书摘要公布了:本发明涉及一种分布式数据并行训练中的弹性资源调整方法,包括:步骤一:利用性能监控模块实时监测作业性能;步骤二:依据预设适应性函数评估及重分配惩罚机制进行综合考量,对当前集群的资源状况进行全面评估;当通过适应性函数判断不进行重调度会严重影响集群性能时,迅速启动重调度流程;步骤三:根据对适应性函数的持续监测与评估,判断需要对哪些作业执行何种弹性操作;同时,依据弹性调整目标,运用智能节点筛选算法从可用节点池中挑选出最适合的节点;步骤四:执行弹性调度策略,实际进行资源的弹性调整操作;针对于不同作业的不同弹性操作,通过增量式通信拓扑重构机制和梯度缓存与插值补偿机制,实现资源的动态调整与优化配置。

本发明授权一种分布式数据并行训练中的弹性资源调整方法在权利要求书中公布了:1.一种分布式数据并行训练中的弹性资源调整方法,其特征在于,包括: 步骤一:利用性能监控模块实时监测作业性能,收集包括计算负载、通信带宽、GPU利用率关键性能指标; 步骤二:依据预设适应性函数评估及重分配惩罚机制进行综合考量,对当前集群的资源状况进行全面评估;当通过适应性函数判断不进行重调度会严重影响集群性能时,迅速启动重调度流程,着手进行资源弹性调整操作; 步骤三:根据对适应性函数的持续监测与评估,判断需要对哪些作业执行何种弹性操作;同时,依据弹性调整目标,运用智能节点筛选算法从可用节点池中挑选出最适合的节点; 步骤四:执行弹性调度策略,实际进行资源的弹性调整操作;针对于不同作业的不同弹性操作,通过增量式通信拓扑重构机制和梯度缓存与插值补偿机制,实现资源的动态调整与优化配置; 利用增量式通信拓扑构建机制,为作业的计算节点构建新的通信拓扑;包括: 步骤S5051:资源隔离与预检;对于所选择扩展的GPU、内存及网络带宽资源进行隔离,同时进行节点健康检查操作,剔除异常设备; 步骤S5052:拓扑结构探索;调用NCCL拓扑发现接口获取硬件拓扑信息,包括集群内所有节点的物理连接关系、GPU架构及网络接口信息; 步骤S5053:通信状态感知;通过分布式探针实时采集节点i,j间通信性能数据,包括单次同步的数据传输量D,实时有效带宽Bi,j,固定通信延迟Li,j及通信队列实时深度Queuei,j; 步骤S5054:通信成本建模;根据获取的硬件拓扑信息和通信性能数据,构建拓扑成本模型定义节点i,j间通信成本Ci,j为多维函数,由数据传输耗时项、固定延迟项和瞬时堵塞项组成,公式如下: 其中,α,β,γ为动态权重系数,满足约束α+β+γ=1且α,β,γ≥0.1;设计逻辑如下: 具体而言,通过最小化通信成本函数Ci,j与分布式探针实时采集到的实际端到端延迟的均方误差,获取最佳权重值α,β,γ; 步骤S5055:最优插入决策;运用强化学习驱动的最优插入算法,以当前通信拓扑结构和节点信息作为状态,新节点插入的位置选择作为动作,基于通信成本的降低幅度作为奖励函数,从候选位置中选择对全局影响最小的插入点,即总成本增量最低;对于拓扑中的现有节点k,量化的成本增量ΔCk定义为插入新节点new后的新增链路成本与原链路断开之前的通信成本的差值,公式如下: ΔCk=Ck,new+Cnew,k+1-Ck,k+19; 步骤S5056:连通性校验;新通信拓扑建立完成后,进行模拟传输测试,确保拓扑中无环路或孤岛节点; 如果不存在连通性问题,则直接进行通信拓扑切换;否则重新执行步骤S1055,再次构建最优通信拓扑; 采用梯度缓存与异步插值补偿机制,通过保存历史梯度数据并利用插值算法动态补偿未完成的梯度计算;包括: 步骤S601:弹性缩容触发; 步骤S602:退出节点筛选;接收缩减请求后,对当前集群的资源状况进行全面评估;包括GPU的使用率、显存占用、网络带宽利用率指标;在选择退出节点时,选择算力利用率低,且数据迁移成本低的作为退出节点;算力利用率低是指:GPU在统计周期内的平均使用率低于设定阈值;定义为:GPU使用率小于30%且显存占用率小于40%;数据迁移成本低是指:将节点上的未完成数据批次或模型副本迁移至其他节点所需的通信成本、等待时间较短;具体是指:数据迁移量小于500MB且网络传输延迟小于10ms,或者该节点上仅参与低优先级、可暂停任务的训练; 步骤S603:一致性校验;在确定退出节点后,检查训练作业是否处于梯度同步安全点,验证待移除节点的计算进度与全局模型版本的一致性; 如果是的话,则执行步骤S604,节点直接退出;否则执行步骤S605,计算退出节点补偿梯度; 步骤S604:节点直接退出; 步骤S605:补偿梯度计算;当退出节点正处于当前mini-batch的梯度计算过程中,启动梯度插值补偿机制;通过融合退出节点的历史缓存梯度与集群实时梯度,生成补偿值以替代未完成的梯度计算; 步骤S606:异步聚合;在补偿梯度生成后,通过非阻塞通信机制实现补偿梯度的快速分发与参数更新同步; 步骤S607:训练作业恢复; 补偿梯度计算;包括: 步骤S6051:梯度缓存获取;为每个计算节点建立一个梯度缓存队列,始终保存最新且最有可能被调用的梯度数据;在退出节点的梯度缓存池中获取最新缓存梯度gcached; 步骤S6052:实时梯度聚合;对剩余n个节点的当前mini-batch梯度{g1,g2,…,gn}进行收集,计算梯度均值 步骤S6053:权重动态修正;引入p作为平衡历史梯度与实时梯度的权重;具体而言,通过将退出节点在当前mini-batch的原始进度值pprogres进行梯度相似度修正操作,调整权重分配: 其中,Δg=gcached-gavg,为梯度差异向量;修正项对退出节点的历史梯度与剩余节点实时梯度的一致性进行量化:||.||表示向量的L2范数,衡量梯度变化幅度; 步骤S6054:补偿梯度融合;通过将退出节点的历史梯度信息与剩余节点的当前梯度信息进行加权融合,生成补偿梯度;通过以下公式计算补偿梯度gcomp: gcomp=p×gcached+1-p×gavg12。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心),其通讯地址为:250353 山东省济南市长清区大学路3501号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。