北京科杰科技有限公司高海玲获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京科杰科技有限公司申请的专利基于Hadoop生态的大模型训练资源优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121070632B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511624438.1,技术领域涉及:G06F9/50;该发明授权基于Hadoop生态的大模型训练资源优化方法及系统是由高海玲;高经郡;李钦设计研发完成,并于2025-11-07向国家知识产权局提交的专利申请。
本基于Hadoop生态的大模型训练资源优化方法及系统在说明书摘要公布了:本申请涉及模型训练领域,尤其是一种基于Hadoop生态的大模型训练资源优化方法及系统。该方法包括:基于待处理文件的访问特征划分数据热度等级;结合内容关联特征为不同热度等级与内容组合的待处理文件配置对应的副本存储策略或纠删码存储策略对待处理文件进行混合存储;根据内容关联特征将待处理文件划分为多个小文件聚类并合并得到大文件及索引文件;基于访问特征与数据热度等级,在资源分配中求解通信成本最优的资源布局;将Spark处理后混合存储的待处理文件转换为Arrow表;通过资源布局调用GPU资源复用大文件及索引文件完成数据类型适配、存储优化及预处理适配,完成从Arrow表到PyTorch张量的零拷贝转换。
本发明授权基于Hadoop生态的大模型训练资源优化方法及系统在权利要求书中公布了:1.一种基于Hadoop生态的大模型训练资源优化方法,其特征在于,所述方法包括: 采集待处理文件的访问特征与内容关联特征;待处理文件包括多个小文件; 基于所述访问特征划分数据热度等级,数据热度等级按照访问频次分为热数据、温数据、冷数据;结合所述内容关联特征,为不同热度等级与不同内容组合的待处理文件配置对应的副本存储策略或纠删码存储策略,对待处理文件进行混合存储; 根据所述内容关联特征将待处理文件划分为多个小文件聚类并执行合并操作,得到合并后的大文件以及索引文件,所述索引文件用于记录合并后的大文件中各个小文件的定位信息; 基于所述访问特征与数据热度等级,在资源分配中求解通信成本最优的资源布局,优化大模型分布式训练过程中的GPU资源分配,包括:对GPU节点配置专属资源标签实现物理隔离,划分AI专属调度队列,配置所述AI专属调度队列的初始优先级与可访问的GPU节点范围;基于训练任务的GPU资源需求特征与时间约束特征,构建优先级计算模型;通过优先级计算模型生成各训练任务的动态优先级,其中,所述GPU资源需求特征用于反映各训练任务对GPU资源的需求规模,所述时间约束特征用于反映各训练任务的紧急程度;计算过程中,结合数据热度等级对关联热数据的高价值训练任务提升优先级权重;实时监控GPU节点的资源利用率与内存碎片率,当资源利用率与内存碎片率共同满足预设抢占触发条件时,基于任务剩余生命周期评估结果筛选低价值训练任务并终止低价值训练任务以释放被占用的GPU资源,被终止的低价值训练任务进入重试队列且重试后的动态优先级提升;通过配置后的GPU节点上报拓扑信息;结合拓扑信息以及数据热度等级构建GPU亲和性矩阵,在资源分配中通过GPU亲和性矩阵求解通信成本最优的资源布局,优化分布式训练的GPU资源分配与热数据存储位置之间的适配度; 将Spark处理后混合存储的待处理文件转换为Arrow表;通过所述资源布局调用GPU资源,复用合并后的大文件以及索引文件完成数据类型适配、存储优化以及预处理适配,并基于Arrow内存直接映射机制完成从Arrow表到PyTorch张量的零拷贝转换。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京科杰科技有限公司,其通讯地址为:100096 北京市海淀区东升科技园北街6号院10号楼11层101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励