新紫光集团有限公司陈杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉新紫光集团有限公司申请的专利KV缓存的管理方法、调度器、介质、设备及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119645660B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411921617.7,技术领域涉及:G06F9/50;该发明授权KV缓存的管理方法、调度器、介质、设备及产品是由陈杰;张楚文;阚宏伟设计研发完成,并于2024-12-24向国家知识产权局提交的专利申请。
本KV缓存的管理方法、调度器、介质、设备及产品在说明书摘要公布了:本公开涉及一种KV缓存的管理方法、调度器、介质、设备及产品,所述方法包括:若监测到主节点在执行推理任务的过程中,存在满足迁移条件的推理序列,则从N个从节点中确定目标从节点;分别向各个主节点下发迁移指令,迁移指令用于指示主节点将第一KV缓存发送至目标从节点,第一KV缓存为主节点生成的第二数量个连续的token对应的KV缓存;向目标从节点下发接收指令,接收指令用于指示目标从节点接收并存储各个主节点分别发送的第一KV缓存。通过上述技术方案,采用主节点和从节点异构的配置方式,可以降低推理系统的总成本,将主节点生成的KV缓存迁移至从节点中,避免主节点在进行长序列推理时KV缓存的爆炸问题。
本发明授权KV缓存的管理方法、调度器、介质、设备及产品在权利要求书中公布了:1.一种Transformer模型中KV缓存的管理方法,其特征在于,应用于基于Transformer模型的推理系统中的调度器,所述推理系统包括所述调度器、M个主节点和N个从节点,所述M个主节点和所述N个从节点用于执行同一个推理任务,所述M个主节点用于加载所述Transformer模型,所述N个从节点无需加载所述Transformer模型,所述主节点的计算能力高于所述从节点的计算能力,M≥1,N≥1,所述M个主节点执行所述推理任务采用的并行策略包括张量并行,张量并行度为nTP,第i个所述主节点用于执行所述Transformer模型第m层至第n层中第j部分的推理任务,i∈[1,M],j∈[1,nTP];所述方法包括: 若监测到所述主节点在执行所述推理任务的过程中,存在满足迁移条件的推理序列,则从所述N个从节点中确定目标从节点,其中,所述迁移条件为所述推理序列包括的token的数量达到第一数量; 分别向各个所述主节点下发迁移指令,所述迁移指令用于指示所述主节点将第一KV缓存发送至所述目标从节点,所述第一KV缓存为所述主节点生成的第二数量个连续的token对应的KV缓存,所述第二数量个连续的token为所述推理序列包括的token,所述第二数量小于或等于所述第一数量; 向所述目标从节点下发接收指令,所述接收指令用于指示所述目标从节点接收并存储各个所述主节点分别发送的所述第一KV缓存; 其中,所述目标从节点包括nTP个第二存储单元组,所述第二存储单元组包括所述Transformer模型中每一层分别对应的第二存储单元;或者, 所述目标从节点包括每一所述主节点分别对应的第三存储单元组,第i个所述主节点对应的所述第三存储单元组中,包括第m层至第n层中每一层分别对应的第三存储单元。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人新紫光集团有限公司,其通讯地址为:100000 北京市海淀区知春路7号致真大厦B座24层2401号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励