Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浪潮计算机科技有限公司贡维获国家专利权

浪潮计算机科技有限公司贡维获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浪潮计算机科技有限公司申请的专利基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120851217B

龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511348777.1,技术领域涉及:G06N5/04;该发明授权基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质是由贡维;张晓普;李岩;许泗强;张乐;米壮;马群;孔德颢设计研发完成,并于2025-09-22向国家知识产权局提交的专利申请。

基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质在说明书摘要公布了:本申请提供了基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质,涉及计算机技术领域。其中,基于多级缓存机制的大模型推理方法包括:接收原始请求;基于各个实例的键值缓存分布和负载情况,确定原始请求对应的预填充实例和解码实例;通过预填充实例,基于三级缓存机制确定原始请求多个键值缓存块;基于键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记;通过解码实例,基于预填充阶段的首个输出标记和键值缓存块进行解码阶段的计算,得到原始请求对应的完整输出标记;基于完整输出标记,确定原始请求的推理结果。由此,能够大幅提高了前缀缓存的命中率,有效缓解了负载不均衡的问题。

本发明授权基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质在权利要求书中公布了:1.一种基于多级缓存机制的大模型推理方法,其特征在于,所述方法包括: 接收原始请求; 基于各个实例的键值缓存分布和负载情况,确定所述原始请求对应的预填充实例和解码实例; 通过所述预填充实例,基于三级缓存机制确定所述原始请求多个键值缓存块;所述三级缓存机制是以显卡内存、系统内存和磁盘为缓存顺序的缓存机制; 基于所述键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记; 通过所述解码实例,基于所述预填充阶段的首个输出标记和所述键值缓存块进行解码阶段的计算,得到所述原始请求对应的完整输出标记; 基于所述完整输出标记,确定所述原始请求的推理结果; 其中,所述基于各个实例的键值缓存分布和负载情况,确定所述原始请求对应的预填充实例和解码实例,包括: 对所述原始请求的输入序列进行拆分,得到多个子序列块; 为每个所述子序列块生成哈希值作为所述子序列块的编码标识;所述子序列块的哈希值由所述子序列块中的标记及前一个子序列块的编码标识拼接成的序列映射而成; 将所述原始请求中多个子序列块的编码标识与每个待选预填充实例中的缓存块编码标识逐一对比,得到前缀匹配的最大长度; 基于所述原始请求的长度和所述前缀匹配的最大长度,确定所述原始请求在每个所述待选预填充实例上的首字时延; 将最短首字时延对应的待选预填充实例确定为所述原始请求对应的预填充实例,并为所述预填充实例确定配对的解码实例; 其中,所述通过所述预填充实例,基于三级缓存机制确定所述原始请求多个键值缓存块,包括: 通过所述预填充实例,基于所述子序列块的编码标识,依次在所述显卡内存、系统内存和磁盘中搜索所述子序列块对应的键值缓存块; 响应于所述子序列块对应的键值缓存块的命中率小于第一阈值,则从其他预填充实例中获取未命中的子序列块的键值缓冲块,和或,重新计算未命中的子序列块的键值缓冲块。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮计算机科技有限公司,其通讯地址为:250101 山东省济南市高新区新泺大街1166号奥盛大厦1号楼2324;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。