中国科学技术大学白有辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利大语言模型推理优化方法、系统、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120996208B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511511942.0,技术领域涉及:G06N5/04;该发明授权大语言模型推理优化方法、系统、设备及存储介质是由白有辉;弋嘉炜;龚平;李诚设计研发完成,并于2025-10-22向国家知识产权局提交的专利申请。
本大语言模型推理优化方法、系统、设备及存储介质在说明书摘要公布了:本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质,它们是相对应的方案,方案中:在大语言模型推理时,卸载大部分KV数据至CPU内存。对于KV数据从CPU内存至GPU显存的读取,采用top‑k注意力降低其读取量;并且,将已读取至GPU显存的KV数据进行缓存,使用近似缓存算法、按照KV头为基本单元进行管理;当推理过程中需要读取KV数据时,优先从GPU显存中进行读取,若无法使用,再进行数据预取;得益于以上改进,上述方案可有效降低KV数据占用的显存,并且最小化CPU至GPU的KV数据读取开销,使得推理性能达到理想水平。
本发明授权大语言模型推理优化方法、系统、设备及存储介质在权利要求书中公布了:1.一种大语言模型推理优化方法,其特征在于,包括: 预填充阶段,结合KV头的复用难度,将一部分KV头的KV数据缓存于GPU显存,另一部分KV头的KV数据卸载至CPU内存;其中,使用离线分析的平均余弦相似度,与KV头的预设复用阈值,计算KV头的复用难度,KV头为大语言模型中注意力头的一种类型,KV为键与值,GPU为图形处理器,CPU为中央处理器; 解码阶段,结合最新的词元进行自回归解码,最新的词元为预填充阶段生成的首个新的词元或上一解码步骤生成的新的词元;单个解码步骤中大语言模型当前层的工作过程为:利用当前层的隐向量生成Q数据与KV数据,将KV数据添加至GPU显存或CPU内存,当前层的隐向量为首个新的词元的词嵌入向量或上一层的计算结果,Q为查询;基于当前层的隐向量,以KV头为单元,判断下一层是否需要预取KV数据,若是,则在CPU内存中检索对应KV数据,在当前层的KV数据预取完成后,启动下一层KV数据的预取;利用当前层生成的Q数据在GPU显存中检索KV数据,结合预取的KV数据完成当前层的计算;不断重复至最后一层,利用最后一层的计算结果获得新的词元。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励