杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院)张留洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院)申请的专利用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120952055B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511475918.6,技术领域涉及:G06F16/22;该发明授权用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法及系统是由张留洋;王子铭;李臻;林晓阳;赵巍胜设计研发完成,并于2025-10-16向国家知识产权局提交的专利申请。
本用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法及系统在说明书摘要公布了:本公开涉及人工智能与自然语言处理技术领域,具体涉及一种用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法及系统,所述用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法,包括:离线校准阶段;在线推理阶段,包括:预填充步骤;自回归生成步骤,对于每个新生成词元:将当前查询向量Q和键缓存中的键向量K分别投影至低维空间得到Q′和K′;基于Q'与K'计算近似注意力分数,并选取从高到低排序的前k个最相关词元的索引I;基于Q与K[I]计算精确注意力分数,与值向量V[I]计算得到当前词元的输出。上述方案解决了长文本序列输入的场景中大模型推理的内存和计算瓶颈,具有同时降低显存占用与计算复杂度的优点。
本发明授权用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法及系统在权利要求书中公布了:1.一种用于大型语言模型推理的键值缓存压缩与稀疏注意力计算方法,其特征在于,包括: 离线校准阶段,对从历史键向量数据集获得的键向量集合执行主成分分析,生成并存储降维投影矩阵P; 在线推理阶段,包括: 预填充步骤,接收输入序列,然后并行处理输入序列的全部词元,仅将对应的键向量K缓存至键缓存,而值向量V通过可逆变换V=K·Wkv即时生成,其中Wkv为离线预计算的权重矩阵;所述输入序列为包括多个词元的长文本序列; 自回归生成步骤,对于每个新生成词元: 将当前查询向量Q和键缓存中的键向量K分别通过所述降维投影矩阵P投影至低维空间,得到Q′和K′; 基于Q'与K'在低维空间计算单元中计算近似注意力分数,并依据所述近似注意力分数通过硬件排序器选取从高到低排序的前k个最相关词元的索引I; 基于索引I对应的全维度键向量K[I]即时生成值向量V[I]; 基于Q与K[I]在高维计算单元中计算精确注意力分数,并基于所述精确注意力分数与所述值向量V[I]计算得到当前词元的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州市北京航空航天大学国际创新研究院(北京航空航天大学国际创新学院),其通讯地址为:311115 浙江省杭州市余杭区瓶窑镇双红桥街166号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励