中国人民解放军国防科技大学常俊胜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利自适应分级Top-K剪枝的稀疏注意力加速方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121525746B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610056715.1,技术领域涉及:G06N3/045;该发明授权自适应分级Top-K剪枝的稀疏注意力加速方法及系统是由常俊胜;张怡;梁斌;郭阳;刘胜;潘国腾;沈立;许诺;雷斐;周宏伟设计研发完成,并于2026-01-16向国家知识产权局提交的专利申请。
本自适应分级Top-K剪枝的稀疏注意力加速方法及系统在说明书摘要公布了:本发明公开了一种自适应分级Top‑K剪枝的稀疏注意力加速方法及系统,本发明方法包括对于当前处理的查询行,使用查询向量Qlow与所有行的键向量Klow执行矩阵乘法,得到一行的近似注意力分数,再经过Softmax归一化为注意力概率分布、划分为连续的G组并计算组重要性分数,结合预设的双阈值对G组中的每个组g进行三级决策将每个组动态地判定为不重要、中等重要或重要组并输出对应的非零元素数量Kg,将每组筛选出的Kg个非零元素排序并生成每个概率值在原始的一行注意力概率分布中全局索引的索引位置并输出。本发明旨在实现稀疏注意力的加速,兼顾动态稀疏注意力方法的自适应和灵活性,实现在硬件上的高效执行。
本发明授权自适应分级Top-K剪枝的稀疏注意力加速方法及系统在权利要求书中公布了:1.一种用于稀疏注意力加速系统,其特征在于,包括动态剪枝引擎DPE与稀疏注意力计算引擎SACE,所述动态剪枝引擎DPE包括 查询寄存器,用于缓存来自内存DRAM的查询向量Q; 第一键缓冲区,用于缓存来自内存DRAM的键向量K; PE计算阵列,用于使用查询寄存器中的查询向量Q和第一键缓冲区中的键向量K向量计算一行查询向量Q与所有键向量K得到一行的近似注意力分数; 近似注意力分数寄存器,用于暂存得到的近似注意力分数; 第一Softmax计算模块,用于将暂存的近似注意力分数经过Softmax归一化,转化为一行的注意力概率分布; 概率分布寄存器,用于暂存得到的长度为L的各行的注意力概率分布P=[P1,P2,...,PL]; 剪枝模块,包括组控制器、重要性分数计算单元、阈值比较器、组内Top-K排序器及全局索引生成器,所述组控制器用于将暂存的长度为L的各行的注意力概率分布P=[P1,P2,...,PL]划分为连续的G组,每组包含M个概率值,其中P1~PL分别为第1~L行的注意力概率分布,组大小M为超参数;所述重要性分数计算单元用于为G组中的每个组g计算组重要性分数;所述阈值比较器用于根据组重要性分数,结合预设的双阈值对G组中的每个组g进行三级决策,将每个组动态地判定为“不重要”、“中等重要”或“重要”组,并输出对应的非零元素数量Kg;所述组内Top-K排序器用于将每组筛选出的Kg个非零元素的概率值排序;所述全局索引生成器用于生成组内Top-K排序器筛选出的每个概率值在原始的一行注意力概率分布中全局索引的索引位置并输出给稀疏注意力计算引擎SACE; 所述稀疏注意力计算引擎SACE包括: 数据获取器,用于获取对应的键向量K存储到第二键缓冲区中,以及获取值向量V的数据存储到值缓冲区中,以及获取查询向量Q的数据存储到双缓冲查询寄存器中, 第二键缓冲区,用于缓存来自数据获取器的键向量K; 值缓冲区,用于缓存来自数据获取器的值向量V; 双缓冲查询寄存器,包括两个查询寄存器,其中一个用于缓存来自数据获取器获取的当前的查询向量Q,另一个用于缓存来自数据获取器获取的下一个查询向量Q; MAC计算阵列,用于对来自双缓冲查询寄存器中的查询向量Q、来自第二键缓冲区的键向量K进行内积运算以获得注意力得分并暂存于分数寄存器中; 分数寄存器,用于暂存注意力得分; 第二Softmax计算模块,用于将注意力得分经过Softmax归一化得到注意力概率分布; 乘加单元,用于将注意力概率分布构成的概率矩阵与筛选后的值向量V相乘生成最终注意力输出; 所述稀疏注意力计算引擎SACE对于稀疏注意力的每一个注意力头采用基于动态稀疏模式的增量式加载策略进行数据加载:依据动态剪枝引擎DPE所提供的索引位置,加载首个查询向量Q所需的键向量K存储到第二键缓冲区中、首个查询向量Q所需的值向量V的数据存储到值缓冲区中;在MAC计算阵列处理每一个当前查询向量Q的过程中,提前分析下一个查询向量Q所需的键向量K和值向量V,并检测第二键缓冲区和值缓冲区中是否已缓存相应内容,仅当下一个查询向量Q所需的键向量K和值向量V未被缓存时,才从片外存储器中加载缺失的下一个查询向量Q所需的键向量K和值向量V; 所述稀疏注意力加速系统在执行时采用多个注意力头之间的头级执行流水线以及单个注意力头内部的单头执行流水线两级流水线设计,所述头级执行流水线是指当前的注意力头正在进行注意力计算时,下一个注意力头的键向量K和值向量V加载操作已提前开始;所述单头执行流水线是指当稀疏注意力计算引擎SACE正在处理任意查询向量Q的注意力运算时,动态剪枝引擎DPE已经在并行地为下一个查询向量Q执行剪枝和预取操作,将所需数据提前载入双缓冲查询寄存器中的空闲缓冲区。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励