北京航空航天大学张润华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学申请的专利一种适配硬件张量指令及内存的神经网络推理优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119416850B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411459693.0,技术领域涉及:G06N3/082;该发明授权一种适配硬件张量指令及内存的神经网络推理优化方法是由张润华;姜宏旭;韩耀郴;汪炜;李波设计研发完成,并于2024-10-18向国家知识产权局提交的专利申请。
本一种适配硬件张量指令及内存的神经网络推理优化方法在说明书摘要公布了:本发明公开了一种适配硬件张量指令及内存的神经网络推理优化方法,属于神经网络推理优化技术领域,包括以下步骤:将不同类型卷积层的卷积运算统一映射为等价的矩阵乘法,获得输入特征图矩阵、卷积核矩阵和输出特征图矩阵;利用硬件指令参数将所述输入特征图矩阵划分为输入特征图子矩阵、所述卷积核矩阵划分为卷积核子矩阵;基于输入特征图子矩阵和卷积核子矩阵,获得输出特征图子矩阵;比较不同复用方式下寄存器从全局缓冲区总读取量的大小,获得最优复用方式;在所述最优复用方式下,利用软件流水线将DRAM切片,以隐藏数据从DRAM到全局缓冲区的调度时间。本发明不仅能够提高硬件计算资源利用率,而且可以显著提升神经网络模型的推理性能。
本发明授权一种适配硬件张量指令及内存的神经网络推理优化方法在权利要求书中公布了:1.一种适配硬件张量指令及内存的神经网络推理优化方法,其特征在于,包括以下步骤: 将不同类型卷积层的卷积运算统一映射为等价的矩阵乘法,获得输入特征图矩阵、卷积核矩阵和输出特征图矩阵; 将输入特征图展开获得所述输入特征图矩阵; 输入特征图矩阵共HI*WI列,每一列的尺寸为CI*K*K; 将卷积核展开获得所述卷积核矩阵; 卷积核矩阵共CO行,每一行的尺寸为CI*K*K; 将输出特征图展开获得所述输出特征图矩阵; 输出特征图矩阵共CO行,每一行的尺寸为HO*WO; 其中,CI为输入特征图通道数,CO为输出特征图通道数,HI为输入特征图高,WI为输入特征图宽,HO为输出特征图高,WO为输出特征图宽,K为卷积核尺寸; 利用硬件指令参数将所述输入特征图矩阵划分为输入特征图子矩阵、所述卷积核矩阵划分为卷积核子矩阵;基于输入特征图子矩阵和卷积核子矩阵,获得输出特征图子矩阵; 比较不同复用方式下寄存器从全局缓冲区总读取量的大小,获得最优复用方式; 基于以下公式获得所述最优复用方式: Vmin=minimizeVInR,VOutR,VWtR; 其中,VInR表示输入复用方式下寄存器从全局缓冲区总读取量;VOutR表示输出复用方式下寄存器从全局缓冲区总读取量;VWtR表示卷积核复用方式下寄存器从全局缓冲区总读取量;Vmin表示取VInR,VOutR,VWtR中的最小值,Vmin对应的复用方式即为所述最优复用方式; 其中,Rin、Rwt、Rout依次表示寄存器从全局缓冲区读取的输入特征图、输出特征图、卷积核的切片大小;表示读取次数; 其中,CI为输入特征图通道数,CO为输出特征图通道数,HI为输入特征图高,WI为输入特征图宽,HO为输出特征图高,WO为输出特征图宽,K为卷积核尺寸;x表示张量指令从输入特征图矩阵中一次获得的最小矩阵宽;y表示张量指令从输入特征图矩阵中一次获得的最小矩阵高和从卷积核矩阵中一次获得的最小矩阵宽;z表示张量指令从卷积核矩阵中一次获得的最小矩阵高; 在所述最优复用方式下,利用软件流水线将DRAM切片,以隐藏数据从DRAM到全局缓冲区的调度时间。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励