Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京邮电大学胡德和获国家专利权

南京邮电大学胡德和获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京邮电大学申请的专利基于嵌入式边缘设备的高效图像识别系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119540734B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510029261.4,技术领域涉及:G06V10/96;该发明授权基于嵌入式边缘设备的高效图像识别系统是由胡德和;业苇渡;袁嘉琛;周希明;周剑设计研发完成,并于2025-01-08向国家知识产权局提交的专利申请。

基于嵌入式边缘设备的高效图像识别系统在说明书摘要公布了:本发明涉及一种基于嵌入式边缘设备的高效图像识别系统,属于计算机应用技术领域,包括硬件加速模块,包括硬件加速的卷积操作;通过双核协作将推理任务分配到不同的核心,模型量化模块,量化通过将深度学习模型中的权重和激活从高精度浮点数表示转换为低精度整数,自动部署模块,将训练好的深度学习模型自动转换为适用于嵌入式硬件平台的格式,数据处理模块,对输入数据进行预处理和增强,确保数据满足深度学习模型的输入要求,推理引擎模块,负责在嵌入式设备上加载并运行优化后的深度学习模型,本发明结合模型优化技术与自动化部署工具,在满足嵌入式设备计算、存储与能耗限制的同时,实现高效、可靠的图像识别功能。

本发明授权基于嵌入式边缘设备的高效图像识别系统在权利要求书中公布了:1.基于嵌入式边缘设备的高效图像识别系统,其特征在于,包括: 硬件加速模块,包括硬件加速的卷积操作;通过双核协作将推理任务分配到不同的核心,其中主核负责深度学习模型的推理计算,辅助核负责输入数据预处理、结果传输以及任务分配;通过直接存储器访问通道实现数据在内存和外设之间的高速传输; 硬件加速模块中,分块缓存将输入数据、权重和中间计算结果分块存储在片上SRAM中,避免频繁访问片外存储器,流水线处理在计算当前卷积层时,DMA通道预加载下一层的权重和输入数据,数据流的流水线效率表示如下式所示: 本模块通过优化流水线设计将η接近于1; 模型量化模块中,量化通过将深度学习模型中的权重和激活从高精度浮点数表示转换为低精度整数,减少模型的存储需求和计算复杂度; 模型量化模块包括以下步骤: 1量化过程如下: 1.1计算量化比例因子k,如下式所示: 其中g是权重张量,N是量化位数,maxg、ming分别为权重的最大值和最小值; 1.2将权重从浮点数映射到整数,如公式所示: 其中,Qw是量化后的整数值,z是零点偏移量,用于对齐量化值的范围,g是权重张量,k为量化比例因子; 1.3推理时的反量化,如下式所示: 其中,为反量化后的浮点值,k为量化比例因子,Qw是量化后的整数值,Z是零点偏移量; 2激活量化的动态范围调整,对于模型推理过程中的激活值,量化范围根据每一批输入数据动态调整,包括: 2.1计算激活的最小值minA和最大值maxA; 2.2确定激活量化比例因子SA和ZA零点,其中N为量化位数: 2.3激活值量化如下式所示: 推理时,使用反量化公式恢复激活值: 3量化训练在模型训练时加入量化感知训练技术,以适应量化后的低精度计算环境,包括: 插入伪量化节点:在训练时模拟量化的过程,包括量化和反量化操作,伪量化如下式所示,其中,k为量化比例因子: 在训练损失中加入量化误差的正则化项: Ltotal=Ltask+λ*Lquantization11, 其中:Ltask是任务损失,Lquantization是量化误差项,λ是权重平衡系数; 训练过程:通过标准的反向传播优化模型参数,同时调整量化参数S,使模型在量化后的环境中依然能保持高精度; 4本模块通过STM32Cube.AI工具链,将量化后的模型转换为嵌入式硬件支持的格式,量化后的权重和激活值存储于片上存储器,利用嵌入式硬件的DSP或AI加速单元执行低精度推理,量化的内存占用优化公式为: 其中,PrecisionFactor是浮点精度与量化精度的比值,Memoryoriginal是模型未量化的情况下占用的原始存储空间; 通过量化技术,将浮点型模型转化为低精度模型,并采用压缩算法减少参数数量,使得深度学习模型能够在资源有限的嵌入式硬件平台上高效运行,具体的步骤如下: 步骤一,确定量化区间:使用最大值和最小值来定义量化区间: minquant=minx,maxquant=maxx24, 其中x代表待量化的浮点数值; 步骤二,选择量化精度:N为量化位数,其整数的范围为: range=2N-1-125, 步骤三,量化比例因子计算:计算量化比例因子用于将浮点数映射到指定的整数区间,量化比例因子通过最大值和最小值的比例来决定: 其中,maxfloat和minfloat分别是浮点数的最大值和最小值,maxquant和minquant是整数表示的量化范围; 步骤四,量化公式:通过尺度因子将浮点数映射为整数: 其中,x是浮点数值,round是四舍五入操作,qx是量化后的整数值,k为量化比例因子; 步骤五,反量化操作:在推理时,需要将量化后的整数值映射回浮点数值,反量化公式为: 其中,是反量化后的浮点数值,t为缩放因子,插入点包括每一层权重和激活值,使用公式: 其中,t是缩放因子,xmin和xmax是在量化反量化过程中允许的数值边界; 自动部署模块,将训练好的深度学习模型自动转换为适用于嵌入式硬件平台的格式,并支持进行后续的代码生成和硬件适配; 数据处理模块,对输入数据进行预处理和增强,确保数据满足深度学习模型的输入要求; 推理引擎模块,负责在嵌入式设备上加载并运行优化后的深度学习模型; 推理引擎模块包括: 1模型加载与初始化:推理引擎模块首先加载优化后的模型权重和结构,并初始化推理运行环境,包括: 1.1模型加载:模型以量化后的格式存储在嵌入式设备的Flash或外部存储器中,在模型加载阶段,推理引擎将权重和拓扑结构加载到片上内存中: WRAM=WFlase[s:e]19, 其中:WFlase是存储于Flash中的权重,[s:e]表示当前加载的模型权重块区间范围,WRAM是加载到SRAM中的权重部分; 1.2初始化过程:推理引擎在初始化时完成以下任务:分配中间计算结果的内存区域、配置硬件加速单元的运行参数以及校验模型拓扑结构的完整性; 2推理引擎模块结合硬件资源和模型特性,动态分配计算任务至不同的硬件单元,包括: 2.1任务分配策略:对于双核嵌入式设备,推理引擎采用主辅核协同工作机制,其中,总推理时间表示为: Ttotal=maxTcore1,Tcore220, Tcore1,Tcore2分别为两个核心的推理时间,通过优化分配策略,使得Tcore1≈Tcore2实现负载均衡; 3高效推理流程,推理引擎的执行过程由多个步骤组成,采用流水线式结构实现计算和数据传输的并行化,包括: 3.1输入数据加载,通过DMA通道预加载下一批数据,减少数据加载与计算之间的等待时间: 其中,DataSize表示需要通过DMA传输的数据量,DMABandwidth表示DMA通道传输数据的最大速度; 3.2计算模块调用,对于核心操作,推理引擎调用硬件加速器执行计算,计算公式: Y=ReLUX*M+B23, 其中:X是输入数据,M是权重矩阵,B是偏置向量,ReLU是激活函数,推理完成后,推理引擎将结果存储至输出缓存区,并通过串口、I2C或SPI接口传输到外部设备。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。