四川省数字经济研究院(宜宾);电子科技大学陈洁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川省数字经济研究院(宜宾);电子科技大学申请的专利一种基于特征融合及语义增强的细粒度图像分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118799646B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411084301.7,技术领域涉及:G06V10/764;该发明授权一种基于特征融合及语义增强的细粒度图像分类方法是由陈洁;曹晟;张淋;代洋;谢宁设计研发完成,并于2024-08-08向国家知识产权局提交的专利申请。
本一种基于特征融合及语义增强的细粒度图像分类方法在说明书摘要公布了:本发明公开了一种基于特征融合及语义增强的细粒度图像分类方法。该方法包括以下步骤:首先,利用视觉TransformerViT模型进行特征提取,将输入图像分割成不重叠的patch,通过线性投影转换为嵌入向量,并输入Transformer编码器生成全局特征。接着,通过多层次注意力融合与语义信息结合,提取每层Transformer中的注意力权重,并结合预训练语言模型生成的语义嵌入,计算每个token的重要性分数,选择关键token。然后,对关键token进行二次分块和投影,重新选择二次关键token。通过交叉注意力机制,将全局特征和局部特征进行融合,生成融合特征。最后,将融合特征与全局分类特征结合,输入分类器进行分类,生成分类输出。通过多层次注意力融合和语义增强以及关键token选择,本发明实现对细粒度图像判别性特征区域的准确定位,增强特征的判别性,提高分类准确性。
本发明授权一种基于特征融合及语义增强的细粒度图像分类方法在权利要求书中公布了:1.一种基于特征融合及语义增强的细粒度图像分类方法,其特征在于,包括以下步骤: S1.ViT模型特征提取: 将输入图像I分割成不重叠的patch,并通过线性投影转换为嵌入向量Ei,输入到Transformer编码器中生成全局特征Eglobal; S2.多层次注意力融合与结合语义信息的关键token选择: 提取各层Transformer中的注意力权重Al,并结合预训练语言模型生成的语义嵌入emb,计算每个token的重要性分数si,选择关键token记为zkey; S3.语义增强与细化关键token选择: 对S2中的zkey进行二次分块和投影,生成新的嵌入向量E′i,j,重新输入Transformer编码器中,并再次选择二次关键token记为z′key; S4.交叉注意力融合: 通过交叉注意力机制,将全局特征Zglobal和局部特征z′key进行融合,生成融合特征Zfused; S5.特征融合与分类: 将融合特征Zfused与全局分类特征Eglobal进行结合,输入分类器进行分类,生成分类输出y′; S6.损失函数设计与训练: 设计交叉熵损失Lcross和对比损失Lcon,并通过反向传播优化模型参数; 所述步骤S1中的ViT模型特征提取包括: S101.图像分块与线性投影: 将输入图像I分割成不重叠的大小为16×16的若干个patch,然后通过线性投影将每个patchPi转换为一个嵌入向量Ei如式1所示: Ei=LinearProjectionPi1 其中,Ei表示第i个patch的嵌入向量; S102.嵌入序列组合: 将所有嵌入向量组合成一个序列E=[E1,E2,...,Ei],并添加一个分类token嵌入向量E0:E′=[E0,E1,E2,...,Ei]; S103.Transformer编码器: 将嵌入向量序列E′输入多层Transformer编码器,并通过线性变换生成查询矩阵Q,键矩阵K和值矩阵V,每层Transformer编码器由多头自注意力机制和前馈神经网络组成;注意力机制计算过程如式2所示: 其中,softmax表示softmax激活函数dk表示键矩阵的维度;Al表示第l层的注意力权重矩阵; S104.全局特征: A1.在所有层的Transformer编码器中,分类tokenE0将逐层吸收来自其他token的信息,更新形成包含全局特征的向量Eglobal; A2.将所有层的注意力权重矩阵进行加权求和,得到注意力机制融合的全局特征表示Zglobal如式3所示: 其中,Vl表示第l层的值矩阵;Al表示图像I在第l层的注意力权重矩阵;L表示Transformer的总层数;Zglobal表示全局特征表示; 所述步骤S2中的多层次注意力融合与结合语义信息的关键token选择包括: S201.提取与融合注意力权重:从S1中每一层Transformer提取每个token的注意力权重Al;将所有层的注意力权重进行矩阵乘法融合,生成融合后的全局注意力如式4所示: 其中,afinal表示融合后的全局注意力,表示每个token在第l层的注意力权重; S202.归一化处理: 对全局注意力中的每个token的注意力权重进行归一化处理,如式5所示: 其中,afinal,i表示第i个token的注意力权重,∑jafinal,j表示全局注意力中所有token的注意力权重总和;表示归一化后的第i个token的注意力权重; S203.生成语义嵌入,融合语义信息计算重要性分数: 使用预训练语言模型为每个token生成语义嵌入emb,再将归一化后的注意力权重与生成的语义嵌入与进行逐元素相乘,并进行归一化处理,生成增强的注意力权重,如式6所示: 其中,⊙表示逐元素相乘;embi表示第i个token的语义嵌入向量;aenhanced,i表示增强后的第i个token的注意力权重; 使用增强后的注意力权重aenhanced,i计算每个token的重要性分数,如式7所示: si=aenhanced,i·embi7 其中,si表示第i个token的重要性分数,选择分数最高的若干个token作为关键token记为zkey。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川省数字经济研究院(宜宾);电子科技大学,其通讯地址为:644004 四川省宜宾市长江北路西段附二段430号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。