电子科技大学徐杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于多模态学习的细粒度图像分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116740420B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310585066.0,技术领域涉及:G06V10/764;该发明授权一种基于多模态学习的细粒度图像分类方法是由徐杰;张笑谦;郑豪;冯渝荏;刘恒;耿子力设计研发完成,并于2023-05-23向国家知识产权局提交的专利申请。
本一种基于多模态学习的细粒度图像分类方法在说明书摘要公布了:本发明公开了一种基于多模态学习的细粒度图像分类方法,先从已知数据集中下载不同物种的原始图片及对应的附加信息文件,通过对附加信息文件进行预处理后,用于训练提取多模态特征和融合特征的神经网络并收敛,然后通过收敛的神经网络对应细粒度图像进行标签概率预测,再对两个神经网络的预测概率进行决策修正,最后根据修正结果输出图像中物种的类别。
本发明授权一种基于多模态学习的细粒度图像分类方法在权利要求书中公布了:1.一种基于多模态学习的细粒度图像分类方法,其特征在于,包括以下步骤; 1、数据采集; 从已知数据集中下载不同物种的原始图片及对应的附加信息文件,附加信息文件中包含有原始图片拍摄时的纬度信息lat、经度信息lon、时间信息data,以及图片中对应的物种类别标签; 2、附加信息文件预处理; 2.1、将纬度信息lat与经度信息lon进行连接得到位置信息loc,再对位置信息loc进行非线性化处理; loc=concatlat,lon 2.2、将时间信息data进行非线性化处理; 3、将非线性化处理后的位置信息和时间信息分别通过可训练的线性层后再进行拼接,得到时空信息Xm: 其中,表示可训练的线性层; 4、在原始图像中加入多模态信息标签; 4.1、生成多模态信息标签; 将时空信息Xm直接作为多模态信息标签或使用单层或多层MLP对时空信息进行初步特征提取后再作为多模态信息标签; 4.2、将多模态信息标签添加至原始图像; 将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行直接替换;或将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行像素点乘; 5、通过搭建自注意力多层感知机SAMLP网络提取多模态特征Zm; SAMLP网络由四个SAMLP模块串联组成,在每个SAMLP模块中依次包括串联的自注意力机制模块、多层感知机MLP和前馈网络; 将时空信息Xm输入至SAMLP网络,通过自注意力机制模块提取相似度特征再通过MLP提取特征其中,Relu表示激活函数,LN表示层正则化;然后通过前馈网络提取特征其中,Dropout表示随机失活,f1,f2均表示可训练的线性层;最终使SAMLP网络输出多模态特征Zm; 6、提取视觉特征Zi; 利用混合数据增强mix-up方法对添加过多模态信息标签的原始图像进行增强处理,得到增强后的新图像,再使用Res2Net网络提取新图像的视觉特征Zi; 7、特征融合; 7.1、利用多模态特征Zm对视觉特征Zi进行注意力增强; 计算多模态特征Zm与视觉特征Zi的向量相似度,再以相似度为权重对视觉特征Zi进行注意力增强; 7.2、多级联动态MLP的特征融合; 在单个动态MLP中,将多模态特征Zm与视觉特征Zi进行特征拼接,再分别通过不同的MLP进行动态滤波和大小调整,最后将调整后的两个特征相乘得到新的视觉特征Zi,并作为下一级动态MLP的视觉特征输入,并以此类推,最后通过最后一级动态MLP输出融合特征; 其中,MLP1与MLP2表示输出大小不同两个的MLP网络,concat表示特征拼接过程; 8、训练网络至收敛; 8.1、通过归一化指数函数softmax分别计算物种类别标签对应的多模态特征和融合特征的预测概率; 8.2、计算损失函数值loss; loss=loss1+loss2 其中,loss1为Res2Net网络的损失值,loss2为SAMLP网络的损失值,λ为标签平滑系数,K为物种类别数量,p表示输入图片的真实标签值,qi,j为融合特征预测第j个类别的概率,qm,j为多模态特征预测第j个类别的概率; 8.3、通过反复训练直至损失函数值loss收敛; 9、细粒度图像的实时分类; 9.1、将待分类的图像按照步骤2-8.1进行处理,从而计算物种类别标签对应的多模态特征和融合特征的预测概率; 9.2、在融合特征预测的概率中选出前n个最大概率值,然后将这n个概率值对应的标签pred1_k构成标签集Pred1={pred1_k};在多模态特征预测的概率中选出前n个最大概率值,然后将这n个概率值对应的标签pred2_k构成标签集Pred2={pred2_k},k=1,2,…,n; 9.3、计算标签的综合概率total_prob: 记标签pred1_k、pred2_k对应的概率分别为pred1_k_prob和pred2_k_prob; 其中,条件1是指:某标签同时存在于标签集Pred1和标签集Pred2中,则该标签的综合概率total_prob是pred1_k_prob和pred2_k_prob之和;条件2是指:如果某标签只出现在标签集Pred1中且排在第一位,则该标签的综合概率total_prob是Pred1中排在第一位的概率值和Pred2中排在第最后一位的概率值之和;条件3是指:如果某标签只出现在标签集Pred1中且没有排在第一位,则该标签的综合概率total_prob是pred1_k_prob; 9.4、如果标签集Pred1中排名第一的标签出现在Pred2中,则直接将Pred1中排名第一的标签作为输出的物种类别;否则,将total_prob作为最终的预测概率; 9.5、根据最终的预测概率输出对应的物种类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励