大连理工大学张平平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种基于空频交互的多模态图像融合方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120318631B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510400731.3,技术领域涉及:G06V10/80;该发明授权一种基于空频交互的多模态图像融合方法是由张平平;吕龙;唐彤丹;徐齐;朱亿鑫;田丰;孙卫兵;卢湖川设计研发完成,并于2025-04-01向国家知识产权局提交的专利申请。
本一种基于空频交互的多模态图像融合方法在说明书摘要公布了:一种基于空频交互的多模态图像融合方法,包括以下步骤:构建模态特定特征提取器,用于提取不同模态的模态特定特征;提取频域特征,利用离散小波变换将图像从空域变换到频域,使用多尺度频域融合模块分别融合低频和高频特征;使用基于视觉状态空间模型的空频交互融合模块,利用多尺度频域融合得到的频域特征,指导空域融合,提取更全面的互补特征;结合融合后的空域和频域特征,得到融合图像。本发明相比于其他方法,能够生成细节信息更丰富和视觉质量更高的融合图像;基于状态空间模型,能够以线性计算复杂度来进行全局上下文信息建模;引入空频交互机制,可以充分挖掘空域和频域的互补信息,以更好的提取互补特征,从而达到更高的融合质量。
本发明授权一种基于空频交互的多模态图像融合方法在权利要求书中公布了:1.一种基于空频交互的多模态图像融合方法,其特征在于,包括以下步骤: 步骤1:获取多模态图像数据集,多模态数据集中包含已配准的成对的两个模态图像; 步骤2:对输入的多模态图像进行预处理,将RGB图像从RGB颜色空间转换到YCbCr空间,提取Y通道作为输入,最终融合图像再转换到RGB空间;在训练阶段,将预处理后的多模态图像随机裁剪成128x128的图像块;在测试阶段,多模态图像不需要裁剪; 步骤3:采用模态特定特征提取器MSE分别处理不同输入模态图像,提取各模态图像的特定特征;模态特定特征提取器MSE主要由卷积层和视觉状态空间模型构成,卷积层负责捕捉局部空间特征,视觉状态空间模型通过状态空间模型建模全局特征,确保充分提取各模态图像的独特信息;对于输入特定模态图像xi1,提取对应模态图像的特定特征表示为: 其中,表示视觉状态空间模型VSSM,SiLU·表示SiLU激活函数; 对于提取的多模态图像的特定特征,设计一种空频交互的机制来提取图像模态之间的互补特征,具体为在频域上对特定特征进行多尺度融合;在空域上与融合的频域特征进行空频交互以全面提取互补特征; 步骤4:设计一个多尺度的频域融合模块MFF进行频域上的特征融合,包含低频融合模块和高频融合模块;采用离散小波变换将步骤3得到的特定特征变换到频域上,得到低频特征和高频特征;随后将提取的低频特征和高频特征进行多尺度融合,生成综合的频域特征表示,具体流程如下: 对于输入多模态图像的低频特征和先将其进行元素级相加再通过卷积层和SiLU激活函数处理,实现初步融合,得到低频融合特征Xlf;低频融合特征Xlf再进入最大值池化层和平均值池化层以提取全局上下文信息;池化结果沿通道维度拼接,通过卷积层和Sigmoid函数生成空间位置的注意力图;此过程可以表示为: 其中,Max·和Avg·表示最大值池化层和平均值池化层,[;]表示沿通道维度拼接,δ为生成的注意力图; 同时,将低频融合特征Xlf输入到不同感受野的深度可分离卷积层中,得到不同尺度的融合特征;再将利用得到的注意力图δ来加权不同尺度的融合特征;最后通过跳跃连接来强化信息,并输入到卷积层以得到最终融合的低频特征公式表达为: 其中,DWConv3*3·和DWConv5*5·分别表示卷积核大小为3x3和5x5的深度可分离卷积; 对于输入模态的高频特征,先对其进行元素级相加,实现初步融合,得到高频融合特征Xhf;将高频融合特征Xhf分别输入两个不同窗口大小的平均值池化层以提取不同尺度信息; 接下来,将池化结果与高频融合特征相减;最后经过残差连接,并通过卷积层得到融合的高频特征具体表示如下: 其中,Avg3*3·和Avg5*5·分别表示卷积核大小为3x3和5x5的平均池化层; 步骤5:设计一个空频交互融合模块ISF来进行空域和频域之间的交互融合,包括频域引导Mamba模块FGM和频域引导门控模块FGG;首先分别对特定特征进行层归一化操作,并经过线性层得到两个不同的特征x和z,x输入到状态空间模块得到隐藏特征,z输入到频域引导门控模块和步骤4得到的融合的低频特征和高频特征交互得到门控特征;门控特征用来全面地提取不同模态图像的互补特征,进行充分的空域融合;最后经过尺度化的残差得到融合后的空域特征;具体表示如下: ISFxi1,xi2=FGMxi1,xi2,FGGxi1,xi2,xfre其中,xi1,xi2分别为模态1和模态2的模态特定特征,xfre为MFF得到的融合后的低频和高频特征; 频域引导Mamba模块FGM主要由线性层、深度可分离卷积、状态空间模型和频域引导门控模块FGG构成;频域引导门控模块将来自多尺度的频域融合模块的频域特征与空域特征做交互得到门控特征,利用状态空间模型的机制来引导空域特征的融合以得到更全面的互补特征;其操作表示为: 其中,zi1,zi2分别为模态特定特征经过线性层得到的特征,LN·为层归一化,GAP·为全局平均值池化层,FC·为全连接层,Split·为沿通道维度拆分; 频域引导Mamba模块FGM操作表示为: 其中s1和s2为可微调的尺度因子; 步骤6:经过多尺度频域融合模块和空域频域交互融合模块得到的融合后的频域特征和空域特征,将其沿通道维度拼接后,输送到卷积层中得到最后的融合图像;其中训练网络所使用的损失函数为图像内容损失、像素强度损失、梯度损失和结构相似度损失; 图像内容损失表示为: 其中,||·||为l1范数,F为融合图像,I1和I2为输入模态图像,H和W为图像的高度和宽度; 像素强度损失表示为: 梯度损失表示为: 其中|·|为求绝对值操作,为Sobel梯度算子,max·为取最大值操作; 结构相似度损失表示为: 其中SSIM·为结构相似度指标。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励