北京工业大学李晓光获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利一种基于多尺度注意力机制的动态光照人脸图像质量增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115880225B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211408124.4,技术领域涉及:G06T7/00;该发明授权一种基于多尺度注意力机制的动态光照人脸图像质量增强方法是由李晓光;景炜程;卓力设计研发完成,并于2022-11-10向国家知识产权局提交的专利申请。
本一种基于多尺度注意力机制的动态光照人脸图像质量增强方法在说明书摘要公布了:一种基于多尺度注意力机制的动态光照人脸图像质量增强方法属于数字图像视频信号处理领域。本发明设计了一种级联编解码网络结构,可分为多尺度小波特征提取模块和图像增强模块,受光照影响的人脸图像经过多尺度小波特征提取模块进行关键特征提取后输入到图像增强模块完成受动态光照影响的图像增强。在多尺度小波特征提取模块中采用了小波变换下采样获得不同尺度的特征信息图,通过模块内部的注意力单元提取融合所图像中的全局上下文信息,在图像增强模块中基于多尺度注意力思想,通过获取到不同尺度上的信息和双注意力机制来提升网络对动态变化光照的感知能力,完成增强过程。该技术在刑侦、军事侦察、多媒体视觉等领域具有广泛的应用前景。
本发明授权一种基于多尺度注意力机制的动态光照人脸图像质量增强方法在权利要求书中公布了:1.一种基于多尺度注意力机制的动态光照人脸图像质量增强方法,其特征在于包括以下步骤: 1动态光照影响下人脸数据集准备 a人脸数据集预处理 通过RetinaFace人脸检测算法将人脸图像进行检测和对齐操作,得到的图像再统一裁剪将其划分成256×256像素大小的尺寸,作为目标数据集; b多种动态光照人脸数据生成和数据集划分 多种动态光照人脸数据生成方法采用重照明方法; 2基于多尺度注意力机制的网络模型以及损失函数的构建 a多尺度小波特征提取模块的网络构建 多尺度小波特征提取模块的主要实现方法是通过小波变换代替传统的下采样过程实现图像尺度和通道维度上的变换;具体来说,输入到该模块的图像首先经过一层卷积层在不改变图像尺寸大小的前提下将图像原本的3通道扩展到64通道,卷积层设置卷积核为3,padding为1,bias为False;然后,得到的特征图通过连续的3次2D离散小波变换下采样扩展到3种不同的尺度上,需要注意的是在特征通道级进行的下采样操作而不是像素级,每次小波变换后都需要通过一层3×3卷积层和激活函数将变换后的特征分别调整到128、256、512的通道数和缩小2倍、4倍、8倍的尺度下分别作为第一级,第二级和第三级的输入,每一级的输出通道数和尺寸与输入保持一致,所用卷积层设置卷积核为3,padding为1,步长为1,bias为False,所用PRelu激活函数,所用小波变换是2D哈尔小波变换,小波变换将图像分解为高频信息和低频信息;其次,三个不同尺度上的特征信息分别通过双注意力单元提取有用特征信息后,第三级通过2D离散小波逆变换进行上采样得到的特征信息与第二级获取到的特征信息通过拼接操作输入卷积层加通道注意力单元中进行高效的特征融合提取;最后,将第二级的输出与第一级进行相同操作步骤后与刚开始的输入特征图再次输入卷积加通道注意力单元的结构中,生成多尺度特征信息映射用来引导后续重建增强过程,所用到的卷积层设置均为:卷积核为3,步长为1,padding为1,bias为False; 双注意力单元作用是接受来自不同尺度上的特征信息;输入的特征信息通过进行1次卷积1次激活函数1次卷积层的方式进行充分的跨通道交互增加特征信息的非线性,其中卷积层输入输出通道数数量一致,采用卷积核大小为3,bias为False,激活函数采用PRelu激活函数;然后,经过上述步骤后的特征信息分别通过空间注意力分支和通道注意力分支,两分支的输出通过拼接操作和1×1卷积进行特征融合后与输入特征相加构成残差连接,最终获得双注意力特征映射;其中空间注意力分支首先对特征分别应用全局平均池和最大池操作,两者拼接后经过1次5×5卷积和sigmoid激活操作与对应通道相乘以形成空间注意力特征图;通道注意力分支首先通过全局平均池来编码全局上下文信息从而生成通道特征图,特征图通过1次1×1卷积,1次Relu激活函数,1次1×1卷积,1次sigmoid激活,生成的权值与对应通道相乘生成通道注意力特征图;最后,来自两个分支的注意力图通过拼接操作和1×1卷积融合后与输入特征图相加形成双注意力特征映射; b图像增强模块的网络构建 图像增强模块由两个多尺度残差模块级联构成,第一级模块的输入与经过1次核为3,padding为1,步长为1,bias为False的卷积层与第二级模块输出相加构成残差连接; 在多尺度残差模块中,首先,输入的特征通过连续两次倍率分别为2和4的下采样操作获得三种尺度上的特征信息,每个尺度下的特征信息通过双注意力单元进行特征提取后,其次,在中间阶段通过上采样或下采样操作交换不同尺度上的特征信息,每级输入的来自三个尺度上的特征信息输入特征选择模块进行特征融合选择,然后,每级特征选择模块的输出通过双注意力单元后通过上采样操作输入特征选择模块,最后,模块的输出经过1次核为3,padding为1,步长为1,bias为False的卷积与初始输入特征图相加形成残差连接后输出; 特征选择模块通过融合和选择两个操作对网络的感受野进行动态调整,该模块将来自三个不同尺度上的特征信息相加后,先后通过1次全局平均池化,1次核为1,padding为0,步长为1,bias为False的卷积层,1次PRelu激活函数,3次核为1,padding为0,步长为1,bias为False的卷积层,1次Softmax层后得到经过选择融合后的特征,最后,这组特征分别与输入的不同尺度特征图相乘再相加后,完成多尺度特征选择融合操作; c整体网络构建 整体网络使用一个多尺度小波特征提取模块和两个图像增强模块级联构成;级联顺序依次是:多尺度小波特征提取模块、图像增强模块、图像增强模块;将输入与最后一级模块的输出相加构成全局残差连接; d损失函数设置 在网络的训练过程中,总的损失函数如公式1所示: LTotal=LL2oss+LSSIM+LPerceptual1 损失函数的定义对网络模型性能来说至关重要,设计的生成网络的损失函数由三部分组成,分别是像素级损失LL2oss、结构相似性损失LSSIM和感知损失LPerceptual,训练时权重均一致; LL2oss用来计算增强网络结果与Ground-truth之间的均方损失,LSSIM用来计算增强网络结果与Ground-truth之间的亮度对比度结构差异,而LPerceptual是感知损失,用来计算增强网络结果与Ground-truth都经过预训练的VGG网络后得到特征图之间的均方损失,如公式2、3和4所示: 其中,W和H分别是指代输入图像的宽和高的尺寸,Fi指的是网络的增强结果,GT指的是与输入对应的Ground-truth,Vgg·对应经过预训练的VGG网络操作,选择了预训练VGG网络的前30层输出结果来进行计算,和μGT分别代表增强结果与Ground-truth的平均值,和分别代表增强结果与Ground-truth的方差,代表增强结果与Ground-truth的协方差,C1=k1L2和C2=k2L2分别表示两个维持稳定变量,L是像素的动态范围为255,k1=0.01,k2=0.03; 3数据加载与训练测试设置 a数据加载 将训练集中的成对图像随机剪切成128×128像素值的尺寸大小,并进行数据增强后输入网络进行训练; b模型训练 模型训练使用的优化器为Adam优化器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。