«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (9): 266-273  DOI: 10.19678/j.issn.1000-3428.0058848
0

引用本文  

斯捷, 肖雄, 李泾, 等. 基于生成对抗网络的多幅离焦图像超分辨率重建算法[J]. 计算机工程, 2021, 47(9), 266-273. DOI: 10.19678/j.issn.1000-3428.0058848.
SI Jie, XIAO Xiong, LI Jing, et al. Super-Resolution Reconstruction Algorithm with Multi-Frame Defocused Images Based on Generative Adversarial Network[J]. Computer Engineering, 2021, 47(9), 266-273. DOI: 10.19678/j.issn.1000-3428.0058848.

基金项目

国家重点研发计划“物联网智能感知终端平台系统与应用验证”(2018YFB2100100)

作者简介

斯捷(1976-), 男, 工程师, 主研方向为计算机视觉;
肖雄, 硕士研究生;
李泾, 工程师;
马明勋, 硕士研究生;
毛玉星, 副教授、博士

文章历史

收稿日期:2020-07-06
修回日期:2020-09-03
基于生成对抗网络的多幅离焦图像超分辨率重建算法
斯捷1 , 肖雄2 , 李泾3 , 马明勋2 , 毛玉星2     
1. 浙江图盛输变电工程有限公司, 浙江 温州 325000;
2. 重庆大学电气工程学院, 重庆 400044;
3. 国网浙江电力有限公司温州供电公司, 浙江 温州 325000
摘要:为提高超分辨率算法重建出的图像质量,提出融合多幅离焦图像的超分辨率重建算法。以离焦图像作为切入点,利用自编码器提取离焦图像中的重要特征,根据空间特征变换层结构,将离焦特征与原始特征相结合,完成图像的超分辨率重建。在Celeb A人脸数据集上进行实验,结果表明,与传统插值算法及SRGAN算法相比,所提算法在大多数情况下能获得更高峰值信噪比及结构相似性数值,能生成质量更高的重建图像。
关键词自编码器    图像特征提取    生成对抗网络    超分辨率重建    深度神经网络    
Super-Resolution Reconstruction Algorithm with Multi-Frame Defocused Images Based on Generative Adversarial Network
SI Jie1 , XIAO Xiong2 , LI Jing3 , MA Mingxun2 , MAO Yuxing2     
1. Zhejiang Tusheng Transmission and Transformation Engineering Co., Ltd., Wenzhou, Zhejiang 325000, China;
2. School of Electrical Engineering, Chongqing University, Chongqing 400044, China;
3. Wenzhou Power Supply Company, State Grid Zhejiang Electric Power Co., Ltd., Wenzhou, Zhejiang 325000, China
Abstract: In order to improve the quality of the reconstructed images, a super-resolution reconstruction algorithm using multi-frame defocused images is proposed.The algorithm employs an auto-encoder to extract the important features in the defocused images, and the layer structure is transformed based on spatial features to combine the defocused features with the original features, so the super-resolution reconstruction of the image is completed.The experimental results on the Celeb A face data set show that in most cases, the proposed algorithm provides a higher peak signal-to-noise ratio and structural similarity than the traditional interpolation algorithm and the SRGAN algorithm.This super-resolution algorithm based on multi-frame defocused images can generate better reconstructed images.
Key words: auto encoder    image feature extraction    Generative Adversarial Net(GAN)    Super Resolution(SR)    deep neural network    

开放科学(资源服务)标志码(OSID):

0 概述

图像是人类视觉的基础,生活中多数感知均与图像息息相关。图像中存储的信息量大小以及图像细节的精细程度取决于图像分辨率的高低。在通常情况下,一张细节信息丰富且视觉效果清晰的图像,大都具有较大的像素,即具有较高的分辨率。随着信息化时代的不断发展,为了获得更加良好的观感体验,人们对分辨率的要求越来越高。然而,受限于信息传输、硬件设备、成像原理等客观因素的制约,图像的分辨率往往难以达到令人满意的水平。因此,图像超分辨率(Super Resolution,SR)重建作为能够将图像由低分辨率转化为高分辨率、丰富图像细节信息的图像处理技术,引起了国内外研究人员的广泛关注。对超分辨率算法的研究不仅能促使相关理论技术的完善,而且能产生重要的应用价值。

超分辨率重建技术自20世纪80年代被提出,至今发展已有40多年,近年来国内外学者对超分辨率问题展开了诸多方面的研究。从研究对象来看,超分辨率算法可以分为二维图像的超分辨率、二维流形数据的超分辨率和三维数据的超分辨率。目前超分辨率算法的研究大都集中于二维图像的超分辨率问题上,而关于二维流形数据和三维数据的研究仍较少。

2014年,DONG等[1-2]提出了基于卷积神经网络的超分辨率重建算法,通过学习低分辨率图像与高分辨率图像间的非线性映射关系,完成特征提取及图像重建。与之前的研究方法相比,该方法具有更好的重建效果。在这之后,各式各样的网络结构开始被提出。在KIM等[3-4]的研究中,大幅增加了卷积网络的深度,同时引入残差学习结构及递归跳跃层机制来改善模型中的收敛率问题。ZHANG等[5]利用残差密集结构,从密集连接的卷积层中提取出大量的局部特征,用于稳定更大范围网络的训练,并从局部特征中学习有效的特征。LIM等[6]通过移除不必要的批量归一化层来改善深度网络结构中的梯度消失问题,从而稳定训练过程,同时提出一种多尺度的超分辨率重建方法,取得了良好的效果。

为了进一步改善图像的质量,牛津视觉几何小组提出一种基于VGG[7]网络的感知损失函数[8]。小组成员结合损失函数的优点,提出在图像超分辨率任务中利用感知损失函数训练前馈网络的方法。该方法产生了令人满意的视觉效果,从而取代了逐像素损失函数。

随着生成对抗网络(Generative Adversarial Network,GAN)的提出,LEDIG等[9]将GAN的框架结构运用到了图像超分辨率重建算法中并命名为SRGAN。他们将对抗损失函数与感知损失函数相结合,利用生成网络和判别网络之间的博弈关系,重建出的图像在细节纹理和肉眼感知上更加真实,而非只是提升图像的峰值信噪比(PSNR)指标。作为一项开创性工作,SRGAN为后一步的基于GAN的SR算法奠定了基础。基于这些工作,BULAT等[10]专注于利用GAN实现任意姿势的脸部SR算法并精准定位面部位置。文献[11]通过附加在特征域中工作的额外判别网络来产生更真实的结果。通常来说,成对的训练集数据是在高清图像下采样所获得,然而ZHANG等[12]指出真正的图像降级不遵循这个假设,输入真实图像将产生糟糕的性能。因此他们提出了一个框架,将不同程度的模糊核和噪声水平输入到网络中,并运用到真实图像中。面对同样的问题,BULAT等[13]提出了一种2步走的方法,在重建之前先训练一个将高分辨率图像转化为低分辨率图像的网络,用于正确的学习图像退化,再利用训练集进行重建训练。

文献[14]将GAN网络的基础模块改为RRDB(Residual-in-Residual Dense Block),并且改善了感知损失函数的输出方式。另外,还引入了相对判别网络来预测相对的真实性。文献[15]通过将分割概率图结合在一起,恢复出忠实于语义类的纹理。本文提出的算法原理与文献[16]有着密切的关系,将使用卷积自编码器以获得离焦特征图,并借用空间特征变换层将特征图作为联合输入到GAN网络中。

本文提出一种基于对抗网络的融合多幅离焦图像的超分辨率重建算法,构建基于运动模糊和高斯模糊的卷积去噪自编码器模型,实现图像的特征提取及去模糊过程,依据基于生成对抗网络的SR算法,完成与离焦图像的特征融合。最终基于Celeb A人脸图像数据集进行模型的训练学习,通过PSNR和结构相似性(SSIM)对比图像的视觉效果来定量且定性验证本文算法的有效性。

1 本文方法 1.1 基于自编码器的离焦图像特征提取 1.1.1 离焦图像的生成模拟

运动模糊的模型原理主要在水平匀速直线运动条件下展开探讨。然而在获取神经网络训练所需要的成对清晰模糊图像时,并没有简单的方法。

文献[17]首先利用运动向量来代表小块图像区域的运动核,然后对模糊向量进行离散化,根据不同的长度与方向生成73个候选线性运动核,最后与自然图像卷积,从而生成综合模糊图像。文献[18]同样使用线性运动内核创建综合模糊图像。文献[19]在一个有限尺寸的网格中随机采样6个点用线段相连,并将线段上每个像素的核值设置为从均值为1、标准差为0.5的高斯分布中采样的值,然后将这些值裁剪为正,并将内核标准化为单位和,以此来创建模糊内核。

在运动模糊过程中,本文使用了能更加真实模拟复杂模糊核的算法。该算法遵循了文献[20]中所描述的随机轨迹生成的概念。轨迹通过在规则的像素网格上连续采样得到,且每条轨迹由一个粒子在连续域中的二维随机运动位置组成。粒子有初始速度矢量,在每次迭代中,受到指向当前粒子位置的高斯扰动和确定性惯性分量的影响。此外,在小概率下,会出现一个使粒子速度反转的脉冲扰动,以此模拟用户按下相机按钮或补偿相机抖动时发生的突然运动。在每一步中,速度都会被归一化以保证相同曝光的轨迹有相同的长度。每个扰动都由各自的参数控制,当所有扰动参数设置为0时生成直线轨迹。

轨迹矢量为复杂矢量,由马尔科夫过程完成整个轨迹的生成。如图 1所示,轨迹的下一个位置由前一个位置的速度、脉冲参数及高斯摄动方程共同决定,最后对轨迹矢量应用亚像素插值法生成模糊核。

Download:
图 1 运动模糊模拟示意图 Fig. 1 Diagram of motion blur simulation
1.1.2 基于自编码器的图像特征提取

去噪自编码器是一类以损失数据作为输入,以预测原始未被损坏的数据作为输出的自编码器,其与普通自编码器相比增加了数据有损处理,例如噪声、模糊等。在有限的损失处理下,数据间的结构相关性仍然得到了保存,通过特征提取后,依旧可以重建出原始图像。

本文将模糊后的图像视作有损数据,构建去模糊自编码器并对模糊图像进行编码处理,以去除图像冗余信息,通过解码操作,恢复原始清晰图像,从而以训练卷积神经网络获取图像中的关键特征部分,并加以压缩,为后续图像的超分辨率重建部分打下基础。

去模糊自编码器的训练过程如下:

1)引入一个损坏过程$ C\left(\tilde{x}|x\right) $,该过程表示针对给定数据样本$ x $,对其进行损坏处理,例如噪声、模糊等,生成样本$ \tilde{x} $

2)将损坏样本$ \tilde{x} $输入到编码器中,可表示为如式(1)所示:

$ h={f}_{\theta }\left(\tilde{x}\right)=s\left(W\tilde{x}+b\right) $ (1)
$ \theta =\left\{W, b\right\} $ (2)

其中:$ s $为激活函数。

3)经过编码后的数据输入到解码器中,解码部分如式(3)和式(4)所示:

$ z={g}_{{\theta }'}\left(h\right)=s\left({W}'h+{b}'\right) $ (3)
$ {\theta }'=\left\{{W}', {b}'\right\} $ (4)

4)针对单个训练样本数据对,构建损失函数$ L\left(x, z\right) $,如式(5)所示:

$ L\left(x, z\right)={‖x-z‖}_{2}^{2} $ (5)

该函数可用于衡量解码输出$ z $与原始数据样本$ x $之间接近程度。

5)对于具有$ n $个样本的训练集,每一个样本数据$ {\tilde{x}}^{\left(i\right)} $可以得到相应的$ {h}^{\left(i\right)} $$ {z}^{\left(i\right)} $。当平均重构误差最小时可以获取最优的编码器解码器网络参数,如式(6)所示:

$ \theta , {\theta }'=\mathrm{a}\mathrm{r}\mathrm{g}\underset{\theta , {\theta }'}{\ \mathrm{m}\mathrm{i}\mathrm{n}}\frac{1}{n}\sum \limits_{i=1}^{n}L\left({x}^{\left(i\right)}, {z}^{\left(i\right)}\right) $ (6)

同时,为防止权值过大引起的过拟合,对式(6)设置一个权重衰减项,如式(7)所示:

$ D=\frac{1}{2}{‖\omega ‖}_{2}^{2} $ (7)

整合上面两式得到目标函数,如式(8)所示,此时$ {h}^{\left(i\right)} $即为$ {\tilde{x}}^{\left(i\right)} $的低维度特征表示。

$ J=\frac{1}{2n}\sum \limits_{i=1}^{n}L\left({x}^{\left(i\right)}, {z}^{\left(i\right)}\right)+\lambda D $ (8)

其中:$ \lambda $为权重衰减参数。

1.2 基于离焦图像的对抗超分辨率重建算法 1.2.1 网络结构

网络结构如下:

1)生成网络

生成对抗网络是通过对抗的方式,去学习数据分布,从而产生新的数据。整个框架由生成网络和判别网络2部分组成。在超分辨率重建中,生成网络定义为$ {G}_{\theta } $,负责将一张低分辨率$ \mathrm{L}\mathrm{R} $图像重建为超分辨率$ \mathrm{S}\mathrm{R} $图像;判别网络定义为$ {D}_{\eta } $,作用是将重建出的$ \mathrm{S}\mathrm{R} $图像与原始$ \mathrm{H}\mathrm{R} $图像进行对比,判断重建图像的真实性。生成网络与判别网络分别由参数$ \theta $$ \eta $所确定,整个过程交替进行,通过对抗的方式解决最大化、最小化问题,如式(9)所示:

$ \mathop {{\rm{min}}}\limits_\theta \mathop {{\rm{max}}}\limits_\eta {\rm{I}}{{\rm{E}}_{{I^{{\rm{HR}}}} \sim {p_{{\rm{HR}}}}}}{\rm{lo}}{{\rm{g}}_a}{D_\eta }\left( {{I^{{\rm{HR}}}}} \right) + {\rm{I}}{{\rm{E}}_{{I^{{\rm{LR}}}} \sim {p_{{\rm{LR}}}}}}{\rm{log}}_a^{}(1 - {D_\eta }({G_\theta }\left( {{I^{{\rm{LR}}}}} \right))) $ (9)

其中:$ {p}_{\mathrm{H}\mathrm{R}} $$ {p}_{\mathrm{L}\mathrm{R}} $分别为$ \mathrm{H}\mathrm{R} $图像与$ \mathrm{L}\mathrm{R} $图像各自训练集的分布。

生成网络结构的中间部分由16个残差模块构成,层与层之间以及整个模块前后都有跳跃连接,从而减少每层信息承载,加速模型收敛。在网络最后设置2个亚像素卷积层,使初始$ \mathrm{L}\mathrm{R} $图像分辨率倍增4倍,以实现超分辨率重建的效果。整个重建过程的思想是先使用较深神经网络对低分辨率图像信息进行整合,再摒弃复杂无效的反卷积,利用亚像素卷积操作完成重建。

2)判别网络

在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小,通常感受野的设定是越大越好。然而,更大的感受野往往意味着更大的卷积核以及更多的网络参数。在卷积操作中,输出矩阵高和宽可分别由式(10)和(11)计算:

$ {h}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{{}^{\mathrm{h}\mathrm{e}\mathrm{i}\mathrm{g}\mathrm{h}\mathrm{t}}}=\left({h}_{\mathrm{i}\mathrm{n}}^{\mathrm{h}\mathrm{e}\mathrm{i}\mathrm{g}\mathrm{h}\mathrm{t}}-{h}_{\mathrm{k}\mathrm{e}\mathrm{r}\mathrm{n}\mathrm{e}\mathrm{l}}^{\mathrm{h}\mathrm{e}\mathrm{i}\mathrm{g}\mathrm{h}\mathrm{t}}\right)/\mathrm{s}\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{d}\mathrm{e}+1 $ (10)
$ {w}_{{}_{\mathrm{o}\mathrm{u}\mathrm{t}}}^{\mathrm{w}\mathrm{i}\mathrm{d}\mathrm{t}\mathrm{h}}=\left({w}_{\mathrm{i}\mathrm{n}}^{\mathrm{w}\mathrm{i}\mathrm{d}\mathrm{t}\mathrm{h}}-{w}_{\mathrm{k}\mathrm{e}\mathrm{r}\mathrm{n}\mathrm{e}\mathrm{l}}^{\mathrm{w}\mathrm{i}\mathrm{d}\mathrm{t}\mathrm{h}}\right)/\mathrm{s}\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{d}\mathrm{e}+1 $ (11)

其中:$ \mathrm{s}\mathrm{t}\mathrm{r}\mathrm{i}\mathrm{d}\mathrm{e} $代表步长。假设一张图像的大小为28像素×28像素,利用$ 5\times 5 $大小的卷积核,步长为1,则输出图像大小为$ (28-5)/1+1=24 $,参数为$ 5\times 5\times c $,其中$ c $为输入输出矩阵深度的乘积。卷积核的大小与网络参数成正比。

在判别网络结构里的8个卷积层中,均采用了$ 3\times 3 $尺寸的卷积核。除此之外,使用了Leaky ReLU激活函数并取消了常规卷积过程中的最大池化操作。整个过程中,特征图由64张增加到512张,每次特征图倍增的同时均使用步长为2的卷积核,以减少输出尺寸。最后利用2个全连接网络和1个sigmoid激活函数,来获得样本分类的概率,以此判别真伪。结构如图 2所示,其中:k表示每个卷积层对应的内核大小;n表示特征映射的数量;s代表步长。

Download:
图 2 判别网络的架构 Fig. 2 Structure of discriminant network
1.2.2 损失函数

损失函数即目标函数,算法的求解过程即是对这个目标函数优化的过程。为了使超分辨率重建后的$ \mathrm{S}\mathrm{R} $图像能与$ \mathrm{H}\mathrm{R} $图像尽可能地相似,损失函数将分为像素域与感知域2个部分。像素域使用MSE损失函数,通过将2类不同图像逐像素对比,以保证获得更高的PSNR分数。基于MSE损失函数的算法常导致输出结果过于平滑,使人眼感知效果不佳,因此需要在感知域的损失函数上进行限制。

作用于感知域的感知损失函数称为Perceputal Loss,它度量了2幅图像特征之间的欧氏距离,因此使用它来约束$ \mathrm{S}\mathrm{R} $图像与$ \mathrm{H}\mathrm{R} $图像之间的特征相似性,以保证人眼感知效果。为了获取特征间的距离,感知损失函数通常使用1个已经过预训练的用于图像分类的网络模型,再将2类图像输入模型以对比深层次的特征。此处使用了经典图像识别网络vgg-16的损失函数$ {L}_{\mathrm{v}\mathrm{g}\mathrm{g}} $,基于交叉熵的对抗损失$ {L}_{\mathrm{G}\mathrm{a}\mathrm{n}}^{\mathrm{g}} $和均方误差损失$ {L}_{\mathrm{m}\mathrm{s}\mathrm{e}} $也被用来帮助重建图像。生成网络的损失函数如式(12)所示:

$ {L}_{\mathrm{G}}=\eta {L}_{\mathrm{m}\mathrm{s}\mathrm{e}}+{L}_{\mathrm{v}\mathrm{g}\mathrm{g}}+\lambda {L}_{\mathrm{G}\mathrm{a}\mathrm{n}}^{\mathrm{g}} $ (12)

其中:$ \eta $$ \lambda $为平衡不同损失项的系数。

1.2.3 相对判别网络

在标准生成对抗网络中,就未经过函数激活的$ C\left(x\right) $而言,判别网络可被简单定义为$ D\left(x\right)=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(C\right(x\left)\right) $,根据$ D\left(x\right) $的大小来判断图像的真伪。

与文献[14]相似,为了保证判别网络的输出与真伪图像两者均能产生联系,本文引入相对判别概念以改进判别网络。针对真伪图像对$ ({x}_{r}, {x}_{f}) $,定义$ D\left(\widehat{x}\right)=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(C\right({x}_{r})-C({x}_{f}\left)\right) $。这样的定义为整个网络增加了相对性,判别网络将会估计给定真实图像$ {x}_{r} $比虚假图像$ {x}_{f} $更真实的概率。同理,$ D\left(\widehat{x}\right)=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(C\right({x}_{r})-C({x}_{f}\left)\right) $代表着相对更虚假的概率。由此,式(9)的第1项可以改写为式(13):

$ \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}{D}_{\eta }\left({I}^{\mathrm{H}\mathrm{R}}\right)\to \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}{D}_{\eta }\left(\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\right(C\left({x}_{r}\right)-C\left({x}_{f}\right)\left)\right) $ (13)

其中:$ {I}^{\mathrm{H}\mathrm{R}}\sim {p}_{\mathrm{H}\mathrm{R}} $$ {x}_{f}\sim {G}_{\theta }\left({I}^{\mathrm{L}\mathrm{R}}\right) $$ {I}^{\mathrm{L}\mathrm{R}}\sim {p}_{\mathrm{L}\mathrm{R}} $

由于原式第1项没有生成网络$ {G}_{\theta } $的参与,梯度为0,因此在优化中通常被忽略。而改进之后,第1项受到$ {G}_{\theta } $生成的$ {x}_{f} $的影响,梯度不再为0,因此能够帮助生成网络完成损失函数优化,使生成网络的训练变为整个公式的最小化过程而非仅有后半部分。

批量输入的图像对存在不同的组合方式,为简化算法时间复杂度,可加入均值概念,对判别网络进行重新定义。如式(14)所示:

$ \tilde{D}\left(x\right)=\left\{\begin{array}{c}\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(C\right(x)-\mathrm{{\rm I}}{\mathrm{{\rm E}}}_{f\sim \mathbb{Q}}C({x}_{f}\left)\right), x\mathrm{为}\mathrm{r}\mathrm{e}\mathrm{a}\mathrm{l}\\ \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left(C\right(x)-\mathrm{{\rm I}}{\mathrm{{\rm E}}}_{r\sim \mathbb{N}}C({x}_{r}\left)\right), x\mathrm{为}\mathrm{f}\mathrm{a}\mathrm{k}\mathrm{e}\end{array}\right. $ (14)

其中:$ C\left({x}_{r}\right)\mathrm{、}C\left({x}_{f}\right) $为真实图像与虚假图像未经过激活函数转换的分布;$ C\left(x\right) $为当前图像分布,如果$ x $是真实图像,则从虚假图像的分布中获取期望值进行相对判别。

当损失函数修改为相对损失之后,损失函数将衡量真假图片间的相对真实性。在对抗性训练中,2种损失可以从生成数据和真实数据的梯度中获得收益,以获得更好的效果。

1.2.4 基于空间特征变换层的信息融合

本文利用改进的去噪自编码器,针对离焦图像的特征进行压缩重组训练,网络中经过训练的编码部分能实现特征的提取功能。而要使这些特征图对超分辨率重建过程产生帮助,则需要用到信息特征融合技术。

为了将自编码器与GAN的框架相结合,先利用已经训练好的自编码器编码部分,输入离焦图像;再将编码部分输出的离焦特征图添加到图像重建的过程中;最后使用空间特征变换(Spatial Feature Transform,SFT)网络层结构来实现特征的融合。在空间特征变换过程中,针对不同的模糊类型特征图像,先进行合并运算操作,如图 3所示。

Download:
图 3 特征图合并操作 Fig. 3 Feature map merge operation

运算式如式(15)所示:

$ I=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({i}_{\sigma }, {i}_{m}) $ (15)

其中:$ {i}_{\sigma } $$ {i}_{m} $分别代表高斯模糊及运动模糊的特征图。

基于合并而成的特征图这一先验信息$ I $$ \mathrm{S}\mathrm{F}\mathrm{T} $网络层通过映射关系输出调制参数对$ (\gamma , \beta ) $,如式(16)所示:

$ \gamma =M\left(I\right) , \beta =N\left(I\right) $ (16)

函数$ M $$ N $可以是任意映射算法,在本文中使用了具有2层深度的神经网络作为映射算法以便优化。在获得$ (\gamma , \beta ) $之后,将$ \gamma $定义为缩放参数,$ \beta $定义为移动参数,运用类仿射变换的方式,将合并运算与条件伸缩运算相结合,如式(17)所示:

$ {S}_{\mathrm{S}\mathrm{F}\mathrm{T}}\left(F\right|\gamma , \beta )=F\odot \gamma +\beta $ (17)

其中:$ F $代表$ \mathrm{S}\mathrm{F}\mathrm{T} $层输出作为后续网络输入的特征图,其维度与$ \gamma $$ \beta $相同;$ \odot $代表按元素相乘。由于保留了空间维度,$ \mathrm{S}\mathrm{F}\mathrm{T} $层不仅执行特征操作,还执行空间转换,能够有效地转换和操作空间信息。空间特征变换层结构如图 4所示。

Download:
图 4 空间特征变换层 Fig. 4 Spatial feature transform layer

由于$ \mathrm{S}\mathrm{F}\mathrm{T} $层计算量不大,且无法得知模型何处需要使用到条件信息,因此在每一个残差模块中均加入$ \mathrm{S}\mathrm{F}\mathrm{T} $层,整个生成器网络结构如图 5所示。

Download:
图 5 生成网络的架构 Fig. 5 Structure of generate network
2 实验结果与分析 2.1 离焦图像特征提取实验

整个训练过程中使用Celeb A数据集,在离焦图像训练集获取时,分别对数据集进行了高斯模糊与运动模糊处理,高斯模糊直接使用了Opencv中的高斯模糊函数,半径参数设置为2以下的随机数。首先将离焦图像训练集输入到自编码器网络中,在网络层中完成特征提取降维工作。然后利用后续的网络层将隐藏层中的特征进行解码放大,输出一张尺寸与输入相同的图像。利用均方误差损失函数通过与未离焦原图的对比完成优化,整个编码解码过程类似于图像去模糊过程。在参数设置上,将学习率设置为$ 1\times {10}^{-4} $,Adam优化器参数设置为0.9,训练次数30 000次,低分辨率图像的尺寸设置为44像素×52像素。具体结构如图 6所示,包含核尺寸k、特征图数量n与步长s

Download:
图 6 自编码器结构及实现过程 Fig. 6 Structure and implementation process of AE

在实验过程中,离焦图像作为有损数据输入到模型中,图像的损失程度与解码后的效果息息相关。为探究模型能够处理的模糊程度的边界,将不同离焦度的图像作为输入,再对比重建后的效果。当离焦程度从0~2变化时,重建图像效果如图 7所示,其中第1行为离焦图,第2行为重建图。

Download:
图 7 不同离焦程度图像的重建效果示例 Fig. 7 Examples of image reconstruction with different defocus degrees

图 8可知,对比图像的均方误差(MSE)与结构相似性(SSIM)指标,从线条1代表的离焦图像可以得出随着模糊程度的加大,结构相似性在下降,均方误差值在增加;由线条2代表的重建图像可以得出,模糊程度为1时重建图像取得最佳效果,而当模糊程度较小或较大时,模型的重建效果一般。考虑到收敛速度及网络参数的原因,以上实验中使用到的卷积核规模均为3×3。

Download:
图 8 不同离焦程度图像效果对比 Fig. 8 Index comparison of different defocus degrees

根据传统反卷积维纳算法,其逆副核虽然有限但能够提供足够大的空间支持,这表明反卷积与够大的空间卷积近似。由于离焦图像的获取依赖于卷积过程,所以在不考虑收敛速度的情况下,对比了3种不同规模卷积核(3×3,5×5,7×7)所训练模型的重建效果,如图 9所示。

Download:
图 9 不同尺寸卷积核模型效果对比 Fig. 9 Comparison of effects of different size convolution kernel models

根据重建出的效果可以看出,作为有损降维算法,卷积自编码器能够完成离焦图像的降维重建工作。理论上,较大卷积核需要更多的训练时间,但后续实验证明,在离焦程度较小时,卷积核选择3×3尺寸效果达到最佳。随着离焦程度的不断增大,较大的卷积核能够更好的完成空间卷积的近似。而面对训练集中未出现的更大范围的离焦现象,模型的重建效果急剧下滑。

2.2 超分辨率重建实验

考虑到实验设备与环境,本文的实验基于Celeb A人脸图像数据集,人脸图像特征更集中,有利于模型的训练学习。此外,在感知损失函数部分,使用了基于ImageNet预训练的VGG-19网络。实验的分辨率倍增数设置为4倍,以便与文献SRGAN进行对比。所有的低分辨率图像均从高分辨率图像插值下采样获得,以便重建后的图像与原高分辨率图像进行质量指标的相关计算。

设置高分辨率图像$ \mathrm{H}\mathrm{R} $的尺寸为176像素×208像素,相应的低分辨率图像$ \mathrm{L}\mathrm{R} $的尺寸为44像素×52像素。为了更好地从离焦图像中获取可能的补充信息,在离焦图像的处理上,实验并未设置特别大的离焦半径,高斯模糊最大半径设置为1,而运动模糊最大设置为4。在这样的设置下,自编码器的解码部分仍能重建出较好的结果。

在上一部分的实验中,自编码器完成了离焦图像的特征提取以及重建工作,接着利用已训练好的自编码器的编码部分,通过SFT网络层结构,与生成对抗网络相结合。图 10为输入图像示例,分别为低分辨率图像以及不同模糊处理后的图像。

Download:
图 10 输入图像示例 Fig. 10 Sample of input images

为比较实验结果,本文引入其他的超分辨率重建算法作为比较,例如双三次插值以及同样在Celeb A上训练出的SRGAN算法。基于多幅离焦图像重建的效果如图 11所示,从左到右依次为双三次插值算法、SRGAN算法、本文算法以及原HR图像。

Download:
图 11 重建效果对比 Fig. 11 Comparision of reconstruction

从视觉对比中可以看出,双三次插值方法产生的图像质量较差,大量细节丢失导致边缘高度模糊,甚至出现伪影。与双三次插值图像相比,SRGAN图像有明显的改善,图像更加清晰,然而由于一些虚假细节的存在,导致整张脸部看起来不够真实。相比之下,通过多幅离焦图像重建出的图像视觉效果更为真实,并且边缘信息也得到了保留。为了能更加精确地比较几种算法,本文通过峰值信噪比(PSNR)与结果相似性(SSIM)这2种常用的评价图像质量的指标进行了计算,算法测试结果如表 1所示,加粗数值越多,表示该算法效果越好。

下载CSV 表 1 3种超分辨率算法测试结果对比 Table 1 Comparison of test results of three super-resolution algorithms

表 1中可以看出,在某些情况下,双三次插值算法获得了高于其他的PSNR值,结合其视觉质量效果可以发现,这与前文关于PSNR的介绍以及论文SRGAN中的结论一致:衡量像素间相似度的PSNR无法真实反映图像的感知质量,获得最高的PSNR值有时并不意味着最好的超分辨率重建效果。从SSIM值来看,本文所提出的算法在大多数情况下能获得更高的数值,即使在未取得最高的时候也与数值最高的SRGAN相近。这意味着基于多幅离焦图像的超分辨率算法能生成更为优秀的重建图像。

3 结束语

本文以离焦图像作为切入点,提出图像超分辨率重建算法。针对离焦图像的特性,结合去噪自编码器模型完成特征提取与重建。在融合离焦特征信息时,采用空间特征变换层网络,以类仿射变换的方式将自编码器模型的编码部分与每一个残差块结合。将模型在Celeb A人脸数据集上进行训练,实验结果表明,与双三次插值、SRGAN超分辨率算法的重建效果相比,本文算法能更好地恢复图像细节,并且在多数情况下能够获得更高的PSNR与SSIM数值。结合离焦图像的超分辨率重建算法能获得更好的图像重建效果,在电力传输与运维场景视觉监控领域具有一定的使用价值。下一步将研究深度学习模型轻量化,加快训练速度,降低权重参数数量,以保证图像重建的效果更具真实性。

参考文献
[1]
DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]//Proceedings of 2014 European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 184-199.
[2]
DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[3]
KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 109-112.
[4]
KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 45-76.
[5]
ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-restoration[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 37-45.
[6]
LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2017: 71-98.
[7]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1409.1556.
[8]
JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[EB/OL]. [2020-06-01] https://arxiv.org/abs/1603.08155.
[9]
LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. IEEE Computer Society, 2016, 11(1): 1-14.
[10]
BULAT A, TZIMIROPOULOS G. Super-FAN: integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANs[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 42-53.
[11]
PARK S, SON H, CHO S, et al. SRFeat: single image super-resolution with feature discrimination[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 32-53.
[12]
ZHANG K, ZUO W, ZHANG L. Learning a single convolutional super-resolution network for multiple degradations[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 124-133.
[13]
BULAT A, YANG J, TZIMIROPOULOS G. To learn image super-resolution, use a GAN to learn how to do image degradation first[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 39-47.
[14]
WANG X, YU K, WU S, et al. Esrgan: enhanced super-resolution generative adversarial networks[C]//Proceedings of 2018 European Conference on Computer Vision workshops. Berlin, Germany: Springer, 2018: 78-97.
[15]
WANG X, YU K, DONG C, et al. Recovering realistic texture in image super-resolution by deep spatial feature transform[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 2160-2176.
[16]
LARSEN A B L, SONDERBY SOREN KAAE, WINTHER O, et al. Autoencoding beyond pixels using a learned similarity metric[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1191-1208.
[17]
SUN J, CAO W, XU Z, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 22-43.
[18]
LI XU, JIMMY SJ REN, CE LIU, et al. Deep convolutional neural network for image deconvolution[C]//Proceedings of 2014 Conference on Neural Information Processing Systems. [S. l.]: MIT Press, 2014: 1121-1132.
[19]
LEIBE B, MATAS J, SEBE N, et al. A neural approach to blind motion deblurring[EB/OL]. [2020-06-01]. https://www.researchgate.net/publication/301839917_A_Neural_Approach_to_Blind_Motion_Deblurring.
[20]
BORACCHI G, FOI A. Modeling the performance of image restoration from motion blur[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3502-3517. DOI:10.1109/TIP.2012.2192126