开放科学(资源服务)标志码(OSID):
图像超分辨率重建技术是指采用某种算法将低分辨率(Low Resolution,LR)图像重建为近似真实的高分辨率(High Resolution,HR)图像的方法。在实际生活中,受成像设备性能差、环境干扰等因素的影响,重建图像清晰度较低,无法从中提取有效的信息。因此,图像超分辨率重建方法成为计算机领域的研究热点。
超分辨率重建方法分为基于插值的方法、基于重建的方法和基于学习的方法。其中,基于插值和基于重建的方法在重建HR图像时,当无法获得图像先验信息时,重建性能降低。然而,基于学习的方法是通过学习LR图像与HR图像之间的映射关系,构建学习图像之间的对应关系,从而有效提升重建性能。因此,大多数研究人员都在研究基于学习的方法,尤其是卷积神经网络(Convolutional Neural Network,CNN),使得超分辨率重建性能得到显著提升。
基于卷积神经网络的超分辨率重建方法通常以加深网络层数、增大网络复杂度的方式提高重建性能。文献[1]提出基于卷积神经网络的超分辨率重建方法,利用单隐含层的网络实现LR图像到HR图像的映射,以获取超分辨率重建图像。随着网络层数的增加,重建性能不断提高。文献[2]提出基于残差密集连接的图像超分辨率重建网络,将网络隐含层加深到100层以上,重建性能得到显著提高。但是网络参数量达到1×107以上,造成巨大的计算开销。针对内存开销小、计算资源有限等问题[3-5],早期设计的超分辨率重建网络不适用于实际应用中。为此,研究人员提出一系列轻量级图像超分辨率重建网络,分为基于网络结构设计的轻量级网络、基于神经网络结构搜索的轻量级网络和基于知识蒸馏的轻量级网络,其中,基于网络结构设计的轻量级网络占主要地位。文献[6]提出基于信息蒸馏网络(Information Distillation Network,IDN)的轻量级图像超分辨率重建方法,采用通道拆分策略减少网络参数量。文献[7]提出基于残差特征蒸馏网络(Residual Feature Distillation Network,RFDN)的轻量级图像超分辨率重建方法,进一步简化特征提取操作,从而提升网络重建性能,但是网络参数量仍较大而且重建速度也较慢,从而限制其在内存资源小的终端设备上的应用。
本文设计一种基于深度可分离卷积的轻量级图像超分辨率重建网络。构建基于深度可分离卷积的特征提取模块,采用深度可分离卷积操作和对比度感知通道注意力机制,实现提取深层特征的同时有效降低网络参数量、加快重建速度,通过亚像素卷积操作对图像特征进行上采样,使得低分辨率图像重建出近似真实的高分辨率图像。
1 相关工作针对大多数网络参数量庞大、重建速度慢等问题,研究人员提出轻量级图像超分辨率重建方法。在早期的轻量级图像超分辨率重建的研究过程中,文献[8]提出基于深度递归卷积网络(Deeply-Recursive Convolutional Network,DRCN)的图像超分辨率重建方法,文献[9]提出基于深度递归残差网络(Deeply-Recursive Residual Network,DRRN)的图像超分辨率重建方法,这2种方法采用递归网络参数共享的方法减少网络参数量。但是上述方法以增加网络的深度为前提,保证重建图像的质量。DRCN网络与DRRN网络虽然减少了网络参数量,但是增加了网络的深度,并且降低了网络的重建速度。因此,模型参数量少和重建速度快的高效专用网络的构建成为研究热点。基于此,文献[6]提出IDN网络,通过沿着通道维度将中间特征划分为2个部分,一部分被保留,另一部分被后续的卷积层继续处理,传到下一层并提取特征。轻量级网络通过通道拆分策略将提取的特征与上一层部分提取的特征相融合,实现较优的性能。文献[7]提出RFDN网络,简化特征提取块,充分提取特征信息,进一步提升网络的重建性能。
2 本文网络本文提出基于深度可分离卷积的轻量级图像超分辨率重建网络,其结构如图 1所示。
![]() |
Download:
|
图 1 本文网络结构 Fig. 1 Structure of the proposed network |
该网络整体分为特征提取和图像重建2个阶段。在特征提取阶段,输入的LR图像首先经过3×3标准卷积得到浅层特征X0,然后将浅层特征X0输入到K个基于深度可分离卷积的特征提取模块中,提取出每层特征[X1,X2,…,Xn,…,Xk]。当K=6时,经过1×1卷积将特征[X1,X2,…,Xn,…,Xk]相融合,再通过深度可分离卷积提取深层特征Xj。在图像重建阶段,将浅层特征X0与深层特征Xj相加,之后输入到3×3标准卷积和亚像素卷积模块进行上采样,并且与LR图像特征相加,最终完成重建过程。
2.1 特征提取阶段从图 1可以看出,在特征提取阶段,本文主要设计了K个基于深度可分离卷积的特征提取模块,以提取深层特征。因此,在整个特征提取阶段,基于深度可分离卷积的特征提取模块至关重要,其整体结构如图 2所示。本文采用深度可分离卷积操作和对比度感知通道注意力机制,在保持网络重建性能的前提下,减少网络参数量。
![]() |
Download:
|
图 2 基于深度可分离卷积的特征提取模块 Fig. 2 Feature extraction module based on depthwise separable convolution |
从图 2可以看出,该模块主要分为特征提取与融合及注意力的分配。在特征提取与融合过程中,对输入特征进行特征保留、特征提取和特征融合操作。特征保留主要采用1×1卷积将原有特征的通道数减少一半,以减少参数量。特征提取是采用卷积核大小为3×3的深度可分离卷积提取特征,并将其与原特征相加,以学习特征中的信息,从而提取深层特征,为后续的深度可分离卷积操作提供输入特征。特征融合是将特征保留的不同层次特征按维度进行拼接,并采用1×1卷积进行融合,得到融合后的特征。注意力的分配是通过对比度感知通道注意力机制对提取特征的不同通道进行重新分配权重,再与输入特征相加,最终得到输出特征。
2.1.1 深度可分离卷积文献[10]提出深度可分离卷积操作,以解决网络参数量大的问题,采用深度可分离卷积操作替换标准卷积操作,在保证模型性能的前提下,网络参数量大幅降低。因此,深度可分离卷积对轻量级图像超分辨率重建方法的研究具有重要意义。标准卷积操作如图 3所示。当输入特征的通道个数为3时,则卷积核通道个数也为3,将对应通道位置的卷积相加得到输出的一个特征通道。当输出M个特征通道时,卷积核的数量也为M,以获取图像更深层的特征。
![]() |
Download:
|
图 3 标准卷积过程 Fig. 3 Standard convolution process |
深度可分离卷积如图 4所示,主要对标准卷积进行拆分处理,分为深度卷积和1×1的点向卷积2个部分。首先,采用深度卷积操作将输入特征中的每个通道与对应的单通道卷积核进行卷积操作,保持特征图数量不变,从而对输入特征进行滤波操作。其次,通过1×1的点向卷积操作,采用M个1×1卷积核对滤波后的所有特征图进行整合处理,获得M个输出特征图,即提取的输出特征。
![]() |
Download:
|
图 4 深度可分离卷积过程 Fig. 4 Depthwise separable convolution process |
为比较标准卷积和深度可分离卷积的参数量,假设输入为N×H×W的特征,经过尺寸为D×D的卷积核,输出为M×H×W的特征[11-12]。标准卷积参数量为
$ {P}_{1}=N\times D\times D\times M $ | (1) |
深度可分离卷积参数量为
$ {P}_{2}=N\times D\times D+N\times 1\times 1\times M $ | (2) |
计算深度可分离卷积与标准卷积的比值
$ \gamma =\frac{{P}_{2}}{{P}_{1}}=\frac{N\times D\times D+N\times 1\times 1\times M}{N\times D\times D\times M}=\frac{1}{M}+\frac{1}{{D}^{2}} $ | (3) |
因此,深度可分离卷积操作能够大幅减少图像超分辨率重建网络的参数量,使网络更加轻量化。
2.1.2 对比度感知通道注意力机制文献[13]提出的通道注意力机制最初用于图像分类任务中,通过对特征的不同通道重新分配权重,突出有价值的区域,更利于分类或检测。通道注意力机制根据全局平均或最大池化获取全局信息,使得网络学习更有价值的区域。通道注意力机制虽然能够有效提升网络性能,但是对于超分辨率重建网络,缺少有助于增强图像细节的信息(如纹理、边缘等)。为解决该问题,对比度感知通道注意力机制采用标准差和均值的总和(评估特征图的对比度)代替全局平均,有助于增强图像细节信息。对比度感知通道注意力机制整体过程如图 5所示。
![]() |
Download:
|
图 5 对比度感知通道注意力机制结构 Fig. 5 Structure of contrast perception channel attention mechanism |
假设X为输入特征,具有C个通道,尺寸为H×W。首先,计算输入特征中每个通道的对比度,将输入特征X变为1×1×C大小的特征图
$ {T}_{c}=\sqrt[]{\frac{1}{H\times W}\sum\limits _{\left(i, j\right)\in {X}_{c}}{\left({X}_{c}^{i, j}-\frac{1}{H\times W}\sum\limits _{\left(i, j\right)\in {X}_{c}}{X}_{c}^{i, j}\right)}^{2}}+\frac{1}{H\times W}\sum\limits _{(i, j)\in {X}_{c}}{X}_{c}^{i, j} $ | (4) |
其中:c为通道,
经过对比度的计算,
$ Z={\mathrm{s}}{\mathrm{i}}{\mathrm{g}}{\mathrm{m}}{\mathrm{o}}{\mathrm{i}}{\mathrm{d}}\left({W}_{2}{\mathrm{R}}{\mathrm{e}}{\mathrm{L}}{\mathrm{U}}\left({W}_{1}{T}_{C}\right)\right) $ | (5) |
其中:
通过特征值Z与对应输入特征X的通道相乘,得到通道重新分配权重后的特征
$ \tilde{X}=X\times Z $ | (6) |
将对比度信息作为全局信息,获得每个通道的权重值,以实现对重要通道给予更多注意力,增强图像细节信息,从而增强网络的特征提取能力。
2.2 图像重建阶段图像重建阶段的整体过程如图 6所示,将深层特征Xj与浅层特征X0融合[14-16],输入到3×3标准卷积中,将特征通道数增加为原通道数的n倍(放大倍数的2),用于亚像素卷积操作。提取的特征通过亚像素卷积操作进行上采样[17],并与原始的LR图像特征相加,最终完成图像重建过程。
![]() |
Download:
|
图 6 不同放大倍数的图像重建过程 Fig. 6 Image reconstruction process with different magnifications |
亚像素卷积的具体操作如图 7所示,以3×3大小的图像像素进行2倍放大为例。通过对3×3大小的图像特征四周补零,4个3×3大小的卷积核与扩充后的图像特征卷积,输出4个3×3大小的特征图[18]。最后,将输出特征图按照对应编号1、2、3、4进行排列,即实现对图像放大2倍的操作。
![]() |
Download:
|
图 7 亚像素卷积过程 Fig. 7 Sub-pixel convolution process |
本文采用DIV2K数据集作为训练集,其中包含人物、自然风景、人文景观等,总共800幅图像;采用Set5、Set14、BSD100、Urban100、Manga109[19]作为测试集。其中Set5、Set14、BSD100、Urban100这4种测试集都是拍摄的自然景观、人物等真实图像,数量分别为5幅、14幅、100幅、100幅,而Manga109[19]测试集则是动漫人物图画,数量为109幅。另外,本文提供的数据集都只是高分辨率图像,低分辨率图像则是通过双三次下采样的方法分别获取缩放因子X2、X3、X4的图像,组成成对数据集。
本文采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)作为评价指标。其中,PSNR是超分辨率重建领域中最主要的评价指标值,主要是通过计算最大像素值(L)与图像之间的均方误差(MSE)来获得,数值越大,性能越优,单位为dB。例如,有N个像素的真实HR图像(
$ {M}_{{\mathrm{M}}{\mathrm{S}}{\mathrm{E}}}=\frac{1}{N}\sum\limits _{i=1}^{N}{\left(I\left(i\right)-\widehat{I}\left(i\right)\right)}^{2} $ | (7) |
PSNR值如式(8)所示:
$ {P}_{{\mathrm{P}}{\mathrm{S}}{\mathrm{N}}{\mathrm{R}}}=10{\mathrm{ }}{\mathrm{l}}{{\mathrm{g}}}_{}\left(\frac{{L}^{2}}{{M}_{{\mathrm{M}}{\mathrm{S}}{\mathrm{E}}}}\right) $ | (8) |
在数据预处理方面,本文通过对训练集图像进行数据增强(如随机旋转与翻转),并且对图像裁切成块大小分别为256×256像素、255×255像素、256×256像素,用于训练不同放大倍数的超分辨率重建网络。
本文实验采用Pytorch进行网络设计,采用单块GPU训练网络,型号为NVIDIA Quadro P5000。采用Adam优化器,参数β1=0.9、β2=0.999、
本文网络与VDSR[20]、DRCN[8]、DRRN[9]、MemNet[21]、IDN[6]、RFDN[7]主流轻量级图像超分辨率重建网络进行性能对比。在5种公开数据集上,不同放大倍数下各轻量级图像超分辨率重建网络的PSNR均值、SSIM均值对比如表 1~表 3所示。表中加粗为最优的数据,加下划线为次优的数据。
![]() |
下载CSV 表 1 当放大倍数为2时不同网络PSNR和SSIM对比 Table 1 PSNR and SSIM comparison among different networks when magnification is 2 |
![]() |
下载CSV 表 2 当放大倍数为3时不同网络PSNR和SSIM对比 Table 2 PSNR and SSIM comparison among different networks when magnification is 3 |
![]() |
下载CSV 表 3 当放大倍数为4时不同网络PSNR和SSIM对比 Table 3 PSNR and SSIM comparison among different networks when magnification is 4 |
从表 1~表 3可以看出,RFDN网络性能最优,本文网络性能次之。本文网络与除了RFDN网络以外的其他轻量级图像超分辨率重建网络相比,整体网络重建性能较优。在BSD100数据集上,当放大倍数为2时,本文网络的测试性能相比IDN网络较差,除此之外,无论放大倍数较低(2倍),还是放大倍数较高(3倍、4倍),重建图像所取得的PSNR均值与SSIM均值,均高于其他轻量级图像超分辨率重建网络。
RFDN网络的PSNR均值与SSIM均值普遍优于本文网络。但是,两者重建性能差距并不大,重建图像所取得的PSNR均值与SSIM均值之间的整体差值约0.2 dB。因此,本文网络的重建性能相比于大多数主流轻量级图像超分辨率重建网络,具有明显的竞争力。
3.3.2 网络参数量对比基于深度可分离卷积的轻量级图像超分辨率重建网络与VDSR、DRCN、DRRN、MemNet、IDN、RFDN等轻量级图像超分辨率重建网络进行参数量对比,如表 4所示。加粗表示最优的数据。
![]() |
下载CSV 表 4 不同网络的参数量对比 Table 4 Parameters comparison among different networks |
从表 4可以看出,本文网络的参数量最少,并且与其他轻量级图像超分辨率重建网络成倍数的差别。本文网络相较于DRRN网络的参数量减少了约1/2,相较于IDN、RFDN网络,参数量减少约3/4,相较于VDSR、MemNet网络,参数量减少约4/5,相较于DRCN网络,参数量减少约10/11。
参数量是衡量轻量级图像超分辨率重建网络性能的重要指标[22],参数量越小可以更好地应用到显存资源较小的终端设备中。通过网络参数量的对比分析,相比其他主流轻量级图像超分辨率重建网络,本文网络的参数量成倍数减少,网络更加轻量化,更易于部署到终端设备中。
3.3.3 网络重建时间对比在不同放大倍数情况下,本文网络与VDSR、DRCN、DRRN、MemNet、RFDN等轻量级图像超分辨率重建网络的重建时间对比如表 5所示。以基准测试集Set5为例,对不同放大倍数的网络进行重建,单位为s。VDSR、DRCN、DRRN及MemNet网络重建时间依据文献[6]统计的数据。RFDN网络与本文网络是在GPU显存有部分占用的情况下测试的,不同设备测试时间会有所差距。加粗为重建时间最短的网络,加下划线为重建时间次优的网络。
![]() |
下载CSV 表 5 不同网络的重建时间对比 Table 5 Reconstruction time comparison among different networks |
从表 5可以看出,本文网络在不同放大倍数中重建时间最短,RFDN网络次之。本文网络相较于其他轻量级图像超分辨率重建网络,重建时间显著缩短。相比VDSR、RFDN网络,本文网络的重建时间缩短了约2倍。相比DRCN、DRRN、MemNet网络,本文网络的重建时间缩短几十倍乃至上百倍。网络的重建时间是衡量轻量级图像超分辨率重建网络性能的另一个重要指标。网络重建时间越快,网络应用在终端设备中[23],给用户带来更舒适的体验。通过网络重建时间的对比,本文网络相比于其他主流轻量级图像超分辨率重建网络,重建时间最优。
3.3.4 网络重建结果示例为对比图像实际的重建效果,本文从测试集Set14中选取3张真实的高分辨率图像。当放大倍数为2时,重建图像的效果对比如图 8所示。从图 8可以看出,本文网络重建效果与RFDN网络重建效果几乎相同,视觉体验良好。与真实的高分辨率图像相比,本文网络重建图像的胡须部分有些模糊;从图 8(d)中可以看出,本文网络重建图像的斑马纹理明显平滑,不够清晰。虽然本文网络与RFDN网络的重建效果趋于相同,但是与真实的高分辨率图像相比,细节纹理还是不够清晰。
![]() |
Download:
|
图 8 重建图像主观视觉对比 Fig. 8 Subjective visual comparison of reconstruction images |
本文提出一种基于深度可分离卷积的轻量级图像超分辨率重建网络。在特征提取阶段,设计基于深度可分离卷积的特征提取模块,通过深度可分离卷积与对比度感知通道注意力机制,减少网络参数量。在图像重建阶段,采用亚像素卷积对图像特征进行上采样,实现图像超分辨率重建。实验结果表明,相比VDSR、RFDW、IDN等网络,本文网络具有较少的参数量。后续将通过引入生成对抗的方法,在保证网络轻量化的同时提升重建图像的视觉质量。
[1] |
DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307. DOI:10.1109/TPAMI.2015.2439281 |
[2] |
ZHANG Y L, TIAN Y P, KONG Y, et al. Residual dense network for image restoration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(7): 2480-2495. DOI:10.1109/TPAMI.2020.2968521 |
[3] |
MEI S H, JIANG R T, LI X, et al. Spatial and spectral joint super-resolution using convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(7): 4590-4603. DOI:10.1109/TGRS.2020.2964288 |
[4] |
TANG Y L, GONG W G, CHEN X, et al. Deep inception-residual Laplacian pyramid networks for accurate single-image super-resolution[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(5): 1514-1528. DOI:10.1109/TNNLS.2019.2920852 |
[5] |
YANG W M, WANG W, ZHANG X C, et al. Lightweight feature fusion network for single image super-resolution[J]. IEEE Signal Processing Letters, 2019, 26(4): 538-542. DOI:10.1109/LSP.2018.2890770 |
[6] |
HUI Z, WANG X M, GAO X B. Fast and accurate single image super-resolution via information distillation network[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 723-731.
|
[7] |
LIU J, TANG J, WU G S. Residual feature distillation network for lightweight image super-resolution[EB/OL]. [2021-05-07]. https://arxiv.org/abs/2009.11551.
|
[8] |
KIM J, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1637-1645.
|
[9] |
TAI Y, YANG J, LIU X M. Image super-resolution via deep recursive residual network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2790-2798.
|
[10] |
HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-05-07]. https://arxiv.org/pdf/1704.04861.pdf.
|
[11] |
程德强, 郭昕, 陈亮亮, 等. 多通道递归残差网络的图像超分辨率重建[J]. 中国图象图形学报, 2021, 26(3): 605-618. CHENG D Q, GUO X, CHEN L L, et al. Image super-resolution reconstruction from multi-channel recursive residual network[J]. Journal of Image and Graphics, 2021, 26(3): 605-618. (in Chinese) |
[12] |
刘超, 张晓晖, 胡清平. 图像超分辨率卷积神经网络加速算法[J]. 国防科技大学学报, 2019, 41(2): 91-97. LIU C, ZHANG X H, HU Q P. Image super resolution convolution neural network acceleration algorithm[J]. Journal of National University of Defense Technology, 2019, 41(2): 91-97. (in Chinese) |
[13] |
HH J, SHEN L, SUN G. Squeeze-and-Excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. DOI:10.1109/TPAMI.2019.2913372 |
[14] |
王诗言, 曾茜, 周田, 等. 基于注意力机制与特征融合的图像超分辨率重建[J]. 计算机工程, 2021, 47(3): 269-275, 283. WANG S Y, ZENG X, ZHOU T, et al. Image super-resolution reconstruction based on attention mechanism and feature fusion[J]. Computer Engineering, 2021, 47(3): 269-275, 283. (in Chinese) |
[15] |
LAI W S, HUANG J B, AHUJA N, et al. Fast and accurate image super-resolution with deep Laplacian pyramid networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(11): 2599-2613. DOI:10.1109/TPAMI.2018.2865304 |
[16] |
YANG X, MEI H Y, ZHANG J Q, et al. DRFN: deep recurrent fusion network for single-image super-resolution with large factors[J]. IEEE Transactions on Multimedia, 2019, 21(2): 328-337. DOI:10.1109/TMM.2018.2863602 |
[17] |
YANG W M, ZHANG X C, TIAN Y P, et al. Deep learning for single image super-resolution: a brief review[J]. IEEE Transactions on Multimedia, 2019, 21(12): 3106-3121. DOI:10.1109/TMM.2019.2919431 |
[18] |
鲁甜, 刘蓉, 刘明, 等. 基于特征图注意力机制的图像超分辨率重建[J]. 计算机工程, 2021, 47(3): 261-268. LU T, LIU R, LIU M, et al. Image super-resolution reconstruction based on attention mechanism of feature map[J]. Computer Engineering, 2021, 47(3): 261-268. (in Chinese) |
[19] |
MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch-based manga retrieval using manga109 dataset[J]. Multimedia Tools and Applications, 2017, 76(20): 21811-21838. DOI:10.1007/s11042-016-4020-z |
[20] |
KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1646-1654.
|
[21] |
TAI Y, YANG J, LIU X M, et al. MemNet: a persistent memory network for image restoration[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 4549-4557.
|
[22] |
SUN L, LIU Z B, SUN X Y, et al. Lightweight image super-resolution via weighted multi-scale residual network[J]. IEEE/CAA Journal of Automatica Sinica, 2021, 8(7): 1271-1280. DOI:10.1109/JAS.2021.1004009 |
[23] |
ZHAO X L, ZHANG Y L, ZHANG T, et al. Channel splitting network for single MR image super-resolution[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5649-5662. DOI:10.1109/TIP.2019.2921882 |