开放科学(资源服务)标志码(OSID):
单张图像超分辨率(Single Image Super-Resolution,SISR)重建将一个低分辨率(Low Resolution,LR)图像映射到一个高分辨率(High Resolution,HR)图像,已广泛应用于安保系统[1]、智能监控系统[2]、医学图像增强[3]等领域。由于一个特定的低分辨率图像可能对应多个高分辨率图像,因此SISR是一个高度病态的过程。研究人员提出基于插值[4]、基于重构[5],以及基于学习[6-7]的SISR方法,其中基于卷积神经网络(Convolutional Neural Network,CNN)的SISR方法因其强大的表征能力而具有优异的重建性能。
深度学习已经成为计算机视觉领域的重要工具,通过构建端到端的卷积神经网络来学习低分辨率到高分辨率之间的映射关系。DONG等将超分辨率重建任务和深度学习相结合,提出只包含3层卷积层的超分辨率重建网络SRCNN[8],具有较优的重建效果。为提高网络模型的映射能力,KIM等根据残差学习原理,提出更深的网络VDSR[9]和DRCN[10]。TAI等在DRRN[11]中引入递归残差块,降低网络的训练难度并通过递归块减少网络参数。这些方法都是通过插值将低分辨率图像放大到与高分辨率图像相同的尺寸,进而提取特征,导致网络的训练时间延长。针对该问题,SHI等提出ESPCN[12],在网络末端通过亚像素卷积将初始低分辨率图像放大到与高分辨率图像一致的尺寸。后续很多网络模型结合亚像素卷积的优点,重建效果都得到了一定程度的提升。LIM等考虑到BN层对超分辨率重建效果的影响,利用残差块堆叠出EDSR网络[13],并去掉相应的BN层。ZHANG等在RCAN[14]中引入SE[15]模块,在每个残差块中加入SE模块,使网络在传递信息的过程中不断被修正,从而提高模型的性能指标。为降低计算成本,在超分辨率重建任务中,轻量级和高效模型的构建越来越受到研究人员的关注。AHN等在残差网络的基础上,结合级联机制通过局部和全局来集成多个层的特征,设计一个适用于移动场景的轻量级网络CARN[16],导致重建后的指标降低。之后,MUQEET等提出MAFFSRN[17]并引入多注意力模块来提高性能。ZHAO等在通道聚合网络(Path Aggregation Network,PAN)[18]中引入像素注意力,使得模型在加入较少参数量的同时提升重建指标。文献[19]设计一种基于蝴蝶结构的网络LatticeNet以自适应组合残差块,取得了较优的重建效果。轻量级超分辨率重建网络能够平衡峰值信噪比(Peak Signal to Noise Ratio,PSNR)与参数量之间的关系。
本文提出一种轻量化动态自适应层叠网络(Dynamic Adaptive Cascade Network,DACN)。通过双路残差的学习方式提取图像的纹理细节并过滤冗余信息,增强信息交互性,获得更丰富的信息。通过纵向并行地共享双路残差块(Dual Residual Block,DRB)中的部分卷积参数,利用可学习参数调整共享卷积的权重,在减少参数量的同时,使得卷积参数更加契合原始特征与目标特征的非线性映射关系,提高网络对纹理细节的提取性能。
1 动态自适应层叠网络 1.1 网络结构DACN的架构如图 1所示。DACN由N个动态自适应层叠模块(Dynamic Adaptive Cascade Block,DACB)通过残差连接相连构成,并通过一个全局跳跃连接保留原始特征,将不同的卷积块串接后加上1×1卷积层,获得中高频信息,从而改善图像重建效果。DACB由M个DRB和M-1个动态自适应模块(Dynamic Adaptive Block,DAB)层叠组成。
![]() |
Download:
|
图 1 动态自适应层叠网络结构 Fig. 1 Structure of dynamic adaptive cascade network |
DACN主要由
$ {F}_{0}={f}_{s}\left(x\right) $ | (1) |
其中:
$ {F}_{1}=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({f}_{d}^{1}\right({F}_{0}), {F}_{0}) $ | (2) |
其中:
$ {F}_{i}=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({f}_{d}^{i}\right({f}_{t}^{i-1}\left({F}_{i-1}\right)), {F}_{i-1}) $ | (3) |
其中:
$ {F}_{f}={f}_{t}^{n}\left({F}_{n}\right) $ | (4) |
其中:
动态自适应层叠模块目的是有效地提取重要的纹理细节,同时过滤掉无用的特征。动态自适应层叠模块主要包括DRB和DAB。
根据残差网络的思想,DACB选择以层叠的方式将DRB和DAB联合,通过每次的叠加使得初始特征与更新后的特征进行交互,增强网络的非线性映射能力。DACB每次通过DAB的特征增强后,将
$ {F}_{1}={h}_{1}\left({f}_{c}^{1}\right({F}_{0}\left)\right) $ | (5) |
$ {F}_{j}={h}_{j}\left({f}_{c}^{j}\right({f}_{r}^{j-1}({F}_{j-2}+{F}_{j-1})\left)\right) $ | (6) |
$ y=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({F}_{1}, {F}_{2}, \cdots , {F}_{m}) $ | (7) |
其中:
1)双路残差块,采用双路并行的方式提取特征。本文考虑到加入过多的普通卷积使得参数量显著提升,DRB的上路通过深度可分离卷积提取低频特征。相比对应的卷积,深度可分离卷积不仅具有较多的计算量以及较少的参数量,同时能更好地进行维度变化。假设DRB的输入为
$ {x}_{1}={f}_{\mathrm{d}\mathrm{w}}^{2}\mu {f}_{\mathrm{d}\mathrm{w}}^{1}\left(x\right) $ | (8) |
其中:
$ {y}_{1}={x}_{1}\times \sigma \left({f}_{1}\right({x}_{1}\left)\right) $ | (9) |
其中:
$ {y}_{2}={f}_{r}\left(x\right) $ | (10) |
其中:
$ y=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}({y}_{1}, {y}_{2}) $ | (11) |
其中:
2)动态自适应模块,通常情况下,网络越深参数量越多,可学习到的内容也就越多,最终得到的结果也会更理想。而轻量化网络因其参数量较少,通常对模型的设计要求较高,需要充分且合理地利用卷积核来提取丰富的特征。因此,本文基于动态卷积核[20]的思想,设计动态自适应模块,并与双路残差块联合工作,在网络参数量减少的同时进一步增强特征的提取能力。动态自适应模块结构如图 2所示,利用注意力机制得到每个卷积核所需要的权重,该注意力机制与通道注意力类似,不同点在于最后通过Softmax函数将权重值控制在0和1之间,且权重值总和为1。
![]() |
Download:
|
图 2 动态自适应模块结构 Fig. 2 Structure of dynamic adaptive block |
动态自适应模块的注意力机制以非线性方式叠加卷积核,使得模型的表征能力得到显著提升。利用上层DRB的下路4个卷积核和2个新的卷积核作为动态卷积核的子卷积,每个卷积核与权重值相乘再相加,使得模块在提取特征时可以自适应地选择卷积核的参数。DRB中的下路卷积核通过串行方式来逐步提取特征,此时卷积核已经有了“横向”提取特征的特征参数,经过DAB的并行处理,使得原本拥有“横向”特征参数的卷积核学习到“纵向”的特征参数,有效地提升了卷积核的利用率。由于动态自适应模块的输入是DAB的输出与初始特征的加和,因此在DRB中引入两个新的卷积核作为子卷积核,以动态校准获取到的特征,在参数量小幅增加的同时使得模块具有指导DAB共享卷积块的作用。假设
$ u={F}_{sq}\left(x\right)=\frac{1}{H\times W}\sum \limits_{i=1}^{H}\sum \limits_{j=1}^{W}x(i, j) $ | (12) |
然后对全局特征进行Excitation操作,通过2个全连接层学习各个通道间的关系,第1个对得到的全局描述特征进行压缩降维,第2个再将其恢复成原始维度。Excitation操作过程如式(13)所示:
$ {w}_{1}, {w}_{2}, \cdots , {w}_{6}=\sigma \left({v}_{2}\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\right({v}_{1}u\left)\right) $ | (13) |
其中:
$ y=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(\right({w}_{1}{c}_{d}^{1}+{w}_{2}{c}_{d}^{2}+\cdots +{w}_{6}{c}_{n}^{2}\left)x\right) $ | (14) |
其中:
本文考虑到普通的上采样会引入一些无用信息,影响重建效果,采用亚像素卷积将图像上采样至目标尺寸,再通过一个
$ y=\phi ({F}_{f}+{F}_{0}) $ | (15) |
其中:
本文考虑到L1损失函数的收敛速度比L2快,选择L1函数作为损失函数,如式(16)所示:
$ L\left(\theta \right)=\frac{1}{N}\sum \limits_{i=1}^{N}{‖H\left({I}_{\mathrm{L}\mathrm{R}}^{i}\right)-{I}_{\mathrm{H}\mathrm{R}}^{i}‖}_{1} $ | (16) |
其中:
在训练阶段,本文使用DIV2K数据集,该数据集是广泛应用于超分辨率重建的训练集。图像通过水平随机翻转和旋转90°、180°、270°进行数据增强。在测试阶段,本文使用Set5[21]、Set14[22]、BSD100[23]、Manga109[24]基准数据集,为了与之前的工作保持一致,在YCbCr颜色空间的Y通道上使用PSNR和结构相似性(SSIM)来评价SR结果。
在本文提出的DACN网络中,未说明的卷积核大小都是
为验证模块的有效性,本文对动态自适应层叠网络进行消融实验。在Set5、Set14、BSD100数据集上,当放大因子为4时,不同模型的PSNR对比如表 1所示,ORB表示单路残差模块。
![]() |
下载CSV 表 1 消融实验结果 Table 1 Ablation experiment results |
现有网络利用残差块提取图像特征,忽略了深度可分离卷积可以大幅减少模型参数量的能力。从表 1可以看出:当模型仅利用ORB进行学习时,即表中的DACN+ORB,其在Set5数据集上的PSNR为32.14 dB;当模型利用DRB进行学习时,在Set5数据集上DACN+DRB模型的PSNR为32.22 dB,同时参数量相比DACN+DRB模型仅增加1×105左右,说明提出的DRB在增加少量参数的同时可以充分挖掘图像的细节特征,增强网络的重建能力。
2.2.2 动态自适应模块的有效性DACN+DAB为加入动态卷积核的网络模型,即动态卷积核的子卷积没有共享DRB的下路卷积,在Set5数据集上的PSNR指标提升到32.27 dB。由此可以看出:动态自适应模块利用可学习参数调整卷积的权重,使得卷积参数更加契合原始特征与目标特征的非线性映射关系,增强网络对纹理细节的提取性能,同时,参数量也会大幅增加。因此,本文提出的动态自适应层叠网络结合DRB中的共享卷积,利用卷积核减少参数的同时,使得DRB中的卷积可以学习到不同角度的细节特征,有效地提升了网络的重建性能。
在Set5数据集上,当放大因子为4时,参数
![]() |
Download:
|
图 3 参数N对峰值信噪比、参数量、计算量的影响 Fig. 3 Influence of parameter N on PSNR, parameter quanitity and calculation quanitity |
在Set5数据集上,当放大因子为4时,不同网络的PSNR与参数量、计算量之间的关系如图 4所示,圆形标注的是其他网络,正方形标注的是本文DACN网络。DACN在参数量和计算量较小的情况下,PSNR指标较大,在性能与质量上达到了平衡。
![]() |
Download:
|
图 4 不同网络的参数量、计算量与峰值信噪比的关系 Fig. 4 Relationship between PSNR and parameters quanitity, calculation quanitity of different networks |
本文将DACN与其他超分辨率重建网络进行对比,包括SRCNN、VDSR、LapSRN[25]、MemNet[26]、CARN、PAN、RFDN[27]。所有网络分别在放大因子为2、3、4的情况下进行评估。本文均使用峰值信噪比(PSNR)和结构相似性(SSIM)作为指标。表 2所示为不同超分辨率网络模型在不同放大因子下峰值信噪比与结构相似性对比。加粗的数据为重建效果最优的数据,加下划线的数据为次优。从表 2可以看出,本文提出的DACN在基准数据集上的重建效果较优,参数量也较为理想。
![]() |
下载CSV 表 2 不同网络的峰值信噪比与结构相似性对比 Table 2 Peak signal to noise ratio and structural similarity comparison among different networks |
当放大因子为4时,在Urban100和BSD100数据集上,不同网络的可视化结果对比如图 5所示。从图 5可以看出,本文网络DACN在恢复图像纹理细节上有较大优势。对于重构Urban100数据集中图像时,虽然PAN和RFDN在一定程度上恢复了部分纹理信息,但生成的部分线条有不同程度的弯曲。相比CARN、PAN、RFDN等网络,本文所提的DACN网络恢复的图案线条更加符合原图的纹理。
![]() |
Download:
|
图 5 不同网络的可视化结果对比 Fig. 5 Visualization results comparison among different networks |
本文提出基于动态自适应层叠模块的轻量化网络,在双路残差块中利用深度可分离卷积减少参数量,同时引入像素注意力机制使网络精确地提取图像细节信息,将双路残差块的一部分卷积参数与动态自适应模块共享,不仅从不同角度提取特征,还可以根据不同的输入以自学习的方式自动调整卷积核的参数,有效提升重建图像的质量。实验结果表明,相比VDSR、CARN、PAN等网络,本文网络具有较优的图像重建性能且参数量较少,在可视化图像中生成的纹理更接近原始图像的纹理线条。后续考虑将剪枝算法融入到动态自适应层叠网络中,进一步减少网络参数量,提高图像重建能力。
[1] |
GOHSHI S. Real-time super resolution algorithm for security cameras[C]//Proceedings of the 12th International Joint Conference on e-Business and Telecommunications. Washington D.C., USA: IEEE Press, 2015: 92-97.
|
[2] |
TAO H J, LU X B. Contour-based smoky vehicle detection from surveillance video for alarm systems[J]. Signal, Image and Video Processing, 2019, 13(2): 217-225. DOI:10.1007/s11760-018-1348-z |
[3] |
ISAAC J S, KULKARNI R. Super resolution techniques for medical image processing[C]//Proceedings of International Conference on Technologies for Sustainable Development. Washington D.C., USA: IEEE Press, 2015: 1-6.
|
[4] |
ARÀNDIGA F. A nonlinear algorithm for monotone piecewise bicubic interpolation[J]. Applied Mathematics and Computation, 2016, 272: 100-113. DOI:10.1016/j.amc.2015.08.027 |
[5] |
戚曹, 朱桂斌, 唐鉴波, 等. 基于稀疏表示的红外视频图像超分辨率算法[J]. 计算机工程, 2016, 42(3): 278-282. QI C, ZHU G B, TANG J B, et al. Super-resolution algorithm of infrared video image based on sparse representation[J]. Computer Engineering, 2016, 42(3): 278-282. (in Chinese) DOI:10.3969/j.issn.1000-3428.2016.03.050 |
[6] |
王诗言, 曾茜, 周田, 等. 基于注意力机制与特征融合的图像超分辨率重建[J]. 计算机工程, 2021, 47(3): 269-275, 283. WANG S Y, ZENG X, ZHOU T, et al. Image super-resolution reconstruction based on attention mechanism and feature fusion[J]. Computer Engineering, 2021, 47(3): 269-275, 283. (in Chinese) |
[7] |
CHEN Y B, LIU S F, WANG X L. Learning continuous image representation with local implicit image function[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2021: 8624-8634.
|
[8] |
DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307. DOI:10.1109/TPAMI.2015.2439281 |
[9] |
KIM J W, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1646-1654.
|
[10] |
KIM J W, LEE J K, LEE K M. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1637-1645.
|
[11] |
TAI Y, YANG J, LIU X M. Image super-resolution via deep recursive residual network[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 3147-3155.
|
[12] |
SHI W Z, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 1874-1883.
|
[13] |
LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2017: 1132-1140.
|
[14] |
ZHANG Y L, LI K P, LI K, et al. Image super-resolution using very deep residual channel attention networks[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 294-310.
|
[15] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141.
|
[16] |
AHN N, KANG B, SOHN K A. Fast, accurate, and lightweight super-resolution with cascading residual network[C]//Proceedings of the European Conference on Computer Vision. New York, USA: ACM Press, 2018: 252-268.
|
[17] |
MUQEET A, HWANG J, YANG S B, et al. Ultra lightweight image super-resolution with multi-attention layers[EB/OL]. [2022-03-01]. https://arxiv.org/abs/2008.12912.
|
[18] |
ZHAO H Y, KONG X T, HE J W, et al. Efficient image super-resolution using pixel attention[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 56-72.
|
[19] |
LUO X, XIE Y, ZHANG Y, et al. LatticeNet: towards lightweight image super-resolution with lattice block[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 272-289.
|
[20] |
CHEN Y P, DAI X Y, LIU M C, et al. Dynamic convolution: attention over convolution kernels[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 11027-11036.
|
[21] |
BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of British Machine Vision Conference. Berlin, Germany: Springer, 2012: 135.
|
[22] |
ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C]//Proceedings of International Conference on Curves and Surfaces. Berlin, Germany: Springer, 2012: 711-730.
|
[23] |
MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2001: 416-423.
|
[24] |
HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 5197-5206.
|
[25] |
LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 5835-5843.
|
[26] |
TAI Y, YANG J, LIU X M, et al. MemNet: a persistent memory network for image restoration[C]//Proceedings of International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 4539-4547.
|
[27] |
LIU J, ZHANG W J, TANG Y T, et al. Residual feature aggregation network for image super-resolution[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 2359-2368.
|