开放科学(资源服务)标志码(OSID):
单帧图像超分辨率(Single Image Super-Resolution,SISR)重建是指通过特定的算法模型对丢失高频特征信息的低分辨率图像重建出一张清晰的高分辨率图像。近年来,SISR技术被广泛应用于移动端设备的视觉成像、监控成像、遥感卫星成像、医学成像等多个领域。
现有SISR重建算法主要分为基于插值和基于深度学习两类。基于插值的重建算法计算复杂度较低,重建速度较快,其依据低分辨率图像的已知特征信息和空间的维度相关性在合适的位置插入若干像素点来提高低分辨率图像的分辨率。由于此类算法主要是通过简单地评估相邻像素点之间的相关性来扩充低分辨率图像的特征信息,因此在重建的过程中难以获取真实图像的高频信息,导致高分辨率图像丢失细节特征,并且成像视觉效果较差。基于深度学习的重建算法主要通过神经网络模型学习低分辨率图像与对应高分辨率图像之间的映射关系,利用这个映射关系的先验知识将低分辨率图像映射为高质量的高分辨率图像。文献[1-3]研究表明,基于深度学习的算法比基于插值的算法具有更强大的重建性能,能够显著提高重建图像的质量。
在基于深度学习的重建算法中,特征表达能力强的网络层能够更有效地学习图像的特征表示,捕获更细粒度和丰富的细节特征。部分基于深度学习的SISR重建算法[3-4]通过使用更深的网络层和更复杂的连接方式来提高网络模型的整体特征表达能力,进而提升重建性能。虽然在一定程度上通过扩大网络层的深度和复杂的连接方式能够增强网络层的整体特征表达能力,但是过度依赖于这种方式会导致网络模型中的参数量和计算复杂度急剧上升。在神经网络中,参数量代表了网络模型的规模,而计算复杂度代表了网络模型前向推理的效率。从实际应用的意义上来说,网络模型的规模和超分辨率图像的重建速度会限制SISR网络模型在现实场景中的应用。文献[5]指出,舍弃深度网络层中冗余的参数不仅能够减小网络模型过参数化所带来的消极影响,而且还能提高特征表达的稳定性。
神经网络的剪枝算法通过舍弃部分参数的方式来减少网络模型的参数量。现有剪枝算法主要可分为结构化剪枝算法和非结构化剪枝算法两大类。结构化剪枝算法通过舍弃网络层中部分的通道达到减少参数量的效果。由于这种方式是在网络结构上做出的调整,因此原来的网络结构会发生改变。非结构化剪枝算法通过将网络层中部分参数归零的方式来舍弃部分参数,因此,不会改变原来的网络结构。文献[6-7]将结构化剪枝算法应用到图像超分辨率网络模型中,在确保重建性能的情况下,最大化地轻量化网络模型的规模,以部署到实际应用场景中。
文献[8]提出神经网络的非结构化剪枝算法LTH。算法的设计思想是将一个复杂的神经网络视作一个奖池,而中奖彩票则是一组权重参数所对应的稀疏子网络。实验结果表明,LTH算法通过搜索最优的稀疏子网络,在图像分类任务上取得了显著的效果,但应用在图像超分辨率任务上却效果较差。
LTH算法采用非均衡的特征学习策略,只注重于网络模型的稀疏程度,而忽视了特征表达的多样性。为进一步提高图像重建性能,本文结合图像超分辨率重建任务的特点,在LTH算法的基础上提出一种基于均衡学习策略的动态非结构化剪枝算法RLTH。该算法在保证网络模型稀疏性的同时还注重权重参数学习的多样性,能够解决图像超分辨率重建任务中网络模型过参数化导致重建性能下降的问题,并在不改变网络结构和不增加计算复杂度的前提下提高重建超分辨率图像的质量。
1 相关工作 1.1 基于深度学习的单帧图像超分辨率重建算法文献[9]提出SRCNN模型,通过三层CNN分别实现低分辨率图像的特征提取、特征的非线性映射和高分辨率图像的重建过程。相对于传统基于插值的图像超分辨率重建算法,SRCNN重建的高分辨率图像具有更丰富的细节特征,且图像的轮廓清晰可见。文献[10]提出DRN网络模型,通过训练低分辨率图像与高分辨率图像之间的对偶映射关系,并利用闭环的映射关系来降低低分辨率图像对高分辨率图像的依赖性,进而解决真实样本的超分辨率问题。文献[11]提出RFANet网络模型,利用残差模块和增强空间注意力模块的有效特征提取能力,将它们整合为残差特征聚合框架,从而提高超分辨率图像的质量。文献[12]提出的TTSR网络模型是一种可学习的纹理提取器,其通过训练来获取最适合超分辨率重建的纹理信息,为纹理迁移和纹理合成提供丰富的纹理基础信息,最终生成高质量的超分辨率图像。
现有的SISR重建算法中大部分通过设计较深的网络结构和使用复杂的网络连接策略来增强特征提取能力,以利用有效的特征提取能力从低分辨率图像中学习和捕获丰富的纹理特征,进而获得高质量的超分辨率图像。但是,这种过量扩大网络深度和使用复杂的连接方式会导致网络模型的大小和计算复杂度急剧上升。
1.2 神经网络的非结构化剪枝算法神经网络的非结构化剪枝算法[13-15]通过将某些参数归零的方式来获得稀疏子网络,一般地,神经网络的稀疏性可以提高特征选择和泛化的能力。一方面,一些研究者通过探索有效的非结构剪枝方式去获得稀疏子网络,如利用不同的正则化技术或设计可行的剪枝策略。文献[13-14, 16]所提出的方法是通过利用L2正则化技术优化基于卷积神经网络(Convolutional Neural Network,CNN)的模型来获得稀疏子网络。文献[15]通过L0正则化技术来获得稀疏子网络。文献[17]通过联合正则化技术和参数的敏感度评估来实现剪枝的过程。不同于上述利用正则化技术的方法,文献[8]通过迭代的动态剪枝过程将不重要的参数归零来搜索最优的稀疏子网络。另一方面,一些研究者把注意力放在了非结构化剪枝方法所带来的效率问题上,并探索如何将这种效率落实到硬件设备上。文献[18]探索了在CNN模型中找到平衡的稀疏度并在硬件设备上加速神经网络的推理过程。文献[19]通过对网络参数的评估来实现参数的剪枝和复原过程,并尝试最大化地压缩基于密集神经网络(Dense Neural Network,DNN)或CNN的模型来加速训练的过程。此外,文献[13]将稀疏网络部署到单独设计的硬件设备上,获得了非常高的加速效率。
2 均衡学习的动态非结构化剪枝算法 2.1 LTH剪枝算法神经网络的非结构化剪枝算法处理的对象是网络层中的权重参数,其目的是剪掉网络层中冗余的或者对网络模型最终输出结果几乎不产生影响的权重参数。因此,这种剪枝算法只是在网络层的权重参数层面进行处理,而不会影响整个网络模型的具体结构。LTH算法通过迭代训练的方式在每轮迭代中将无意义的权重参数归零来实现剪枝的过程,从而进一步搜索最优的稀疏子网络。具体地,LTH算法是通过比较权重参数和阈值的大小关系来判断网络层中的一个权重参数是否是具有意义的。当权重参数的值小于阈值,则认为该权重参数是无意义或者冗余的,否则认为该权重参数是具有学习潜力和有意义的。阈值
$ \lambda =F\left[{f}_{\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{k}}\right({\boldsymbol{W}}^{t}\left)~\right|p] $ | (1) |
其中:
$ \left\{\begin{array}{l}{m}_{(i, j, k)}^{t}=0, \left|{W}_{(i, j, k)}^{t}\right| < \lambda \\ {m}_{(i, j, k)}^{t}=1, \left|{W}_{(i, j, k)}^{t}\right|\ge \lambda \end{array}\right. $ | (2) |
其中:
$ {\boldsymbol{W}}^{t}={\boldsymbol{W}}_{0}\odot {\boldsymbol{m}}^{t} $ | (3) |
其中:
本文在LTH算法的基础上改变权重参数的非均衡学习策略,提出一个基于均衡学习策略的非结构化剪枝算法RLTH。通过在训练的过程中监听网络层权重参数的变化过程,将参数值落入局部小范围内的权重参数加入到冻结队列中。权重参数一旦加入到冻结队列,将在本次迭代中保持当前的值,不再对参数进行更新。换言之,当权重参数在训练的过程中变成一个极小的值,则其对输出特征图所产生的影响是微乎其微的。因此,对于这类权重参数,可以选择不再对其进行参数的更新,而将特征学习的侧重点放在有潜力的权重参数上。在具体实现时,本文通过控制权重参数在训练过程中所产生的梯度来实现,其中梯度的控制可以表示为:
$ \left\{\begin{array}{l}{g}_{(i, j, k)}^{t}=\frac{\partial {L}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}\left({W}_{(i, j, k)}^{t}\right)}{\partial {W}_{(i, j, k)}^{t}}, \left|{W}_{(i, j, k)}^{t}\right|\ge \mathrm{E}\mathrm{P}\mathrm{S}\\ {g}_{(i, j, k)}^{t}=0, \left|{W}_{(i, j, k)}^{t}\right| < \mathrm{E}\mathrm{P}\mathrm{S}\end{array}\right. $ | (4) |
其中:
$ {W}_{(i, j, k)}^{t}={W}_{(i, j, k)}^{t}-\alpha {g}_{(i, j, k)}^{t} $ | (5) |
其中:
算法1 RLTH算法
输入 随机初始化的神经网络模型
1.
2.
3.计算
4.
5.
6.
7.重新初始化网络参数:
8.
9.
10.
11.前向传播:
12.计算梯度:
13.
14.
15.
16.更新权重参数:
17.
18.
19.
本文所使用的网络模型MSRResNet[6]整体框架如图 1所示。
![]() |
Download:
|
图 1 MSRResNet网络模型框架 Fig. 1 Framework of MSRResNet network model |
低分辨率图像
$ {I}_{\mathrm{f}\mathrm{e}\mathrm{a}}={C}_{\mathrm{e}\mathrm{x}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{t}}\left({I}_{\mathrm{L}\mathrm{R}}\right) $ | (6) |
其中:
$ {I}_{\mathrm{d}\mathrm{e}\mathrm{e}\mathrm{p}}={C}_{\mathrm{d}\mathrm{e}\mathrm{e}\mathrm{p}}\left({I}_{\mathrm{f}\mathrm{e}\mathrm{a}}\right) $ | (7) |
其中:
$ {I}_{\mathrm{H}\mathrm{R}}={C}_{\mathrm{m}\mathrm{e}\mathrm{r}\mathrm{g}\mathrm{e}}\left({C}_{\mathrm{u}\mathrm{p}}\right({I}_{\mathrm{d}\mathrm{e}\mathrm{e}\mathrm{p}}\left)\right) $ | (8) |
其中:
图 1所示的网络层可以分为两类,一类是由独立的卷积层作为特征学习的模块,另一类是由多层深度的卷积层通过复杂的连接策略所构成的Basic Block网络模块。其中,Basic Block网络模块是一个可扩展和替换的特征学习网络模块。值得注意的是,本文只是对网络模型中参数量占主导地位的Basic Block网络模块应用RLTH算法,利用该算法的迭代剪枝方式和均衡的学习策略去搜索最优的稀疏子网络,具体流程如图 2所示。通过这种方式,可以舍弃Basic Block网络模块中冗余的参数,把特征学习的侧重点放在有潜力的权重参数上,避免冗余的参数所带来的消极影响。
![]() |
Download:
|
图 2 RLTH算法搜索稀疏子网络的过程 Fig. 2 The process of RLTH algorithm searching for sparse sub-networks |
为了与之前的SISR研究工作保持一致,本文采用DIV2K[20]的800幅训练图像进行训练。在开始训练之前,对训练数据集进行旋转和翻转的数据增强预处理。值得注意的是,输入模型的训练图像是从一张高分辨率图像上随机裁剪得到的96×96×3大小的子图像。为保证测试的可靠性,本文选择Set5[21]、Set14[22]和BSD100[23]测试数据集进行实验。同时,使用MSRA[24]对网络的参数进行初始化,采用Adam[25]优化器进行优化,初始学习率设置为
本文在不同的测试集上对分别应用LTH算法和RLTH算法的MSRResNet[6]网络模型进行性能比较。为了保证比较的公平性,对比模型采用作者提供的官网代码,并在实验中使用作者设定的默认参数。对于图像质量的客观评估标准,本文采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度指数(Structural Similarity,SSIM)评估重建的超分辨率图像质量。在实验中,分析通过LTH算法和RLTH算法的剪枝过程后网络模型在不同稀疏百分比情况下的重建性能,并进一步分析RLTH算法在不同的剪枝率条件下的重建性能。除此之外,还比较重建超分辨率图像的运行时间和模型的大小,以及超分辨率图像的视觉效果。
3.2.1 客观评价标准分析对比各个模型在Set5、Set14和BSD100测试集上的平均PSNR和SSIM,如表 1和表 2所示,其中最优结果通过字体加粗的方式表示。表 1列出了不同的网络模型所重建的4倍超分辨率图像在RGB通道上的平均PSNR和SSIM。可以看出:应用本文所提出的RLTH算法在不同的测试集上的平均PSNR和SSIM都是最高的;与应用LTH算法相比,应用RLTH算法在Set5测试集上平均PSNR和SSIM分别提高0.65 dB和0.009 7,在Set14测试集上分别提高0.48 dB和0.011 5,而在BSD100测试集上分别提高0.37 dB和0.011 6;与原始模型相比,应用RLTH算法在Set5、Set14和BSD100测试集上分别提高0.1 dB和0.002 1、0.07 dB和0.000 7、0.08 dB和0.001。表 2列出了重建的4倍超分辨率图像在Y通道上的平均PSNR和SSIM。可以看出:应用RLTH算法的网络模型在不同的测试集上表现最好。
![]() |
下载CSV 表 1 在Set5、Set14和BSD100测试集上的性能评估(RGB通道) Table 1 Performance evaluation on the Set5, Set14 and BSD100 test sets(RGB channel) |
![]() |
下载CSV 表 2 在Set5、Set14和BSD100测试集上的性能评估(Y通道) Table 2 Performance evaluation on Set5, Set14 and BSD100 test sets(Y channel) |
本文在Set5测试集上对比通过LTH算法和RLTH算法的剪枝过程后,网络模型在不同的稀疏百分比情况下的重建性能,如图 3所示。可以看出,应用RLTH算法的网络模型总体上是先逐渐上升而随后逐渐下降的,并在稀疏百分比为7.95%时获得了最优的平均PSNR。虽然应用LTH算法的网络模型总体上与应用RLTH算法的趋势相似,但是由于该算法采用不平衡的学习策略而忽视了权重参数学习的多样性,导致在图像超分辨率任务上效果较差。相对而言,本文所提出的RLTH算法在保证网络模型的稀疏性的前提下,同时能够确保权重参数学习的多样性。因此,网络模型在应用RLTH算法之后,重建的性能得到了明显的提高。
![]() |
Download:
|
图 3 不同稀疏百分比下的PSNR比较 Fig. 3 Comparison of PSNR under different sparsity percent |
在Set5测试集上进一步分析剪枝率对应用RLTH算法的网络模型所产生的影响,如图 4所示。可以看出,网络模型在采用较小剪枝率的条件下获得了较高的平均PSNR,而采用较大的剪枝率反而效果较差。实验结果表明,网络模型搜索最优的稀疏子网络是一个渐进搜索和微调的过程,不能采用大范围的搜索方式。
![]() |
Download:
|
图 4 不同剪枝率下的PSNR比较 Fig. 4 Comparison of PSNR under different pruning percent |
对重建的4倍超分辨率图像进行视觉效果比较,如图 5和图 6所示,相关PSNR和SSIM指标如表 3所示。可以看出,应用RLTH算法的网络模型所重建的超分辨率图像拥有更丰富的细节特征,并且内容的轮廓更清晰。在图 5中,应用RLTH算法的模型所重建的Butterfly图像在翅膀上的斑点更清晰,并且拥有更多的细节特征。在图 6中,应用RLTH算法的模型所重建的Woman图像在整体和局部的轮廓上更清晰,而原始模型所重建的图像在局部细节上相对比较模糊。
![]() |
Download:
|
图 5 Butterfly重建图像的视觉效果比较 Fig. 5 Comparison of visual quality of the reconstructed Butterfly image |
![]() |
Download:
|
图 6 Woman重建图像的视觉效果比较 Fig. 6 Comparison of visual quality of the reconstructed Woman image |
![]() |
下载CSV 表 3 Butterfly与Woman重建图像性能指标 Table 3 Performance index for reconstructed Butterfly and Woman images |
在Set5测试集上比较重建4倍超分辨率图像所消耗的时间,如表 4所示。为了保证比较的公平性,本文在同一个平台环境(Inter Core i5 10600+NVIDIA GTX2060 Super)中对网络模型进行测试。可以看出,应用RLTH算法的网络模型与原始模型在重建超分辨率图像时所消耗的时间基本一致。同时,网络模型的大小也是保持一致的。由于RLTH算法的剪枝过程只是在训练阶段通过剪枝评估策略对权重参数进行评估,并将被评估为冗余的权重参数置为零,因此这种非结构化的剪枝方式仅仅改变的是网络层中权重参数的大小,并不会改变网络模型的整体结构。此外,RLTH算法在训练阶段实则是起到一个指导训练的作用,而并非是一个具体的网络层模块。因此,应用RLTH算法的模型与原始模型的大小是一致的,并不会增加网络模型的参数量,模型大小均为5.8 MB。
![]() |
下载CSV 表 4 重建高分辨率图像所消耗的时间 Table 4 Time consuming for high-resolution images reconstructionms |
本文基于LTH算法提出适用于图像超分辨率重建任务的动态非结构化剪枝算法RLTH,在保证网络模型稀疏性的同时,通过均衡的学习策略来确保权重参数学习特征的多样性。实验结果表明,在不改变网络结构和不增加计算复杂度的前提下,RLTH剪枝算法应用在SISR网络模型上能够明显提高重建的超分辨率图像质量。后续将在图像超分辨率重建任务中应用神经网络的结构化剪枝算法,使图像质量和效率得到进一步提升。
[1] |
KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1646-1654.
|
[2] |
LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 105-114.
|
[3] |
LIM B, SON S, KIM H. Enhanced deep residual networks for single image super-resolution[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1132-1140.
|
[4] |
WANG X T, YU K, WU S X. ESRGAN: enhanced super-resolution generative adversarial networks[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 63-79.
|
[5] |
LIU Z, SUN M J, ZHOU T H, et al. Rethinking the value of network pruning[EB/OL]. [2021-08-09]. https://arxiv.org/abs/1810.05270.
|
[6] |
WEI D Y, WANG Z W. Multi-scale channel network based on filer pruning for image super-resolution[J]. Optik, 2021, 236: 1-10. |
[7] |
CHEN S, HUANG K, LI B W, et al. Adaptive hybrid composition based super-resolution network via fine-grained channel pruning[C]//Proceedings of 2020 European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 119-135.
|
[8] |
FRANKLE J, CARBIN M. The lottery ticket hypothesis: finding sparse, trainable neural networks[EB/OL]. [2021-08-09]. https://arxiv.org/abs/1803.03635.
|
[9] |
DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307. DOI:10.1109/TPAMI.2015.2439281 |
[10] |
GUO Y, CHEN J, WANG J D, et al. Closed-loop matters: dual regression networks for single image super-resolution[C]//Proceedings of 2020 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5406-5415.
|
[11] |
LIU J, ZHANG W J, TANG Y T, et al. Residual feature aggregation network for image super-resolution[C]//Proceedings of 2020 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 2356-2365.
|
[12] |
YANG F Z, YANG H, FU J L, et al. Learning texture transformer network for image super-resolution[C]//Proceedings of 2020 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5790-5799.
|
[13] |
HAN S, LIU X Y, MAO H Z, et al. EIE: efficient inference engine on compressed deep neural network[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 243-254. |
[14] |
HAN S, POOL J, TRAN J, et al. Learning both weights and connections for efficient neural networks[EB/OL]. [2021-08-09]. https://arxiv.org/pdf/150 6.02626.pdf.
|
[15] |
LOUIZOS C, WELLING M, KINGMA D P. Learning sparse neural networks through L0 regularization[EB/OL]. [2021-08-09]. https://arxiv.org/abs/1712.01312.
|
[16] |
HAN S, MAO H Z, DALLY W J. Deep compression: compressing deep neural network with pruning, trained quantization and huffman coding[EB/OL]. [2021-08-09]. https://arxiv.org/pdf/1510.00149.pdf.
|
[17] |
TARTAGLIONE E, LEPSØY S, FIANDROTTI A, et al. Learning sparse neural networks via sensitivity-driven regularization[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2018: 3882-3892.
|
[18] |
MAO H Z, HAN S, POOL J, et al. Exploring the regularity of sparse structure in convolutional neural networks[EB/OL]. [2021-08-09]. https://arxiv.org/pdf/1705.08922.pdf.
|
[19] |
GUO Y W, YAO A B, CHEN Y R. Dynamic network surgery for efficient DNNs[EB/OL]. [2021-08-09]. https://arxiv.org/pdf/1608.04493.pdf.
|
[20] |
LUGMAYR A, DANELLJAN M, TIMOFTE R. NTIRE 2020 challenge on real-world image super-resolution: methods and results[C]//Proceedings of 2020 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 2058-2076.
|
[21] |
BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//Proceedings of British Machine Vision Conference. Berlin, Germany: Springer, 2012: 135.
|
[22] |
ZEYDE R, ELAD M, PROTTER M. On single image scale-up using sparse-representations[C]//Proceedings of International Conference on Curves and Surfaces. Berlin, Germany: Springer, 2012: 711-730.
|
[23] |
MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of 2001 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2001: 416-423.
|
[24] |
HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1026-1034.
|
[25] |
KINGMA D, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-08-09]. https://arxiv.org/pdf/1412.6980.pdf.
|