基于多尺度反向投影的图像超分辨率重建算法

引用本文

熊亚辉, 陈东方, 王晓峰. 基于多尺度反向投影的图像超分辨率重建算法[J]. 计算机工程, 2020, 46(7), 251-259. DOI: 10.19678/j.issn.1000-3428.0055551.

XIONG Yahui, CHEN Dongfang, WANG Xiaofeng. Super-Resolution Image Reconstruction Algorithm Based on Multi-Scale Back Projection[J]. Computer Engineering, 2020, 46(7), 251-259. DOI: 10.19678/j.issn.1000-3428.0055551.

基金项目

国家自然科学基金（61572381，61273225）

作者简介

熊亚辉(1994-), 男, 硕士研究生, 主研方向为图像处理、超分辨率重建;
陈东方, 教授、博士;
王晓峰, 副教授、博士

文章历史

收稿日期：2019-07-22
修回日期：2019-09-18

Contents Abstract Full text Figures/Tables PDF

基于多尺度反向投影的图像超分辨率重建算法

熊亚辉^a,b , 陈东方^a,b , 王晓峰^a,b

a. 武汉科技大学计算机科学与技术学院, 武汉 430065;
b. 武汉科技大学湖北省智能信息处理与实时工业系统重点实验室, 武汉 430065

收稿日期：2019-07-22；修回日期：2019-09-18

基金项目：国家自然科学基金（61572381，61273225）

作者简介：熊亚辉(1994-), 男, 硕士研究生, 主研方向为图像处理、超分辨率重建; 陈东方, 教授、博士; 王晓峰, 副教授、博士.

E-mail: 947176043@qq.com

摘要：为解决当前主流图像超分辨率重建算法对低分辨率图像中细节信息利用不够充分的问题，提出一种基于多尺度反向投影的图像超分辨率重建算法。使用多个不同尺度的卷积核从浅层特征提取层中提取出不同维度的特征信息，输入到反向投影模块后，交替使用升采样和降采样来优化高分辨率和低分辨率图像的投影误差，同时运用残差学习的思想将升采样和降采样阶段提取到的特征使用级联的方式进行连接，从而提升图像的重建效果。实验结果表明，在Set5、Set14和Urban100数据集上，与Bicubic、SRCNN、ESPCN、VDSR和LapSRN 5种主流算法相比，该算法的峰值信噪比和结构相似性均有所提高。

Super-Resolution Image Reconstruction Algorithm Based on Multi-Scale Back Projection

XIONG Yahui^a,b , CHEN Dongfang^a,b , WANG Xiaofeng^a,b

a. School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;
b. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China

Abstract: In order to solve the problem that existing mainstream super-resolution image reconstruction algorithms fail to fully utilize the detailed information in Low-Resolution(LR) images, this paper proposes a super-resolution image reconstruction algorithm based on multi-scale back projection.The algorithm uses multiple convolutional kernels of different scales to extract feature information of different dimensions from the shallow feature extraction layer.Then the extracted feature information is input into the back projection module, and the upsampling and downsampling methods are used alternatively to optimize the projection error of High-Resolution(HR) and LR images.Also, the idea of residual learning is used to connect the features extracted in the upsampling and downsampling stages in a cascade manner, so as to improve the image reconstruction effect.Experimental results on the Set5, Set14 and Urban100 datasets show that the proposed algorithm improves the Peak Signal-to-Noise Ratio(PSNR) and Structural Similarity(SSIM) compared with the five mainstream algorithms such as Bicubic, SRCNN, ESPCN, VDSR and LapSRN.

0 概述

单幅图像超分辨率(Single Image Super-Resolution, SISR)重建一直以来都是图像处理领域的研究重点, 旨在将一张低分辨率(Low-Resolution, LR)的图像恢复成给定的高分辨率(High-Resolution, HR)图像。SISR广泛应用于图像压缩、医疗成像、遥感成像、公共安防和视频感知等诸多领域。经过多年的发展, 已取得大量关于SISR技术的研究成果。一般来说, 超分辨技术主要分为3种类型:基于插值^[1-2]的方法、基于重建^[3]的方法和基于学习的方法。其中, 基于插值的方法主要分为双线性插值、双三次插值(Bicubic)等算法, 其方法简单直观, 能够快速得到相应的结果, 但是图像重建之后容易存在锯齿、模糊等一系列问题。基于重建的方法有迭代反投影算法^[4]和凸集投影算法等, 其主要关注图像的高频信息, 通过一系列方法恢复图像的高频细节部分。这类算法的迭代次数较少, 容易忽略某些重要的细节信息。基于学习的超分辨率方法是近年来超分辨率研究的热点, 采用机器学习技术通过事先给定的范例学习LR和HR图像块间映射关系的先验知识, 利用这种先验知识能够更好地恢复图像的细节信息, 其主要包括邻域嵌入法^[5-6]、稀疏表示法^[7-9]和基于深度学习的超分辨率算法^[10-12]等。

近年来, 基于深度学习的超分辨率算法越来越得到研究学者的关注。SRCNN^[13]是深度学习应用于超分辨率重建上的开山之作, 它采用前端升采样网络结构, 直接使用双三次插值算法将LR图像升采样至目标分辨率大小, 并将其作为输入, 使用深度卷积网络模型重建得到HR图像。ESPCN^[14]采用后端升采样网络结构, 直接将LR图像作为输入, 通过深度学习网络来提取特征, 得到细节纹理更清晰的LR图像, 再将其作为输入, 利用反卷积网络将LR图像上采样至目标分辨率大小, 从而得到HR图像。VDSR^[15]将残差网络的思想引入到超分辨率重建的领域中, 但其只学习图像的高频残差部分, 忽略了图像的低频部分, 且加快了网络的收敛速度。LapSRN^[16]使用的是渐进式升采样网络结构, 它的升采样过程不是一步完成, 而是采用拉普拉斯金字塔的方式, 产生一些中间层次的重建图像作为后续模块的输入图像, 直至图像放大到目标大小的HR图像。

上述基于深度学习的超分辨率重建算法虽然取得了较好的重建效果, 但是仍然存在一些不足。如ESPCN^[14]采用后端升采样网络结构, 它的特征提取部分一直在LR空间进行, 在最后阶段使用反卷积层将图像进行放大, 没有考虑到LR到HR空间的映射变换, 容易造成特征信息提取不充分等问题。VDSR^[15]采用前端升采样网络结构, 需要对图像进行双三次插值放大处理, 将会丢失一些图像细节信息, 采用递进的层级网络, 使得每一个卷积层只能获取到紧邻的上一个卷积层输出的图像特征, 仅采用来自LR空间的最后一个卷积层的特征映射进行图像的放大, 不利于特征复用, 且未充分利用各层之间的图像特征。LapSRN^[16]使用渐进式升采样网络结构, 它利用不同的倍增系数在一个前馈网络里构建多张超分辨率图像, 是单个上采样网络的堆叠, 且十分依赖于第一次放大的重建图像结果, 如果第一次重建时有特征丢失, 后面重建时之前丢失的特征将难以提取。

上述算法都没有考虑到LR图像重建到HR图像时的重构误差优化问题, 且其映射关系由最后一层来决定。为了解决上述方法中存在的问题, 本文提出一种基于多尺度反向投影的图像超分辨率重建算法。基于迭代反向投影^[17]的思想, 使用迭代式的升采样和降采样网络结构构建反向投影层, 交替使用升采样和降采样来提取图像特征, 优化图像重建过程中的重构误差。将局部残差学习和全局残差学习相结合, 在反向投影层(Back Projection Layer)中使用局部残差学习, 在反向投影模块(Back Projection Module)中使用全局残差学习, 实现特征复用, 减少网络冗余, 加速参数更新的速度, 提高网络的收敛速度。基于GoogleNet^[18]的思想, 使用多尺度的卷积核提取不同尺度下图像的高频信息, 通过级联的方式将其连接, 得到高分辨率重建结果。

1 相关工作 1.1 迭代反向投影算法

迭代反向投影(Iterative Back Projection, IBP)^[16]算法应用于单幅图像进行超分辨率重建时, 一般包括以下3个步骤:

步骤1 对于现有的原始LR图像I^l插值得到模拟的HR图像I^h, 通过降质模型产生对应的LR图像。

$ {{\mathit{\boldsymbol{I}}^h} = {\mathit{\boldsymbol{I}}^l} \uparrow s} $

(1)

$ {{\mathit{\boldsymbol{I}}_l} = ({\mathit{\boldsymbol{I}}^h} * g) \downarrow s} $

(2)

其中, I^l表示输入的LR图像, I^h表示使用双三次插值算法得到的HR图像, I_l表示通过降质模型后产生的LR图像, *表示卷积运算操作符, g表示卷积核, ↑s表示上采样运算符, ↓s表示下采样运算符。

步骤2 计算每次迭代过程中图像的重构误差, 计算方法如下:

$ {{\mathit{\boldsymbol{E}}_r} = {\mathit{\boldsymbol{I}}^l} - {\mathit{\boldsymbol{I}}_l}} $

(3)

其中, E_r为原始图像和通过降质模型后产生的LR图像之差。

步骤3 将式(3)中得到的重构误差进行升采样插值并反投影到重建的HR图像中, 得到最终的HR图像, 计算方法如下:

$ {\mathit{\boldsymbol{I}}_h^{n + 1} = \mathit{\boldsymbol{I}}_h^n + (U_s^2({\mathit{\boldsymbol{E}}_r}))} $

(4)

其中, I_hⁿ⁺¹为第n+1次迭代后得到的HR图像, I_hⁿ为第n次迭代后得到的HR图像, U_s²表示以双三次插值对图像进行2倍升采样。

1.2 SRCNN

SRCNN^[13]首次将深度学习的思想引入到超分辨率重建中, 不同于传统的基于插值的超分辨率重建算法, SRCNN^[13]通过对图像进行卷积的方式去学习HR和LR图像之间的端对端映射。网络结构分为3部分, 具体如图 1所示。其中, 特征提取层使用9×9的卷积核进行特征提取, 非线性映射层使用1×1的卷积核将LR特征映射为HR特征, 图像重建层使用5×5的卷积核重建得到HR目标图像。

	Download: JPG larger image
图 1 SRCNN网络结构 Fig. 1 Network structure of SRCNN

2 基于多尺度反向投影的图像超分辨率重建

受到SRCNN^[13]的启发, 本文算法主要分为3个部分, 分别为浅层特征提取模块、反向投影模块和图像重建模块。本文算法的网络结构如图 2所示。

	Download: JPG larger image
图 2 本文算法的网络结构 Fig. 2 Network structure of the proposed algorithm

2.1 浅层特征提取模块

在整个网络的初始阶段, 设置一个浅层特征提取模块。该模块引入了GoogleNet^[18]的思想, 在此过程中, 使用3×3、5×5、7×7等3种不同像素的卷积核对图像进行卷积处理。利用3种不同像素的卷积核对图像进行特征提取, 可以从LR图像中得到更多的细节信息。本模块使用2个卷积层进行特征的提取, 第一层的卷积核大小分别为3×3、5×5、7×7, 第二层的卷积核大小均为1×1。使用的激活函数为PRelu。经过第一层和第二层卷积层后提取得到的特征图的计算方法如下:

$ {{\mathit{\boldsymbol{F}}_1} = {H_{{\rm{SFE,3 \times 3}}}}({\mathit{\boldsymbol{I}}_L})} $

(5)

$ {{\mathit{\boldsymbol{F}}_2} = {H_{{\rm{SFE,1 \times 1}}}}({\mathit{\boldsymbol{F}}_1})} $

(6)

其中, I_L表示原始的LR图像, H_{SFE, 3×3}(·)表示可以使用3×3像素的卷积核对LR图像进行卷积处理。同样, 采取同样的方式使用5×5和7×7像素的卷积核对LR图像进行卷积处理。F₁表示经过第一层卷积后提取到的特征图, F₂表示经过第二层卷积后提取到的特征图, H_{SFE, 1×1}(·)表示使用1×1的卷积核对图像进行卷积处理操作, 目的是为了降低特征图的维度, 减少参数, 缓解后面训练的难度。

2.2 反向投影模块

基于IBP^[17]算法的思想, 反向投影层主要分为升采样和降采样2个部分。

2.2.1 升采样

升采样主要分为以下4个步骤:

步骤1 对原始图像进行反卷积操作, 得到上采样后的特征图, 计算方法如下:

$ {\mathit{\boldsymbol{I}}_0^h = (\mathit{\boldsymbol{I}}_0^l * \mathit{\boldsymbol{U}}) \uparrow s} $

(7)

其中, I₀^h表示经过反卷积之后得到的上采样图像, I₀^l表示原始的LR图像, *表示卷积运算操作符, U表示上采样卷积核。

步骤2 对上采样后的I₀^h再进行卷积操作, 得到下采样后的特征图, 计算方法如下:

$ {\mathit{\boldsymbol{I}}_1^l = (\mathit{\boldsymbol{I}}_0^h * \mathit{\boldsymbol{D}}) \downarrow s} $

(8)

其中, D表示下采样卷积核。

步骤3 计算2次LR特征图I₀^l和I₁^l的高频残差, 并对误差进行反卷积操作, 得到特征图的计算方法如下:

$ {{\mathit{\boldsymbol{E}}_r} = ((\mathit{\boldsymbol{I}}_1^l - \mathit{\boldsymbol{I}}_0^l) * \mathit{\boldsymbol{U}}) \uparrow s} $

(9)

其中, E_r表示将2次LR图像的高频残差部分进行反卷积操作后得到的特征图。

步骤4 将E_r加入到第一次卷积后得到的HR特征图中, 得到整个升采样的结果, 具体如下所示:

$ {\mathit{\boldsymbol{I}}_1^h = \mathit{\boldsymbol{I}}_0^h + {\mathit{\boldsymbol{E}}_r}} $

(10)

其中, I₁^h表示完成整个升采样后得到的最终结果。

2.2.2 降采样

降采样与升采样结构类似, 也主要分为4个步骤:

步骤1 对图像进行卷积操作, 得到下采样的特征图, 计算方法如下:

$ {\mathit{\boldsymbol{I}}_1^l = (\mathit{\boldsymbol{I}}_1^h * {\mathit{\boldsymbol{D}}^\prime }) \downarrow s} $

(11)

其中, I₁^l表示经过下采样后得到的LR图像, D′表示进行下采样使用的卷积核。

步骤2 对下采样后的图像再进行上采样操作, 得到图像的计算方法如下:

$ {\mathit{\boldsymbol{I}}_2^h = (\mathit{\boldsymbol{I}}_1^l * {\mathit{\boldsymbol{U}}^\prime }) \uparrow s} $

(12)

其中, I₂^h表示经过上采样后得到的图像, U′表示上采样卷积核。

步骤3 计算2次HR特征图I₁^h和I₂^h之间的高频残差, 并进行降采样操作, 得到特征图的计算方法如下:

$ {\mathit{\boldsymbol{E}}_r^\prime = ((\mathit{\boldsymbol{I}}_2^h - \mathit{\boldsymbol{I}}_1^h) * {\mathit{\boldsymbol{D}}^\prime }) \downarrow s} $

(13)

其中, E′ _r表示将2次HR图像的高频残差部分进行卷积操作后得到的特征图。

步骤4 将E′ _r加入到第一次卷积操作后得到的LR特征图中, 得到降采样的结果, 计算过程如下:

$ {\mathit{\boldsymbol{I}}_2^l = \mathit{\boldsymbol{I}}_1^l + \mathit{\boldsymbol{E}}_r^\prime } $

(14)

其中, I₂^l表示完成整个降采样后得到的最终结果。

反向投影层的主要目的是作为一种高效迭代过程来优化重构误差, 更深地挖掘LR和HR图像直接的相互依赖关系。在整个网络结构中交替使用升采样和降采样, 利用这2个相互连接的采样模块来学习LR到HR的非线性关系。其中, 升采样生成HR特征, 降采样将其投影到LR空间。通过在升采样和降采样过程中的特征提取, 不断调整LR到HR的图像映射关系。在升采样和降采样传递过程中, 每一层升采样的输入都来自所有前面升采样层的输出, 降采样的处理方式与升采样相同。这样可以实现特征的重复利用, 减少网络的冗余, 与VDSR^[15]不同的是, 数据聚合的方式不是对特征映射直接求和, 而是采用级联的方式连接, 在输入到下一层之前, 使用1×1卷积层来降低通道数。反向投影层(Back Projection Layer)网络结构如图 3所示。

	Download: JPG larger image
图 3 反向投影层网络结构 Fig. 3 Network structure of back projection layer

在反向投影层中, 升采样和降采样的层数设置比为T:(T-1)。整个反向投影模块中, 设置M层反向投影层来进行实验。将每个反向投影层生成的HR特征图进行级联, 输入到图像重建模块。

$ {\mathit{\boldsymbol{F}} = H([{\mathit{\boldsymbol{F}}_1},{\mathit{\boldsymbol{F}}_2}, \cdots ,{\mathit{\boldsymbol{F}}_n}])} $

(15)

其中, [F₁, F₂, …, F_n]表示n个反向投影层输出的级联, H表示1×1的卷积函数, F表示经过1×1卷积层后特征融合的输出。

2.3 图像重建模块

浅层特征提取模块采用多尺度的方式对图像进行特征提取操作, 得到3个不同尺度的特征图数据。将3个特征图相加, 并通过卷积核为1×1的卷积操作来改变其特征维度, 将3个不同尺度的特征进行融合。最后, 使用卷积核大小为3×3的卷积操作去重建图像, 得到最终的HR图像。

$ {{\mathit{\boldsymbol{F}}_{n - 2}} = (\sum {{H_{UD,3 \times 3}}} + \sum {{H_{UD,5 \times 5}}} + \sum {{H_{UD,7 \times 7}}} )} $

(16)

$ {{\mathit{\boldsymbol{F}}_{n - 1}} = {H_{{\rm{Re,1 \times 1}}}}({\mathit{\boldsymbol{F}}_{n - 2}})} $

(17)

$ {{\mathit{\boldsymbol{F}}_n} = {H_{{\rm{Re,3 \times 3}}}}({\mathit{\boldsymbol{F}}_{n - 1}})} $

(18)

其中, ∑H_{UD, 3×3}、∑H_{UD, 5×5}、∑H_{UD, 7×7}分别表示3×3、5×5、7×7等3种不同尺度下所提取的特征图之和, F_n－2, F_n－1, F_n分别表示整体网络的最后3层。H_{Re, 1×1}(·)表示使用1×1卷积核时的卷积操作, H_{Re, 3×3}(·)表示使用3×3卷积核时的卷积操作。

2.4 损失函数

为了防止过拟合, 同时为了防止最后得到的图像过于平滑, 造成失真, 本文选择L₁(x)函数作为整体网络的损失函数, 具体如下所示:

$ {{L_1}(x) = \frac{1}{n}\sum\limits_{i = 1}^n {{{\left\| {\mathit{\boldsymbol{F}}({\mathit{\boldsymbol{Y}}_i};x) - {\mathit{\boldsymbol{X}}_i}} \right\|}^2}} } $

(19)

其中, Y_i表示LR图像, X_i表示HR图像, x为权值参数和偏置参数的集合, i表示整个训练过程中多次迭代训练的序列号。

3 实验结果与分析 3.1 实验环境设置

实验的系统环境为Ubuntu18.04, CPU为Intel Core i7-4700k, GPU为RTX-2070, 深度学习框架为Tesnorflow1.2, 加速库为CUDA Toolkit 10.0。

3.2 数据集及优化方法

实验使用的训练数据集为DIV2K^[19], 由1 000张1 920×1 080的高清图像组成, 适合应用于超分辨率训练。测试集使用Set5、Set14^[20]和Urban100等公开的标准测试集来评估实验结果。

将训练集中的图像顺时针旋转90°、180°、270°, 扩增后的数据是原来的4倍, 再将图片进行步长为16的裁剪, 将图片裁剪为若干个128×128像素的子图像, 每次从中选择64张图片作为一个Batch, 使用双三次插值算法对子图像分别进行2倍、3倍和4倍的下采样, 得到像素大小为64×64、42×42、32×32的LR子图像。将这些子图像作为整个网络的输入。

实验中使用的优化器为Adam^[21], 动量因子0.9, 权重衰减le-4, 它能够自动调整学习率, 参数的更新不受梯度的伸缩变换影响, 同时计算高效且对内存的需求较小。学习率初始设置为0.000 1, 网络每迭代20 000次, 学习率衰减为原来的0.9倍。

3.3 评价标准

本文采用峰值信噪比(Peak Signal Noise Ratio, PSNR)和结构相似性(SSIM)2种客观评价指标来验证实验效果。其中, PSNR的计算方法如下:

$ {{\rm{PSNR}} = 10 \times {\rm{lg}}\left( {\frac{{{{({2^n} - 1)}^2}}}{{{\rm{MSE}}}}} \right)} $

(20)

$ { {\rm{MSE}} = \frac{1}{{H \times W\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {(\mathit{\boldsymbol{X}}(} i,j) - \mathit{\boldsymbol{Y}}(i,j){)^2}} }}} $

(21)

其中, X(i, j)表示当前图像, Y(i, j)表示参考图像, MSE表示X(i, j)和Y(i, j)的均方误差(Mean Square Error, MSE), H、W分别表示图像的高度和宽度, n为每像素的bit数, 一般取8。PSNR的单位为dB, 数值越大表示图像的失真越少, 重建效果越好。

SSIM也是一种评价图像质量的指标, 分别从亮度、对比度和结构3方面对图像的重建效果进行评价, 其计算公式如下:

$ { {\rm{SSIM}}{ _{m,n}} = {L_{m,n}} \cdot {C_{m,n}} \cdot {S_{m,n}}} $

(22)

$ {{L_{m,n}} = \frac{{2{\mu _m}{\mu _n} + {C_1}}}{{\mu _m^2 + \mu _n^2 + {C_1}}}} $

(23)

$ {{C_{m,n}} = \frac{{2{\sigma _m}{\sigma _n} + {C_2}}}{{\sigma _m^2 + \sigma _n^2 + {C_2}}}} $

(24)

$ {{S_{m,n}} = \frac{{{\sigma _{mn}} + {C_3}}}{{{\sigma _m}{\sigma _n} + {C_3}}}} $

(25)

其中, m表示当前图像, n表示参考图像, μ表示图像的均值, σ表示图像的方差。L_{m, n}, C_{m, n}, S_{m, n}分别表示为亮度、对比度和结构3个方面的评价指标。C₁, C₂, C₃均为常数, 为了避免分母为0, 通常取C₁= (K₁·L)², C₂=(K₂·L)², ${C_3}{\rm{ = }}\frac{{{C_2}}}{2}$。一般K₁取0.01, K₂取0.03, L取255。SSIM的取值范围为0, 1, 且其数值越大, 表示图像失真越小, 图像重建效果越好。

3.4 实验分析

为了更好地验证本文算法的图像重建效果, 将从以下5个方面进行实验。

3.4.1 反向投影模块层数设置

研究表明网络深度对整体网络性能有重要的影响, 适当增加网络层数可以提取到更多的特征, 提高图像的重建效果。为了达到最佳的实验结果, 本文对上述升采样和降采样的层数T以及反向投影层的层数M进行设置。实验以倍增系数scale=4为例, 采用Set5测试集进行3组实验, 分别设置T=4、M=6, T=5、M=6, T=6、M=6, 对应网络层数为42层、54层和66层, 实验结果如图 4所示。从图 4可以看出, 初始阶段T=6、M=6时PSNR的值最高, 随着迭代次数的增加, T=5、M=6层的网络和T=6、M=6层的网络差距越来越小, 只保持微小的优势, 考虑到运算的复杂度和时间成本, 实验最终选择T=5、M=6的网络模型。

	Download: JPG larger image
图 4 不同层数的PSNR与迭代次数的关系 Fig. 4 Relationship between the PSNR of different layers and the number of iterations

3.4.2 收敛速度

文献[22]表明, 权重参数的更新与损失函数的梯度呈正相关的关系, 梯度越大, 权重的更新速度越快, 网络收敛速度也越快。本文采用迭代式升采样和降采样网络模型, 其在特征提取的过程中, 与VDSR^[15]和LapSRN^[16]2种算法使用普通的卷积层来提取图像的特征不同, 其是在不断升采样和降采样过程中提取特征的, 在反向投影层中, 首先使用升采样将图像映射到HR空间上, 将LR到HR的投影误差添加到HR特征图中。然后使用降采样将图像从HR空间又映射到LR空间中, 再将HR到LR的投影误差添加到LR特征图中。通过这种交替使用升采样和降采样来不断调整图像LR到HR的映射关系, 优化它们的非线性关系, 从而达到提升LR到HR重建效果的目的。本文算法将原有算法中优化上一层卷积网络到下一层卷积网络的误差调整为直接优化LR到HR的误差, 这样会加快网络参数的更新速度, 从而使得网络的收敛速度加快。

本文算法在反向投影模块中引入了全局残差学习和局部残差学习的思想, 让模块中的每一层与之前所有层都相连, 充分利用每一层的特征信息, 实现特征复用, 有效减少网络的冗余。这样在反向传播时, 每一层网络的梯度都会接收前面所有层的梯度, 相较于VDSR和LapSRN的每一层网络输入都是上一层网络输出的处理方式, 本文算法的权重参数更新速度更快, 且网络收敛速度也更快。为了比较算法的收敛速度, 在倍增系数scale=4, 测试集为Set5的条件下, 使用DIV2K作为训练集进行实验, 在其他条件保持相同的情况下, 实验结果如图 5所示。从图 5可以看出, 相较于VDSR和LapSRN, 本文算法的收敛速度更快, 且效果更好。

	Download: JPG larger image
图 5 不同算法的PSNR与迭代次数的关系 Fig. 5 Relationship between PSNR of different algorithms and the number of iterations

3.4.3 反向投影层验证

反向投影层(Back Projection Layer)中交替使用升采样和降采样网络来提取图像特征。升采样和降采样可以理解为网络自我纠正的过程, 将上采样和下采样提取到的投影误差提供给采样层, 这样不断地迭代来产生更优解。本文进行4组实验, 在其他条件保持一致的情况下, 将反向投影层中的升采样和降采样替换为普通的卷积层, 层数用C表示, C为反向投影层中升采样和降采样的层数之和, 倍增系数scale=4, 测试集使用Set5, 实验结果如图 6所示。从图 6可以看出, 相对于去除升采样和降采样的网络, 含有升采样和降采样的网络的PSNR更高, 且收敛速度更快。

	Download: JPG larger image
图 6 不同网络结构的PSNR与迭代次数的关系 Fig. 6 Relationship between PSNR of different network structures and the number of iterations

3.4.4 不同尺度卷积核对图像重建效果的影响

在图像超分辨率重建中, 特征信息需要在不同尺度上进行处理, 图像的结构信息也往往是不同尺度, 这是因为单一尺度的特征提取不足以完全恢复图像的高频纹理区域。

为了更好地验证使用多尺度卷积核的必要性, 本文算法使用不同尺度大小的卷积核进行实验。在浅层特征层提取特征时, 其他条件保持不变, 使用3×3、5×5、7×7的单个卷积核和混合使用3×3、5×5、7×7不同尺度的卷积核进行对比实验。实验倍增系数scale=4, 测试集使用Set5, 以PSNR作为判断标准, 结果如表 1所示。从表 1可以看出, 相对于单独使用1个卷积核来提取浅层特征, 本文算法可以获得更好的PSNR值。实验证明不同尺度的卷积核能够提取到图像的多种特征, 对这些特征信息的融合映射更能充分学习LR图像与HR图像之间的对应关系, 从而保证重建图像的细节清晰性。

下载CSV 表 1 不同尺度的卷积核在Set5测试集下的PSNR Table 1 PSNR of different scales of convolution kernels under Set5 test set

3.4.5 本文算法与其他主流算法重建效果对比

实验将本文算法与Bicubic、SRCNN^[13]、ESPCN^[14]、VDSR^[15]、LapSRN^[16]5种主流算法进行对比, 用于测试本文算法的性能。实验选用Set5、Set14和Urban100作为测试集, 从3个测试集中选择边缘细节丰富的3张图片进行测试。为了显示纹理细节的重建效果, 将特定的图像区域进行放大, 观察其细节重建效果。图 7、图 8和图 9展示了本文算法与其他主流算法在超分倍增系数scale=4下测试图像的重建效果。从图 7~图 9的主观视觉效果上来看, Bicubic整体的效果最差, 重建图像较为模糊, 基本看不清楚细节信息。SRCNN^[13]和ESPCN^[14]能够基本反映出图像的特征轮廓, 但是在图像边缘区域锯齿比较严重。VDSR^[15]和LapSRN^[16]可以比较清楚地看清图像的细节信息, 但是相对于本文算法来说, 重建图像的清晰度不够, 在细节信息的重建效果上也不够锐利。综上所述, 从主观视觉效果上看, 本文算法在细节信息的重建效果上优势更为明显。

	Download: JPG larger image
图 7 Butterfly在不同算法下的重建效果对比 Fig. 7 Comparison of Butterfly's reconstruction effects under different algorithms

	Download: JPG larger image
图 8 Chimpanzee在不同算法下的重建效果对比 Fig. 8 Comparison of Chimpanzee's reconstruction effects under different algorithms

	Download: JPG larger image
图 9 Building在不同算法下的重建效果对比 Fig. 9 Comparison of Building's reconstruction effects under different algorithms

下面采用PSNR和SSIM 2种指标对算法进行客观评价。表 2为以上几种不同的算法在测试集Set5、Set14和Urban100上分别放大2倍、3倍和4倍情况下PSNR和SSIM的平均值。由表 2可以看出, 相较于传统的Bicubic、SRCNN^[13]和ESPCN^[14]3种算法来说, 本文算法的PSNR和SSIM的数值均有明显提升。相对于VDSR^[15]和LapSRN^[16]2种算法来说, 本文算法的PSNR提高了0.5 dB左右, SSIM提高了0.05左右。

表 2 6种算法在不同测试集下的PSNR和SSIM Table 2 PSNR and SSIM of six algorithms under different test sets

测试集	放大倍数	Bicubic算法		SRCNN算法		ESPCN算法		VDSR算法		LapSRN算法		本文算法
测试集	放大倍数	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM
	2	33.66	0.929 9	33.66	0.954 2	33.86	0.957 6	37.53	0.958 7	37.52	0.959 0	38.00	0.960 0
Set5	3	30.39	0.868 2	32.75	0.909 0	32.95	0.916 8	33.67	0.921 0	33.82	0.922 7	34.19	0.924 8
	4	28.43	0.810 4	30.48	0.862 8	30.67	0.870 0	31.35	0.883 0	31.54	0.885 0	32.07	0.899 8
	2	30.24	0.868 8	32.45	0.906 7	32.87	0.908 9	33.05	0.913 0	33.08	0.913 0	33.58	0.919 7
Set14	3	27.55	0.774 2	29.30	0.821 5	29.63	0.828 7	29.78	0.832 0	29.87	0.832 0	30.21	0.834 9
	4	26.00	0.702 7	27.50	0.751 3	27.75	0.761 1	28.02	0.768 0	28.19	0.772 0	28.75	0.798 1
	2	26.88	0.840 3	29.50	0.894 6	29.90	0.801 2	30.77	0.914 0	30.41	0.910 1	31.20	0.944 3
Urban100	3	24.46	9.734 9	26.24	0.798 9	26.63	0.801 0	27.14	0.829 0	27.07	0.828 0	27.54	0.844 5
	4	23.14	0.657 7	24.52	0.722 1	24.86	0.734 4	25.18	0.754 0	25.21	0.756 0	25.91	0.775 6

下载CSV 表 2 6种算法在不同测试集下的PSNR和SSIM Table 2 PSNR and SSIM of six algorithms under different test sets

本文算法在浅层特征提取层中使用了多个不同尺度的卷积核对LR图像进行特征提取, 得到多个维度的特征信息。在反向投影层中, 交替多次使用升采样和降采样, 并将它们通过级联的方式连接起来, 同时多个反向投影层之间也用级联进行连接, 使得最后得到的HR特征图能够利用到之前所有升采样和降采样网络提取到的特征。综合主观效果和客观指标2个方面的因素, 本文算法相对于主流超分辨率重建算法能够得到更好的实验结果。

4 结束语

本文提出一种基于多尺度反向投影的图像超分辨率重建算法。利用迭代反向投影算法的思想, 同时将多尺度卷积核的概念引入到算法中, 采用多个相互依赖的升采样和降采样模块对图像进行特征提取, 在迭代过程中, 不仅可以利用升采样模块生成多样的HR图像特征, 而且还可以利用降采样层将其映射到LR图像上, 能够更加完善地获取图像细节信息。通过实验对比可以看出, 本文算法相较于现有主流算法Bicubic、SRCNN、ESPCN、VDSR、LapsRN的优越性。在下一步实验中, 可以引入生成对抗网络的思想对网络的结构进一步优化, 减少网络的计算复杂度和训练时间, 还可以尝试使用多注意力机制通道网络对算法进行相应的改进, 以获得更好的重建效果。

参考文献

[1]	BATZ M, EICHENSEER A, SEILER J, et al.Hybrid super-resolution combining example-based single-image and interpolation-based multi-image reconstruction approaches[C]//Proceedings of 2015 IEEE International Conference on Image Processing.Washington D.C., USA: IEEE Press, 2015: 58-62.
[2]	YAO Xunxiang, ZHANG Yunfeng, NING Yang, et al. Multi-scale feature image interpolation based on a rational fractal function[J]. Journal of Image and Graphics, 2016, 21(4): 482-489. (in Chinese) 姚勋祥, 张云峰, 宁阳, 等. 多尺度有理分形的图像插值算法[J]. 中国图象图形学报, 2016, 21(4): 482-489.
[3]	ZHANG Kaibing, GAO Xinbo, TAO Dacheng, et al. Single image super-resolution with non-local means and steering kernel regression[J]. IEEE Transactions on Image Processing, 2012, 21(11): 4544-4556.
[4]	TAO Zhiqiang, LI Hailin, ZHANG Hongbing. Iterative back projection super resolution reconstruction algorithm based on new edge directed interpolation[J]. Computer Engineering, 2016, 42(6): 255-260. (in Chinese) 陶志强, 李海林, 张红兵. 基于新边缘指导插值的迭代反投影超分辨率重建算法[J]. 计算机工程, 2016, 42(6): 255-260.
[5]	TIMOFTE R, DE V, GOOL L V.Anchored neighborhood regression for fast example-based super-resolution[C]//Proceedings of 2013 IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2013: 1920-1927.
[6]	RADU T, VINCENT D S, LUC V G.A+: adjusted anchored neighborhood regression for fast super-resolution[C]//Proceedings of the 12th Asian Conference on Computer Vision.Berlin, Germany: Springer, 2014: 111-126.
[7]	PELEG T, ELAD M. A statistical prediction model based on sparse representations for single image super-resolution[J]. IEEE Transactions on Image Processing, 2014, 23(6): 2569-2582.
[8]	YANG J C, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[9]	ZHANG Wanxu, SHI Jianxiong, CHEN Xiaoxuan, et al. Image super-resolution reconstruction based on sparse representation and guided filtering[J]. Computer Engineering, 2018, 44(9): 212-217. (in Chinese) 张万绪, 史剑雄, 陈晓璇, 等. 基于稀疏表示与引导滤波的图像超分辨率重建[J]. 计算机工程, 2018, 44(9): 212-217.
[10]	YUAN Kunpeng, XI Zhihong. Image super resolution based on depth jumping cascade[J]. Acta Optica Sinica, 2019, 39(7): 243-252. (in Chinese) 袁昆鹏, 席志红. 基于深度跳跃级联的图像超分辨率重建[J]. 光学学报, 2019, 39(7): 243-252.
[11]	HARIS M, SHAKHNAROVICH G, UKITA N.Deep back-projection networks for super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 1664-1673.
[12]	WU Lei, LÜ Guoqiang, XUE Zhitian, et al. Super-resolution reconstruction of images based on multi-scale recursive network[J]. Acta Optica Sinica, 2019, 39(6): 90-97. (in Chinese) 吴磊, 吕国强, 薛治天, 等. 基于多尺度递归网络的图像超分辨率重建[J]. 光学学报, 2019, 39(6): 90-97.
[13]	DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[14]	SHI W Z, CABALLERO J, HUSZAR F, et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 1874-1883.
[15]	KIM J, LEE J K, LEE K M.Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 1646-1654.
[16]	LAI W S, HUANG J B, AHUJA N, et al.Deep laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 624-632.
[17]	LAI Rui, YANG Yintang, ZHOU Huixin, et al.Total variation regularized iterative back-projection method for single frame image super resolution[C]//Proceedings of 2012 IEEE 11th International Conference on Signal Processing.Washington D.C., USA: IEEE Press, 2012: 931-934.
[18]	SZEGEDY C, LIU W, JIA Y Q, et al.Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1-9.
[19]	TIMOFTE R, AGUSTSSON E, GOOL L V, et al.Ntire 2017 challenge on single image super-resolution methods and results[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C., USA: IEEE Press, 2017: 114-125.
[20]	ZEYDE R, ELAD M, PROTTER M.On single image scale-up using sparse-representations[C]//Proceedings of International Conference on Curves and Surfaces.Berlin, Germany: Springer, 2012: 711-730.
[21]	GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[J]. Journal of Machine Learning Research, 2011, 15: 315-323.
[22]	HUANG Yihui, FENG Qianjin. Segmentation of brain tumor on magnetic resonance images using 3D full-convolutional densely connected convolutional net-works[J]. Journal of Southern Medical University, 2018, 38(6): 661-668.