基于特征图注意力机制的图像超分辨率重建

引用本文

鲁甜, 刘蓉, 刘明, 等. 基于特征图注意力机制的图像超分辨率重建[J]. 计算机工程, 2021, 47(3), 261-268. DOI: 10.19678/j.issn.1000-3428.0056618.

LU Tian, LIU Rong, LIU Ming, et al. Image Super-Resolution Reconstruction Based on Attention Mechanism of Feature Map[J]. Computer Engineering, 2021, 47(3), 261-268. DOI: 10.19678/j.issn.1000-3428.0056618.

基金项目

国家科技支撑计划课题（2015BAK33B00）；国家社会科学基金（19BTQ005）

通信作者

刘明(通信作者), 教授、博士

作者简介

鲁甜(1994-), 女, 硕士研究生, 主研方向为图形图像处理、模式识别、智能信息处理;
刘蓉, 副教授、博士;
冯杨, 硕士研究生

文章历史

收稿日期：2019-11-18
修回日期：2020-01-08

Contents Abstract Full text Figures/Tables PDF

基于特征图注意力机制的图像超分辨率重建

鲁甜¹ , 刘蓉¹ , 刘明² , 冯杨¹

1. 华中师范大学物理科学与技术学院, 武汉 430079;
2. 华中师范大学计算机学院, 武汉 430079

收稿日期：2019-11-18；修回日期：2020-01-08

基金项目：国家科技支撑计划课题（2015BAK33B00）；国家社会科学基金（19BTQ005）

作者简介：鲁甜(1994-), 女, 硕士研究生, 主研方向为图形图像处理、模式识别、智能信息处理; 刘蓉, 副教授、博士; 冯杨, 硕士研究生.

通信作者：刘明(通信作者), 教授、博士.

E-mail: lium@mail.ccnu.edu.cn

摘要：图像超分辨率重建中的高频分量通常包含较多轮廓、纹理等细节信息，为更好地处理特征图中的高频分量与低频分量，实现自适应调整信道特征，提出一种基于特征图注意力机制的图像超分辨重建网络模型。利用特征提取块提取原始低分辨率图像中的特征信息，基于多个结合特征图注意力机制的信息提取块，通过特征信道之间的相互依赖性自适应调整信道特征，以恢复更多细节信息。在此基础上利用重建模块重建出不同尺度的高分辨率图像。在Set5数据集上的实验结果表明，与基于双三次插值的重建模型相比，该模型能够有效提升图像的视觉效果，且峰值信噪比与结构相似度分别提高了3.92 dB和0.056。

Image Super-Resolution Reconstruction Based on Attention Mechanism of Feature Map

LU Tian¹ , LIU Rong¹ , LIU Ming² , FENG Yang¹

1. College of Physical Science and Technology, Central China Normal University, Wuhan 430079, China;
2. School of Computer, Central China Normal University, Wuhan 430079, China

Abstract: High-frequency components in image Super-Resolution(SR) reconstruction usually include more details such as contour and texture.In order to deal with the high-frequency components and low-frequency components in feature map better and adjust the channel features adaptively, this paper proposes an image SR reconstruction network model based on the attention mechanism.The model uses the feature extraction module to extract the feature information from the original Low-Resolution(LR) image.Then multiple information extraction modules using the attention mechanism of the feature map are used to adjust the channel features adaptively through the interdependence between the feature channels, so as to recover more detailed information.On this basis, the reconstruction module is used to reconstruct High-Resolution(HR) images of different scales.The experimental results on the Set5 dataset show that compared with the reconstruction model based on Bicubic interpolation, this model can effectively improve the visual effect of the image, and its Peak Signal-to-Noise Ratio(PSNR) and Structural Similarity(SSIM) are improved by 3.92 dB and 0.056 respectively.

0 概述

图像超分辨率（Super-Resolution，SR）重建由HARRIS等人于20世纪60年代提出，其按照重建时输入所需低分辨率（Low-Resolution，LR）图像数量可分为单幅重建和多幅重建。单幅图像超分辨率（Single Image Super-Resolution，SISR）重建问题是一个不适定的逆问题，旨在将LR图像通过一定的算法重建到视觉较好的高分辨率（High-Resolution，HR）图像上。

随着深度学习的快速发展以及高性能GPU的出现，以卷积神经网络（Convolutional Neural Networks，CNN）为代表的学习方法^[1-3]广泛应用于SR图像中，通过学习LR到HR的非线性映射构造HR图像。文献[1]将三层CNN引入SR图像中，并构建基于CNN的超分辨率重建（Super-Resolution using CNN，SRCNN）模型，该网络模型的3个卷积层分别表示特征提取、非线性映射和图像重建，其可直接学习LR图像与HR图像之间端到端的映射关系，取得相较传统方法显著的改进效果。文献[4]提出一种基于较深卷积网络的精准超分辨重建模型，其将网络深度增加到20层，并通过残差学习和自适应梯度裁剪来降低深度网络的训练难度。为控制模型的参数数量，文献[5]提出一种通过递归监督和跳过连接的深度递归卷积网络（Deep Recursive Convolutional Networks，DRCN），其相比SRCNN取得显著效果。在文献[6]提出残差网络（ResNet）后，很多研究人员将残差网络引入基于CNN的图像超分辨率方法中。文献[7]利用多层连接CNN实现低层次特征和高级特征的级联。文献[8]通过使用简化的残差块构建较宽网络EDSR和较深网络MDSR（大约有165层），EDSR和MDSR对超分辨重建图像性能的显著改进证明了网络深度对SR的重要性。文献[9]提出一种深度递归残差网络（Deep Recursive Residuals Network，DRRN），采用权重共享策略满足较深网络中巨大的参数需求。为提升图像超分辨效果，对网络进行加深和扩大操作已经成为一种设计趋势，但仅通过加深网络层数会引起计算量大、消耗内存多以及训练时间长等问题，不适用于移动和嵌入式视觉应用场景。然而，基于CNN的方法^[7-9]对各信道特征进行处理时，其在处理高频信息和低频信息时缺乏灵活性。

由于注意力机制在建模全局依赖关系与降低无关图像域特征信息方面表现出良好的性能^[10-12]，因此本文结合特征图注意力机制，提出一种图像超分辨率重建模型。该模型由特征提取块、基于多特征图注意力机制的信息提取块和重建块3个部分构成。利用特征提取块提取LR图像中的特征，通过信息提取块逐步提取残差信息，重建块使用学习到的信息生成HR图像输出。为更好地对特征图中的高低频信息进行处理，实现自适应地调整信道特征，在信息提取块中使用多特征图注意力机制来增强特征的表达能力。特征图注意力机制由一个全局平均池化（Global Average Pooling，GAP）层和两层全连接层构成的门控机制组成，GAP可屏蔽空间上的分布信息，更加关注通道间的相关性，两层全连接层构成的门控机制通过对各通道特征图信息进行融合，利用通道间的相关性获得特征图权重值来自适应调整信道特征，以更好地恢复图像细节。

1 本文网络构建

本文设计的网络由特征提取块、多个基于特征图注意力机制的信息提取块和重建块3个部分组成，具体结构如图 1所示。

	Download: JPG larger image
图 1 基于特征图注意力机制的图像超分辨率重建网络结构 Fig. 1 Super-resolution image reconstruction network structure based on attention mechanism of feature map

1.1 特征提取块

特征提取块用于从原始LR图像中提取特征，本文设计的特征提取块由2个3×3的卷积构成，特征维度均为64。用I_LR和I_SR表示网络的输入和输出，特征提取过程可用式（1）表示：

$F_{0}=H_{\mathrm{FE}}\left(I_{\mathrm{LR}}\right)$

(1)

其中，H_FE表示提取特征的函数，F₀表示提取的特征和下一阶段网络的输入。

1.2 基于特征图注意力机制的信息提取块

信息提取块用于逐步提取残差信息，它由4个相同结构的特征图注意力机制的信息提取块组成。每个特征图注意力机制的信息提取块结构如图 2所示，其分为结合注意力的信息增强单元和压缩单元。该过程可用式（2）表示：

$F_{k}=H_{k}\left(F_{k-1}\right), k=1, 2, \cdots, n$

(2)

	Download: JPG larger image
图 2 基于特征图注意力机制的信息提取块 Fig. 2 Information extraction block based on attention mechanism of feature map

其中，H_k表示第k个信息提取函数，F_k-1和F_k分别表示第k个信息提取块的输入和输出。

1.2.1 特征图注意力机制

在图像的复原过程中，高频通道特征对HR的重建更为重要，因此本文通过引入注意力机制来更加关注该信道特征。想要实现对每个特征通道分配不同的关注资源，则需关注以下2个问题：1）LR空间中的信息具有丰富的低频分量和有价值的高频分量，低频部分更为平坦，而高频分量通常是充满边缘、纹理和其他细节的区域；2）卷积层中的每个滤波器只能接收局部感受野信息，因此卷积后的输出无法利用局部之外的上下文信息。

针对上述问题，本文通过使用GAP将空间上所有点的信息都平均为一个值，这样可以屏蔽掉空间上的分布信息，以更好地关注通道间的相关性，该通道统计有助于表达整个图像信息^[13]。如图 3所示，X=[x₁, x₂, ..., x_c, ..., x_C]作为输入，C个特征图大小为H×W，经过全局平均池化后的结果呈现C个特征图之间的全局信息z，第c个特征图的全局信息z_c计算方法如式（3）所示：

	Download: JPG larger image
图 3 特征图注意力机制示意图 Fig. 3 Schematic diagram of attention mechanism of feature map

$z_{c}=H_{\mathrm{GAP}}\left(x_{c}\right)=\frac{1}{H \times W} \sum\limits_{i=1}^{H} \sum\limits_{j=1}^{W} x_{c}(i, j)$

(3)

其中，x_c(i, j)是第c个特征图x_c在位置(i, j)处的值，H_GAP表示全局平均池化功能函数。

为了从全局平均池化的结果z中学习到每个特征通道的特征权值，需要做到以下3点：

1）网络足够灵活，保证学习到的权值具有价值。

2）网络足够简单，不能增加网络的复杂性以致训练速度大幅降低。

3）网络要学习通道之间的非线性相互关系，激励重要的特征且抑制不重要的特征。

针对上述问题，本文设计两层全连接层构成门控机制，以融合各通道的特征图信息，门控单元S的计算方法可用式（4）表示：

$s=g\left(W_{2} \delta\left(W_{1} z\right)\right)$

(4)

其中：g和δ分别表示门控和ReLU函数，W₁乘以z表示一个全连接层操作，W₁的维度为C/r，r为缩放因子，文中取值为16，经过一个ReLU层后，输出的维度不变，再和W₂相乘，这也是一个全连接层的过程，W₂的维度为C，因此输出的维度为1×1×C；经过Sigmoid函数得到特征图的权重值，最后将获得的特征图权重值s用于重新调整输入x_c，具体如式（5）所示：

$\hat{x}_{c}=s_{c} \cdot x_{c}$

(5)

其中，s_c和x_c是第c个通道中的缩放因子和特征映射。这样通过特征图注意力机制可自适应调整通道特征，以增强网络的表征能力。

1.2.2 信息增强单元

信息增强单元是多个特征图注意力机制的信息提取块核心，其可以分为局部浅层网络和局部深层网络2个部分。每个部分均包含3个卷积层和3个注意力模块，卷积核大小都设置为3×3，且每个卷积层的特征图维度如图 2所示。局部浅层网络的3个卷积层的特征维度分别为48、32与64，局部深层网络的3个卷积层的特征维度分别为64、48与80，每个卷积层后面都有一个非线性激活单元LReLU。为增加filter之间的对角相关性并减少训练参数，其前后2个部分的中间卷积层均采用分组卷积的方式。考虑到深层网络的表达能力更强，本文将第3个注意力模块的特征图切分为2个部分，假定该模块的输入为F_k-1，则模块输出可表示为：

$P_{1}^{k}=C_{a}\left(F_{k-1}\right)$

(6)

其中，F_k-1是前一个信息提取块的输出，也是当前信息提取块的输入。C_a为链式卷积操作，P₁^k为第k个增强单元中前一部分卷积层的输出。由于本文的特征图注意力机制能自适应地调整通道特征，且不改变特征图维度大小，则P₁^k的维度为64，P₁^k中经过s=4进行切分后，维度为16的特征图和前一部分第一个卷积层的输入在通道维度上相连接，该部分可被看作是保留的局部浅层网络特征R^k，具体如式（7）所示：

$R^{k}=C\left(S\left(P_{1}^{k}, \frac{1}{s}\right), F_{k-1}\right)$

(7)

其中，C和S分别表示连接Concatenate操作和切片Slice操作。

将剩下的维度为48的特征图作为后续模块的输入，这主要是进一步增强浅层网络特征。相对于前一部分而言，该部分成为局部深层网络特征，具体如式（8）所示：

$P_{2}^{k}=C_{b}\left(S\left(P_{1}^{k}, 1-\frac{1}{s}\right)\right)$

(8)

其中，P₂^k，C_b分别为输出和后续模块的堆叠卷积操作。信息增强单元可用式（9）表示：

$\begin{aligned} P^{k}=& P_{2}^{k}+R^{k}=C_{b}\left(S\left(P_{1}^{k}, 1-\frac{1}{s}\right)\right)+\\ & C\left(S\left(P_{1}^{k}, \frac{1}{s}\right), F_{k-1}\right) \end{aligned}$

(9)

其中，P^k是增强单元的输出。局部深层网络特征P₂^k以及局部浅层网络特征和未处理特征相结合的R^k都被压缩单元所利用。

1.2.3 信息压缩单元

信息压缩单元主要是压缩信息增强单元中特征的冗余信息。本文采用一层1×1卷积层降维，并对增强单元中的特征信息进行融合。

1.3 重建块

重建块主要是利用上文卷积层学习到的信息，将LR图像重建成不同尺度的HR图像。通过比较反卷积层（也称为转置卷积）、最邻近上采样+卷积、亚像素卷积层ESPCN^[14]这3种可用的重建方法，结果发现ESPCN在计算复杂度和性能方面均优于其他2种方法。因此，本文网络可以用式（10）表示：

$I_{\mathrm{SR}}=H_{\mathrm{REC}}\left(H_{n}\left(F_{n-1}\right)\right)+U\left(I_{\mathrm{LR}}\right)$

(10)

其中，H_REC，U分别表示重建块和双三次插值运算，I_SR表示最终输出。

1.4 损失函数

优化网络的损失函数是整个网络模型的调度中心，目前在图像超分辨率重建中广泛使用的损失函数是均方误差（Mean Square Error，MSE）。它用来衡量预测的HR图像 $\hat{I}$和相应的真实图像I之间的差异，计算方法如式（11）所示：

$l_{\mathrm{MSE}}=\frac{1}{N} \sum\limits_{i=1}^{N}\left\|I_{i}-\hat{I}_{i}\right\|_{2}^{2}$

(11)

文献[8]通过实验证明MSE损失训练不是最好的选择，而平均绝对误差（Mean Absolute Error，MAE）是另一种常用的损失函数，其计算方法如式（12）所示：

$l_{\mathrm{MAE}}=\frac{1}{N} \sum\limits_{i=1}^{N}\left\|I_{i}-\hat{I}_{i}\right\|_{1}$

(12)

基于信息蒸馏网络快速准确的单幅图像超分辨率IDN^[15]已经证明MAE损失训练对图像超分辨有一定作用，因此本文先用MAE损失函数训练，再用MSE损失函数微调。

2 实验设置与结果分析

本文使用的平台是CentOS 7.4操作系统，双核Intel 2.2 GHz CPU 64 GB内存，Tesla V100 GPU，32 GB内存和4 TB硬盘，并在基于GPU版本的Tensorflow1.13深度学习框架下训练本文模型。本文采用文献[16]提出的方法初始化权重，偏差设置为0，并采用Adam^[17]对网络进行优化，设置批量数大小为16，初始学习率为2e-4，每迭代训练2 000次学习率降为原来的一半，总共迭代10 000次。

2.1 数据集

实验选择用于图像超分辨率的标准数据集DIV2K^[18]为研究对象，该数据集是新发布的用于图像复原任务的高质量图像数据集，每张图像具有2K的分辨率。DIV2K数据集包含800张训练图像、100张验证图像和100张测试图像，但是测试数据集目前尚未发布，因此本文采用Set5^[19]、BSD100^[20]、Urban100^[21]和Manga109^[22]4个广泛使用的基准测试数据集进行模型性能评估。在这些数据集中，Set5和BSD100包含自然场景，图片个数分别是5和100，Urban100包含100张具有挑战性的城市场景图像，其中包含不同频段的细节，Manga109是由日本专业漫画家绘制的109幅漫画组成。

2.2 数据集预处理

针对实际工程应用构建出有效训练集是目前图像复原中普遍存在的问题，当前主流的数据预处理方式有双三次插值算法和最邻近算法2种。本文使用双三次插值算法生成训练LR/HR图像对，且为了和基于GAN的网络进行对比实验，本文使用最邻近算法进行预处理，2种不同方式的预处理对基于特征图注意力机制的超分辨重建都有一定的效果。

为了充分利用训练数据，本文采用以下3种方式对数据进行增强：1）将图片旋转90°、180°和270°；2）将图片水平翻转；3）以0.9、0.8、0.7和0.6的因子缩小图像。

2.3 实验结果分析

为了探究注意力机制对本文网络的影响，对本文网络与移除了注意力机制的超分辨网络（SR-Net）在放大4倍后的DIV2K验证集上的峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）进行对比，结果如图 4所示。从图 4可以看出，2个网络都收敛很快，但本文网络的PSNR比SR-Net网络高出约0.15 dB。

	Download: JPG larger image
图 4 本文网络与SR-Net的PSNR对比 Fig. 4 PSNR comparison between SR-Net and the proposed network

将本文模型与Bicubic、SRCNN、VDSR、DRRN、IDN、SR-Net模型在Set5数据集上进行重建对比，结果如表 1与图 5所示。从表 1可以看出，虽然SR-Net的PSNR值比IDN低0.2 dB，但是本文模型的PSNR值比IDN模型高0.32 dB，且图 5（i）的轮廓比图 5（g）更加清晰，更符合原始图像5（b）的细节，说明本文提出的基于特征图注意力机制的图像超分辨网络可以增强特征的表达能力，能够恢复出更多的高频细节信息。

下载CSV 表 1 7种模型在Set5数据集上的PSNR和SSIM对比 Table 1 PSNR and SSIM comparison of seven models on Set5 dataset

	Download: JPG larger image
图 5 7种模型在Set5数据集上放大4倍后的重建效果对比 Fig. 5 Comparison of reconstruction effect of seven models on Set5 dataset after magnification of four times

将本文提出的基于特征图注意力机制的超分辨重建网络与SRCNN、VDSR、DRCN、DRRN、IDN超分辨率模型进行定性和定量对比。表 2给出了分别放大2倍、3倍与4倍这3种不同尺度下，不同的图像超分辨模型利用图像的PSNR和结构相似度（Structural Similarity，SSIM）这2种广泛使用的图像质量评估指标的定量对比结果，其中，最优结果加粗表示。从表 2的数据可以看出，本文模型在Set5^[19]、BSD100^[20]、Urban100^[21]和Manga109^[22]数据集上的PSNR与SSIM多数都超过了其他超分辨率模型，虽然2倍放大尺度下在Set5上的结果略低于IDN模型，但在其他数据集上的结果都优于IDN。随着放大倍数的增大，图片重建的难度也会随之增大，在放大倍数为4的情况下，本文模型相比SRCNN模型在Manga109数据集上PSNR提升了2.66 dB，与本文模型PSNR值相比差距最小的是IDN模型，在B100数据集上比本文模型PSNR值低0.1 dB。

表 2 7种模型在不同尺度下的PSNR与SSIM对比 Table 2 Comparison of PSNR/SSIM of seven models at different scales

数据集	放大倍数	Bicubic模型		SRCNN模型		VDSR模型		DRCN模型		DRRN模型		IDN模型		本文模型
数据集	放大倍数	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM	PSNR/dB	SSIM
Set5	2	33.66	0.929 9	36.66	0.952 4	37.53	0.958 7	37.63	0.958 8	37.74	0.959 1	37.83	0.960 0	37.83	0.959 2
	3	30.39	0.868 2	32.75	0.909 0	33.66	0.921 3	33.82	0.922 6	34.03	0.924 4	34.11	0.925 3	34.27	0.925 7
	4	28.42	0.810 4	30.48	0.862 8	31.35	0.883 8	31.53	0.885 4	31.68	0.888 8	31.82	0.890 3	32.12	0.892 9
BSD100	2	29.56	0.843 1	31.36	0.887 9	31.90	0.896 0	31.85	0.894 2	32.05	0.897 3	32.08	0.898 5	32.12	0.898 5
	3	27.21	0.738 5	28.41	0.786 3	28.82	0.797 6	28.80	0.796 3	28.95	0.800 4	28.95	0.801 3	29.03	0.803 2
	4	25.96	0.667 5	26.90	0.710 1	27.29	0.725 1	27.23	0.723 3	27.38	0.728 4	27.41	0.729 7	27.51	0.733 2
Urban100	2	26.88	0.840 3	29.50	0.894 6	30.76	0.914 0	30.75	0.913 3	31.23	0.918 8	31.27	0.919 6	32.11	0.927 1
	3	24.46	0.734 9	26.24	0.798 9	27.14	0.827 9	27.15	0.827 6	27.53	0.837 8	27.42	0.835 9	28.11	0.850 5
	4	23.14	0.657 7	24.52	0.722 1	25.18	0.752 4	25.14	0.751 0	25.44	0.763 8	25.41	0.763 2	26.02	0.781 8
Manga109	2	30.80	0.933 9	35.60	0.966 3	37.22	0.975 0	─	─	37.60	0.973 6	─	─	38.56	0.975 6
	3	26.95	0.855 6	30.48	0.911 7	32.01	0.934 0	─	─	32.42	0.935 9	─	─	33.42	0.942 1
	4	24.83	0.786 6	27.58	0.855 5	28.83	0.887 0	─	─	29.18	0.891 4	─	─	30.24	0.903 3

下载CSV 表 2 7种模型在不同尺度下的PSNR与SSIM对比 Table 2 Comparison of PSNR/SSIM of seven models at different scales

从图 6可知，多数重建模型沿水平线出现模糊伪影，图 6（d）和图 6（f）重建出的线条较模糊，而图 6（g）的重建效果比前两者好，但窗户玻璃的边缘轮廓不清晰，且线条细节恢复不够，而本文模型重建出的图 6（h）能重建出更多的细节，且线条和边缘轮廓更清晰。当缩放因子较大时，超分辨重建效果较差在很大程度上是由高频信息不足导致的，而本文模型利用特征图注意力机制能从LR空间中获得更多有用的特征并产生较好的效果。

	Download: JPG larger image
图 6 6种模型在Urban100数据集上放大4倍后的重建效果对比 Fig. 6 Comparison of reconstruction effect of six models on Urban100 dataset after magnification of four times

由于人像图片中眼睛部分细节较多，因此本文对超分辨后的图像右眼部分进行放大对比。实验分别采用本文模型、Bicubic、VDSR、DRRN和IDN对实际图片进行超分辨重建，结果如图 7所示。从图 7可以看出：相较于原始图像7（a）而言，图 7（d）DRRN模型重建的高分辨图像视觉效果较差；图 7（c）和图 7（e）重建出的高分辨图像在视觉上有所提升，但放大后的图片边缘轮廓仍然模糊；本文模型重建出的高分辨图 7（f）不仅在视觉上效果最佳，且放大后的眼睛部分具有较为锐利的边缘和比较清晰的纹理细度。因此，本文模型重建后的效果在视觉上优于其他模型，实用性更强。

	Download: JPG larger image
图 7 5种模型在放大3倍后的重建效果对比 Fig. 7 Comparison of reconstruction effect of five models after magnification of three times

基于对抗网络的图像复原是比较常见的，实验对本文模型与SRGAN^[23]进行对比实验，结果如表 3所示。从表 3可以看出，相比Bicubic模型与SRGAN模型，本文模型的PSNR更高。从图 8网络重建效果对比图可知，SRGAN模型构建生成的图效果比本文模型好，该结果是通过10个人对比观察重建效果图主观感觉得出，其中6个人认为中间SRGAN模型生成的图片8（b）和8（e）效果更好，3个人认为本文模型生成的图 8（c）和图 8（f）更好，1个人认为2个模型效果相当。

下载CSV 表 3 3种模型在不同数据集下的PSNR与SSIM对比 Table 3 PSNR and SSIM comparicon of three models in different datasets

	Download: JPG larger image
图 8 SRGAN模型与本文模型在放大4倍后的重建效果对比 Fig. 8 Comparison of reconstruction effect between SRGAN model and the proposed model after magnification of four times

文献[24]提出的图像超分辨重建的图像质量评价方法PSNR/SSIM不能客观反映图像的主观效果，而图像超分辨重建的图像质量评价方法平均主观意见分（Mean Opinion Score，MOS）需要大量的人力成本且不能复现。因此，提出更加精确的图像质量评价方法十分必要。但是在新的评价方法提出之前，本文沿用主流的PSNR/SSIM图像质量评价方法对模型进行评估，在该评估体系下，本文模型不仅在客观定量评价指标上有所提高，且能重建出更多符合原始图像的细节信息，这说明特征图注意力机制在图像超分辨重建中具有重要的作用。

3 结束语

本文设计一种基于特征图注意力机制的图像超分辨率重建网络模型，对彩色图像进行不同尺度的超分辨重建。该模型通过特征提取块从原始LR图像中提取特征，再由多个基于特征图注意力机制的信息提取块自适应地调整特征通道信息，以增强特征的表达能力，有效恢复出更多轮廓纹理等细节信息。实验结果表明，本文模型可有效提升图像超分辨率重建效果。下一步将对基于CNN和生成性对抗网络构建的模型重建效果进行分析与研究，实现更为精确的图像质量评估。

参考文献

[1]	DONG C, LOY C C, HE K M, et al.Learning a deep convolutional network for image super-resolution[C]//Proceedings of European Conference on Computer Vision.Berlin, Germany: Springer, 2014: 184-199.
[2]	ZHANG Kai, ZUO Wangmeng, ZHANG Lei.Learning a single convolutional super-resolution network for multiple degradations[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 3262-3271.
[3]	CHEN Xiaofan, SHEN Haijie, BIAN Qian, et al. Face image super-resolution with an attention mechanism[J]. Journal of Xidian University(Natural Science), 2019, 46(3): 148-153. (in Chinese) 陈晓范, 申海杰, 边倩, 等. 结合注意力机制的人脸超分辨率重建[J]. 西安电子科技大学学报(自然科学版), 2019, 46(3): 148-153.
[4]	KIM J, KWON L J, MU L K.Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 1646-1654.
[5]	KIM J, KWON L J, MU L K.Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 1637-1645.
[6]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
[7]	HE Yufei, GAO Hongwei. Super-resolution reconstruction using multilayer connected convolutional neural network for single-frame image[J]. Computer Applications and Software, 2019, 36(5): 220-224, 326. (in Chinese) 贺瑜飞, 高宏伟. 基于多层连接卷积神经网络的单帧图像超分辨重建[J]. 计算机应用与软件, 2019, 36(5): 220-224, 326.
[8]	LIM B, SON S, KIM H, et al.Enhanced deep residual networks for single image super-resolution[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C., USA: IEEE Press, 2017: 136-144.
[9]	TAI Ying, YANG Jian, LIU Xiaoming.Image super-resolution via deep recursive residual network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 3147-3155.
[10]	ZHANG H, GOODFELLOW I, METAXAS D, et al.Self-attention generative adversarial networks[EB/OL].[2019-10-02].https://arxiv.org/pdf/1805.08318.pdf.
[11]	LIN Hong, REN Shuo, YANG Yi, et al. Unsupervised image-to-image translation with self-attention and relativistic discriminator adversarial networks[J/OL]. Acta Automatica Sinica: 1-10[2019-09-04].https://kns.cnki.net/kcms/detail/11.2109.TP.20190530.1347.001.html.(in Chinese) 林泓, 任硕, 杨益, 等. 融合自注意力机制和相对鉴别的无监督图像翻译[J/OL]. 自动化学报: 1-10[2019-09-04]. https://kns.cnki.net/kcms/detail/11.2109.TP.20190530.1347.001.html.
[12]	ZHANG Yulun, LI Kunpeng, LI Kai, et al.Image super-resolution using very deep residual channel attention networks[C]//Proceedings of European Conference on Computer Vision.Berlin, Germany: Springer, 2018: 286-301.
[13]	HU J, SHEN L, ALBANIE S. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 7132-7141.
[14]	SHI W, CABALLERO J, HUSZAR F, et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of 2016 Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C., USA: IEEE Press, 2016: 1874-1883.
[15]	ZHENG Hui, WANG Xiumei, GAO Xinbo.Fast and accurate single image super-resolution via information distillation network[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 723-731.
[16]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1026-1034.
[17]	KINGMA D P, BA J.Adam: a method for stochastic optimization[EB/OL].[2019-10-02].http://de.arxiv.org/pdf/1412.6980.
[18]	TIMOFTE R, AGUSTSSON E, VAN GOOL L, et al.Ntire 2017 challenge on single image super-resolution: methods and results[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Washington D.C., USA: IEEE Press, 2017: 114-125.
[19]	BEVILACQUA M, ROUMY A, GUILLEMOT C, et al.Low-complexity single-image super-resolution based on nonnegative neighbor embedding[EB/OL].[2019-10-02].https://www.ixueshu.com/document/7e12bde83a725a9f318947a18e7f9386.html.
[20]	MARTIN D, FOWLKES C, TAL D, et al.A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2001: 1286-1296.
[21]	HUANG J B, SINGH A, AHUJA N.Single image super-resolution from transformed self-exemplars[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 5197-5206.
[22]	MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch-based manga retrieval using manga109 dataset[J]. Multimedia Tools and Applications, 2017, 76(20): 21811-21838. DOI:10.1007/s11042-016-4020-z
[23]	LEDIG C, THEIS L, HUSZAR F, et al.Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 4681-4690.
[24]	YANG Wenming, ZHANG Xuechen, TIAN Yapeng, et al.Deep learning for single image super-resolution: a brief review[EB/OL].[2019-10-02].https://www.researchgate.net/profile/Yapeng_Tian/publication/326988108_Deep_Learning_for_Single_Image_Super-Resolution_A_Brief_Review/links/5b96dad392851c78c412dfb4/Deep-Learning-for-Single-Image-Super-Resolution-A-Brief-Review.pdf.