«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (11): 207-214, 223  DOI: 10.19678/j.issn.1000-3428.0062978
0

引用本文  

陈乔松, 蒲柳, 张羽, 等. 结合整体注意力与分形稠密特征的图像超分辨率重建[J]. 计算机工程, 2022, 48(11), 207-214, 223. DOI: 10.19678/j.issn.1000-3428.0062978.
CHEN Qiaosong, PU Liu, ZHANG Yu, et al. Image Super-Resolution Reconstruction Combining Holistic Attention and Fractal Density Feature[J]. Computer Engineering, 2022, 48(11), 207-214, 223. DOI: 10.19678/j.issn.1000-3428.0062978.

基金项目

国家自然科学基金(61806033);国家社会科学基金西部项目(18XGL013)

作者简介

陈乔松(1978—),男,副教授、博士,主研方向为图像处理、模式识别、机器视觉;
蒲柳,硕士研究生;
张羽,硕士研究生;
孙开伟,副教授、博士;
邓欣,副教授、博士;
王进,教授、博士

文章历史

收稿日期:2021-10-18
修回日期:2022-01-04
结合整体注意力与分形稠密特征的图像超分辨率重建
陈乔松 , 蒲柳 , 张羽 , 孙开伟 , 邓欣 , 王进     
重庆邮电大学 计算机科学与技术学院 数据工程与可视计算重庆市重点实验室, 重庆 400065
摘要:现有单图像超分辨率模型普遍基于卷积神经网络且使用单一尺度的卷积核提取特征信息,容易造成细节信息遗漏并降低网络表征能力。为有效提取高频信息同时提高图像重建性能,提出一种基于整体注意力机制与分形稠密特征增强的图像超分辨率重建模型。在特征增强过程中,级联9个分形稠密特征增强模块,每个模块通过4条分支路径提取和融合多尺度特征,并引入局部稠密跳跃连接传递信息以获取更丰富的细节信息。引入整体注意力机制,从3个维度出发建立特征图之间的关联关系,通过对不同通道、空间和层次的特征进行加权和选择性聚合为特征图分配不同的权重,从而提高模型判别学习能力。在Set5、Set14、BSDS100和Urban100数据集上的实验结果表明,该模型可有效重建纹理细节更丰富的高分辨率图像,重建图像在主观视觉效果与客观评价指标上均优于同类模型,且在图像放大3倍时,峰值信噪比和结构相似性指标最高比MSRN模型提升了0.57 dB和0.007。
关键词超分辨率重建    卷积神经网络    多尺度特征提取    注意力机制    高频信息    
Image Super-Resolution Reconstruction Combining Holistic Attention and Fractal Density Feature
CHEN Qiaosong , PU Liu , ZHANG Yu , SUN Kaiwei , DENG Xin , WANG Jin     
Chongqing Key Laboratory of Data Engineering and Visual Computing, School of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Abstract: Most current single-image super-resolution models are based on Convolutional Neural Networks (CNN) that use a single-scale convolution kernel to extract feature information, resulting in the missing details and reduced network representation ability.This study proposes an image super-resolution reconstruction model based on a holistic attention mechanism and fractal density feature enhancement to effectively extract high-frequency information and improve reconstruction performance. During the feature enhancement process, the proposed model cascades nine Fractal Dense Feature Enhancement(FDFE) modules.Each module extracts and fuses multiscale features through four branch paths and introduces local dense jump connections to transfer information for enhanced, detailed information.Next, the proposed model uses a holistic attention mechanism to establish the correlation between feature maps in three dimensions and assigns different weights to feature maps by weighting and selectively aggregating features from different channels, spaces, and layer to improve the discrimination learning ability of the model.The experimental results on the Set5, Set14, BSDS100, and Urban100 datasets show that the proposed model can effectively reconstruct high-resolution images with richer texture details.It is superior to many similar models in terms of subjective visual effects and objective evaluation indicators.When the image is magnified three times, the Peak Signal-to-Noise Ratio(PSNR) and Structural Similarity(SSIM) indexes of the proposed model are up to 0.57 dB and 0.007 higher than the Multi-Scale Residual Network(MSRN) model.
Key words: super-resolution reconstruction    Convolutional Neural Networks(CNN)    multi-scale feature extraction    attention mechanism    high-frequency information    

开放科学(资源服务)标志码(OSID):

0 概述

图像超分辨率重建[1]是将给定的低分辨率图像通过特定的算法恢复成相应的高分辨率图像。图像分辨率泛指成像或显示系统对细节的分辨能力,代表图像中存储的信息量。在一般情况下,高分辨率图像的像素密度越大,图像中包含的细节越多,但是由于硬件设备限制,往往无法直接获取到高分辨率图像,因此如何在现有的硬件条件下提高图像分辨率成为亟待解决的问题。

图像超分辨率重建方法主要分为基于插值[2]、基于建模[3]、基于学习[4]3类。基于插值的超分辨率重建方法通过某个点周围若干个已知点的值以及周围点和此点的位置关系,根据计算公式得到未知点的值。基于建模的超分辨率重建方法是对同一场景下的多幅低分辨率图像之间的相关性进行建模,包含频域法和空域法。目前,基于学习的超分辨率重建方法应用比较广泛,通过使用大量的图像数据,建立高低分辨率图像之间的映射关系,低分辨率图像可依赖已建立好的关系生成高分辨率图像,主要包括字典学习[5]、线性回归[6]、随机森林[7]和深度学习[8]等方法。

卷积神经网络(Convolutional Neural Networks,CNN)是深度学习框架中的一种重要网络结构,通过带有卷积结构的深度神经网络处理相关机器学习问题,在超分辨率重建中应用广泛,而且取得了不错的效果。文献[9]提出三层神经网络SRCNN用于超分辨率重建,其相比于传统方法具有更高的分辨率。文献[10]在SRCNN的基础上提出改进的FSRCNN模型,该模型通过在网络末端使用反卷积进行上采样,减少了图像的预处理过程。文献[11]提出VDSR模型,该模型借鉴残差思想避免了深层网络带来的副作用,降低了网络训练难度。文献[12]提出DRCN模型,该模型使用递归结构,在增加网络深度的同时扩大了感受野,提升了网络表征能力。文献[13]提出RED模型,该模型采用编码-解码框架,利用对称结构便于反向传播,且避免了梯度消失问题。文献[14]提出的SRGAN利用感知损失和对抗损失来提升恢复图片的真实感,使得输出图像具有逼真视觉效果。文献[15]提出MSRN模型,该模型利用多尺度残差块来提取低分辨率图像的特征,实验结果表明其在客观评价指标上优于对比模型,在主观视觉效果上得到的重建图像边缘和轮廓更加清晰。

然而,多数现有图像超分辨率重建模型的特征提取能力不足,导致高频信息丢失并且纹理细节无法被重建,同时大部分模型难以区分高频和低频信息,使得在网络重建时不能注意到真正有用的特征图,从而降低了网络重建能力。针对以上问题,本文提出一种基于整体注意力机制与分形稠密特征增强的图像超分辨率重建模型(简称为HAFN)。建立特征增强模块,通过4条分支路径提取不同尺度的特征,同时利用局部稠密跳跃连接将高频信息和低频信息相结合,从而提供互补的上下文信息。引入整体注意力机制,通过层次、通道、空间三方面整体调整特征图,从而有效筛选出高频特征,为重建模块提供更丰富的细节信息。

1 基于整体注意力与分形稠密特征的图像超分辨率重建 1.1 模型框架

考虑到现有模型存在的局限性,本文设计一种新的HAFN模型框架,如图 1所示,主要包含浅层特征提取模块、分形稠密特征增强模块、重建模块三部分,其中:浅层特征提取模块由两层卷积层组成,用来提取角点、颜色等低维信息;分形稠密特征增强模块由4条不同的分支组成,每条分支的卷积核数量不同,该模型共级联了9个分形稠密特征增强模块,主要作用是提取更丰富的高频信息,并且增加了模型的容错性和稳健性;重建模块是超分辨率重建任务中非常重要的模块,本文在重建图像时首先利用亚像素卷积层[16]将提取的浅层特征图放大至目标图像大小,然后将主干网络的输出特征图也进行同样的放大操作,并将两者进行逐像素相加,最后利用$ 1\times 1 $的卷积层将其压缩至RGB三通道得到网络最终输出图像。

Download:
图 1 HAFN模型框架 Fig. 1 Framework of HAFN model
1.2 分形稠密特征增强模块

本文采用分形稠密特征增强(Fractal Density Feature Enhancement,FDFE)来实现深层特征的提取,结构如图 2所示,其中X表示输入图像。

Download:
图 2 分形稠密特征增强模块结构 Fig. 2 Structure of FDFE module

FDFE模块利用4条不同的分支路径,每条路径上的卷积个数不同,但卷积核大小一致,从而实现多尺度的特征提取,而且模型会将不同路径的特征图进行相互融合,充分利用不同的特征,然后继续传递。同时,不同路径实现了信息共享,在反向传播时,当一条路径学习到最优参数时可以反馈给其他各条路径,通过共同学习和优化来重新校准特征,而且利用不同路径的梯度可以缓解梯度消失问题,提高模型性能。

该模块借鉴了DenseNet[17]思想,模块输入与各条路径融合后的特征进行通道拼接,这样可以综合利用浅层复杂度低的特征,得到一个光滑且具有更好泛化性能的决策函数。因此,该模块的抗过拟合性能较好,并且特征的重复利用大幅提升了重建精度。

1.3 整体注意力模块

在深度神经网络训练过程中产生的特征图包含了通道、空间和层次信息,这些信息对高频细节的恢复有不同程度的影响,若能增强目标特征,则网络的表达能力会进一步加强。首先引入层次注意力(Layer Attention,LA)单元获取不同层次之间特征图的相关性,然后设计全局混合特征重标定(Global Mixed Feature Recalibration,GMFR)单元建立特征图通道和空间位置的相互依赖关系,最后使用特定结构将这两个单元融合形成整体注意力模块,自适应调整特征的表达能力。

1.3.1 层次注意力单元

层次注意力[18]单元结构如图 3所示,首先将N个FDFE提取(本文N设置为9)的特征图进行拼接后作为模块输入特征组(Feature Groups,FG),其维数为$ N\times H\times W\times C $,然后利用view()函数将输入特征图转换为$ N\times HWC $的二维矩阵,并利用矩阵乘法和相应的转置相乘得到相关性矩阵$ {\boldsymbol{w}}_{i, j} $,计算公式如式(1)所示:

$ {\boldsymbol{w}}_{i, j}=\delta \left(\varphi \right({\boldsymbol{F}}_{\mathrm{F}\mathrm{G}}{)}_{i}\times \left(\varphi \right({\boldsymbol{F}}_{\mathrm{F}\mathrm{G}}{\left)\right)}_{j}^{\mathrm{T}}) $ (1)
Download:
图 3 层次注意力单元结构 Fig. 3 Structure of LA unit

其中:ij表示层的序号,$ i, j=\mathrm{1, 2}, \cdots , N $$ N $表示FDFE模块个数;$ {\boldsymbol{F}}_{\mathrm{F}\mathrm{G}} $表示原输入特征组;$ \delta \left(\right) $表示Softmax操作;$ \varphi \left(\right) $表示矩阵变换操作。

最后将重构后的特征组与预测的相关矩阵和比例因子$ \alpha $相乘,并加上初始输入特征组得到层次维度的加权自适应特征图$ {\boldsymbol{F}}_{\mathrm{L}\mathrm{a}\mathrm{y}\mathrm{e}\mathrm{r}} $,如式(2)所示:

$ {\boldsymbol{F}}_{\mathrm{L}\mathrm{a}\mathrm{y}\mathrm{e}\mathrm{r}}=\alpha \sum\limits_{i=1}^{N}{\boldsymbol{w}}_{i, j}{\boldsymbol{F}}_{\mathrm{F}{\mathrm{G}}_{i}}+{\boldsymbol{F}}_{\mathrm{F}\mathrm{G}} $ (2)

其中:$ \alpha $表示初始化为0的可学习参数,随着训练次数的增加而增大,直到学习到一个较好的值;$ {\boldsymbol{F}}_{\mathrm{F}{\mathrm{G}}_{i}} $表示经过矩阵变换操作的特征组。

1.3.2 全局混合特征重标定单元

全局混合特征重标定单元有效整合了空间注意力和通道注意力,如图 4所示。本文对文献[19]提出的空间注意力进行改进,首先通过一个$ 3\times 3 $的卷积层,然后使用深度可分离进行卷积,在减小参数量的同时能通过单独对每个特征图卷积,实现重要信息的最大化利用,执行过程如式(3)所示:

$ {\boldsymbol{M}}_{1}=C\left(D\right(\boldsymbol{I}\left)\right) $ (3)
Download:
图 4 全局混合特征重标定单元结构 Fig. 4 Structure of GMFR unit

其中:$ {\boldsymbol{M}}_{1} $表示空间注意力单元的输出;CD分别表示普通$ 3\times 3 $卷积层和深度可分离卷积;I表示输入特征图。

通道注意力[20]分为挤压和激励两个过程,挤压是全局均值池化操作,可以帮助获得更大的感受野,执行过程如式(4)所示:

$ {\boldsymbol{S}}_{\mathrm{C}}=\frac{1}{H\times W}\sum\limits_{i=1}^{H}\sum\limits_{j=1}^{W}{\boldsymbol{I}}_{\mathrm{C}}(i, j) $ (4)

其中:下标C表示通道;HW表示特征图的尺寸;S表示经过池化操作后的输出;$ {\boldsymbol{I}}_{\mathrm{C}}(i, j) $表示输入特征图的某个像素点。

激励操作通过一个全连接层对特征图进行线性变换,将通道数量压缩到$ \frac{C}{r} $个,其中r为超参数,再通过ReLU激活层和全连接层将通道数恢复至输入通道数,执行过程如式(5)所示:

$ {\boldsymbol{M}}_{2}={f}_{{\mathrm{c}}_{2}}\left(\delta \right({f}_{{\mathrm{c}}_{1}}\left({\boldsymbol{S}}_{\mathrm{C}}\right)\left)\right) $ (5)

其中:$ {f}_{{\mathrm{c}}_{1}} $$ {f}_{{\mathrm{c}}_{2}} $表示全连接层;$ \delta $表示ReLU激活函数;$ {\boldsymbol{M}}_{2} $表示通道注意力单元的输出。

全局混合特征重标定单元融合了这两种类型的注意力机制,并将融合后的特征图与初始输入特征进行跳跃连接,加强特征的信息表达能力,融合公式如式(6)所示:

$ \boldsymbol{M}=\sigma ({\boldsymbol{M}}_{1}+{\boldsymbol{M}}_{2})\otimes \boldsymbol{I}+\boldsymbol{I} $ (6)

其中:M表示混合特征重标定模块的输出;I表示模块的初始输入;$ {\boldsymbol{M}}_{1} $$ {\boldsymbol{M}}_{2} $分别表示通道注意单元和空间注意力单元的输出;$ \sigma $表示Sigmoid操作;+表示逐像素相加;$ \otimes $表示矩阵相乘。

1.3.3 整体注意力融合

为同时利用层次注意力单元和全局混合特征重标定单元的优点,将两者进行融合形成整体注意力模块,融合结构如图 5所示,其中i=9。

Download:
图 5 整体注意力模块结构 Fig. 5 Structure of holistic attention module

层次注意力单元的输出首先利用$ 1\times 1 $卷积进行挤压,去除一些无用的特征信息,然后与全局混合特征重标定单元的输出进行通道融合,从而得到不同类型的特征图,最后使用卷积层进行激励操作,整体注意力融合公式如(7)所示:

$ \boldsymbol{F}=C\left(C\right({\boldsymbol{F}}_{\mathrm{L}\mathrm{a}\mathrm{y}\mathrm{e}\mathrm{r}})+\boldsymbol{M}) $ (7)

其中:$ \boldsymbol{F} $表示整体注意力模块的输出特征图;C表示$ 1\times 1 $卷积层;FLayer表示层次注意力单元的输出;M表示混合特征重标定的输出;+表示通道拼接操作。

2 实验结果与分析 2.1 网络训练优化与实现细节

硬件环境为Intel® CoreTM i5-6500 CPU @ 3.2 GHz CPU、NVIDIA GTX1070 GPU、内存大小为16 GB。软件环境为Windows 10操作系统、MATLAB R2018b、CUDA v9.0以及计算机视觉库PyTorch[21]

在不同图像尺度下进行网络模型训练以及性能评估,使用DIV2K[22]作为训练集,该数据集是新发布的用于图像重建任务的高质量图像数据集,包含了800张训练图像、100张验证图像,测试集采用Set5[23]、Set14[24]、BSDS100[25]和Urban100[26],其中Set5、Set14、BSDS100这3个数据集由不同频率的自然风光图片组成,Urban100由不同频率的城市场景图片组成。

在数据预处理阶段,首先将高分辨率图像随机剪裁成48×48像素的子图像,然后进行水平垂直翻转以实现数据增强并进行双3次插值的退化处理。在训练过程中,最小批次设置为16,优化算法为Adam[27-28],初始学习率为1e-4,并采用StepLR策略,每训练200轮,学习率减半,总共训练1 000轮。使用L1作为损失函数,计算公式如式(8)所示:

$ {L}_{1}=\frac{1}{A}\sum\limits_{z=1}^{A}\left|\right|{\boldsymbol{O}}_{z}-{\boldsymbol{G}}_{z}|{|}_{1} $ (8)

其中:A表示总训练样本数;O表示重建的超分辨率图像;G表示对应的标签;z表示训练样本的序号。

2.2 客观性能评价

采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[29]和结构相似性(Structural Similarity,SSIM)[30]作为重建图像质量的评价指标。PSNR计算公式如(9)所示:

$ {P}_{\mathrm{P}\mathrm{S}\mathrm{N}\mathrm{R}}=10\times \mathrm{l}\mathrm{g}\left(\frac{({2}^{n}{-1)}^{2}}{{e}_{\mathrm{M}\mathrm{S}\mathrm{E}}}\right) $ (9)

其中:n是灰度图像的比特数,设置为8;$ {e}_{\mathrm{M}\mathrm{S}\mathrm{E}} $为重建图像与真实图像的均方误差。

$ {e}_{\mathrm{M}\mathrm{S}\mathrm{E}} $计算公式如式(10)所示:

$ {e}_{\mathrm{M}\mathrm{S}\mathrm{E}}=\frac{1}{H\times W}\sum\limits_{i=1}^{H}\sum\limits_{j=1}^{W}\left(\boldsymbol{X}\right(i, j)-\boldsymbol{Y}{(i, j))}^{2} $ (10)

其中:XY表示重建图像和真实图像;Xij)和Yij)分别表示重建图像和真实图像的某个像素值;$ H\times W $表示图像尺度。

从亮度、对比度和结构三方面出发度量图像相似性,计算公式如式(11)~式(14)所示:

$ \mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}(\boldsymbol{X}, \boldsymbol{Y})=l(\boldsymbol{X}, \boldsymbol{Y})\times c(\boldsymbol{X}, \boldsymbol{Y})\times s(\boldsymbol{X}, \boldsymbol{Y}) $ (11)
$ l(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\mu }_{\boldsymbol{X}}{\mu }_{\boldsymbol{Y}}+{C}_{1}}{{\mu }_{\boldsymbol{X}}^{2}+{\mu }_{\boldsymbol{Y}}^{2}+{C}_{1}} $ (12)
$ c(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{2}}{{\sigma }_{\boldsymbol{X}}^{2}+{\sigma }_{\boldsymbol{Y}}^{2}+{C}_{2}} $ (13)
$ s(\boldsymbol{X}, \boldsymbol{Y})=\frac{{\sigma }_{\boldsymbol{X}\boldsymbol{Y}}+{C}_{3}}{{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{3}} $ (14)

其中:lXY)、cXY)、sXY)分别表示亮度、对比度、结构比较;C1C2C3表示不为0的常数;$ {\mu }_{\boldsymbol{X}} $$ {\sigma }_{\boldsymbol{X}} $表示重建图像的像素均值和方差;$ {\mu }_{\boldsymbol{Y}} $$ {\sigma }_{\boldsymbol{Y}} $分别代表真实图像的像素均值和方差。

将本文HAFN模型与Bicubic[31]、SRCNN[9]、VDSR[11]、LapSRN[32]、MSRN[15]、DRCN[12]、CARN[33]、IMDN[34]、DRRN[35]等图像超分辨率模型进行性能对比。表 1~表 3给出了不同图像超分辨率模型在4个测试数据集上当图像放大2~4倍时的实验结果,其中,最优结果加粗表示,次优结果添加下划线表示。

下载CSV 表 1 10种超分辨率模型在图像放大2倍后的PSNR和SSIM对比 Table 1 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by two times
下载CSV 表 2 10种超分辨率模型在图像放大3倍后的PSNR和SSIM对比 Table 2 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by thee times
下载CSV 表 3 10种超分辨率模型在图像放大4倍后的PSNR和SSIM对比 Table 3 Comparison of PSNR and SSIM for ten super-resolution models when the image is magnified by four times

表 1~表 3可以看出,虽然图像放大2倍时,在BSDS100数据集上HAFN的SSIM指标略低于MSRN,但是无论图像放大2倍、3倍还是4倍,HAFN在4个数据集上的PSNR指标均超过其他模型,且在图像放大2倍时,在PSNR指标上相比于MSRN最多超出0.44 dB,在图像放大3倍时,最多超出0.57 dB,在图像放大4倍时,最多超出了0.37 dB。综上所述,HAFN重建的图像质量相比于其他模型更好。

2.3 主观性能评价

图 6所示,选取Urban100数据集中的img072.jpg图像进行主观性能评价,首先切割局部子图像,然后分别使用不同模型对其放大3倍并将重建图像进行可视化对比,可以看出HAFN重建图像相比于其他模型重建图像背景中的线条更加分明,模糊度更小,边缘更加突出,纹理信息更丰富。

Download:
图 6 图像放大3倍后的视觉效果对比 Fig. 6 Visual effect comparison when the image is magnified by three times
2.4 计算量与参数量对比

为从不同角度验证HAFN的优越性,对HAFN和其他模型的计算量和参数量进行对比。在Urban100数据集上,基于各个模型将图像放大4倍后得到819$ \times $1 024像素的图像,计算量对比如表 4所示,可以看出HAFN的PSNR值是最高的,而且计算量明显少于MSRN和VDSR。

下载CSV 表 4 不同模型的计算量对比 Table 4 Comparison of calculation quantity with different models

同时,在Urban100数据集上,基于各个模型将图像放大4倍后得到819$ \times $1 024像素的图像,参数量对比如表 5所示,可以看出HAFN的参数量相较于其他模型更具优势。

下载CSV 表 5 不同模型的参数量对比 Table 5 Comparison of parameter quantity with different models
2.5 运行时间对比

在Set14数据集上利用HAFN与VDSR、DRCN、LapSRN等模型将图像放大3倍和4倍,并在GPU上对其运行时间进行对比,对比模型的算法代码来自相关文献的公开源码。从表 6可以看出,HAFN的PSNR值明显高于其他模型,而且在图像放大3倍时,HAFN运行时间约为LapSRN的0.43倍,为VDSR的0.325倍,证明了HAFN更适用于对实时性要求较高的场景。

下载CSV 表 6 不同模型的运行时间对比 Table 6 Comparison of running time with different models
2.6 消融实验分析 2.6.1 层次注意力机制的有效性验证

为验证LA单元的有效性,主要设计了2种模型,第1种是加LA的模型(简称为LA),第2种是不加LA并且不对层次特征做任何处理的模型(简称为No LA),其他模块一致。如表 7所示,在Urban100数据集上,先将图像放大2倍,再将各个FDFE模块融合后加入层次注意力单元能够有效地提高重建图像的质量,LA模型相比于No LA模型的PSNR和SSIM分别提高了0.17 dB和0.000 4。

下载CSV 表 7 层次注意力机制的有效性验证结果 Table 7 Effectiveness verification results of layer attention mechanism
2.6.2 全局与局部混合特征重标定对模型性能的影响

为验证全局和局部混合特征重标定方法对于模型重建性能的影响,分别训练加入全局混合特征重标定单元的超分辨率重建模型(简称为GMFR)和加入局部混合特征重标定(Local Mixed Feature Recalibra-tion,LMFR)单元的超分辨率重建模型(简称为LMFR)。如图 7(a)所示,在级联的第9个FDFE模块末尾加入全局混合特征重标定单元。如图 7(b)所示,在每个FDFE模块末尾加入局部混合特征重标定单元。

Download:
图 7 混合特征重标定单元结构 Fig. 7 Structure of mixed feature recalibration unit

表 8所示,在Urban100数据集上,GMFR模型在PSNR和SSIM两个指标上均优于LMFR模型,因为局部混合特征重标定只考虑当前的输出特征图,而无法建立全局的上下文关联关系,同时还增加了计算成本。

下载CSV 表 8 加入全局与局部混合特征重标定单元的模型性能对比 Table 8 Model performance comparison of adding LMFR and GMFR units
3 结束语

针对现有图像超分辨率重建模型存在的局限性,本文提出一种基于整体注意力机制与分形稠密特征增强的图像超分辨率重建模型。通过分形稠密特征增强模块提取不同尺度下的特征图,同时采用层次注意力机制和全局混合特征重标定方法自适应学习重要特征,为重建模块提供丰富有效的高频信息。实验结果表明,该模型在测试数据集上相比于其他模型重建效果更好。后续将利用该模型对受不同噪声干扰的退化图像进行超分辨率重建,使其适用于复杂噪声环境,进一步提升模型应用范围。

参考文献
[1]
苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213.
SU H, ZHOU J, ZHANG Z H. Survey of super-resolution image reconstruction methods[J]. Acta Automatica Sinica, 2013, 39(8): 1202-1213. (in Chinese)
[2]
GIORGETTI A, VARRELLA M, CHIANI M. Analysis and performance comparison of different cognitive radio algorithms[C]//Proceedings of the 2nd International Workshop on Cognitive Radio and Advanced Spectrum Management. Washington D. C., USA: IEEE Press, 2009: 127-131.
[3]
IRANI M, PELEG S. Super resolution from image sequences[C]//Proceedings of the 10th International Conference on Pattern Recognition. Washington D. C., USA: IEEE Press, 1990: 115-120.
[4]
KIM K I, KWON Y. Example-based learning for single-image super-resolution[C]//Proceedings of Joint Pattern Recognition Symposium. Berlin, Germany: Springer, 2008: 456-465.
[5]
WANG S L, ZHANG L, LIANG Y, et al. Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2012: 2216-2223.
[6]
JOSEPH P J, VASWANI K, THAZHUTHAVEETIL M J. Construction and use of linear regression models for processor performance analysis[C]//Proceedings of the 12th International Symposium on High-Performance Computer Architecture. Washington D. C., USA: IEEE Press, 2006: 99-108.
[7]
LI Z, GUO J, XU W C, et al. Parameter extraction for equivalent circuit of common mode choke based on deep neural network, random forest tree and extreme gradient boosting algorithm[C]//Proceedings of Photonics & Electromagnetics Research Symposium. Washington D. C., USA: IEEE Press, 2019: 2296-2304.
[8]
连逸亚, 吴小俊. 超深卷积神经网络的图像超分辨率重建研究[J]. 计算机工程, 2019, 45(1): 217-220.
LIAN Y Y, WU X J. Research on image super-resolution reconstruction of super deep convolutional neural network[J]. Computer Engineering, 2019, 45(1): 217-220. (in Chinese) DOI:10.19678/j.issn.1000-3428.0049076
[9]
DONG C, LOY C C, HE K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307. DOI:10.1109/TPAMI.2015.2439281
[10]
DONG C, LOY C C, TANG X O. Accelerating the super-resolution convolutional neural network[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 391-407.
[11]
KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1646-1654.
[12]
GHIFARY M, KLEIJN W B, ZHANG M J, et al. Deep reconstruction-classification networks for unsupervised domain adaptation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 597-613.
[13]
MAO X, SHEN C, YANG Y B. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections[J]. Advances in Neural Information Processing Systems, 2016(29): 2802-2810.
[14]
LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 105-114.
[15]
LI J C, FANG F M, MEI K F, et al. Multi-scale residual network for image super-resolution[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 527-542.
[16]
WINEY B, SHARP G, BUSSIÈRE M. A fast double template convolution isocenter evaluation algorithm with subpixel accuracy[J]. Medical Physics, 2011, 38(1): 223-227.
[17]
HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2261-2269.
[18]
NIU B, WEN W L, REN W Q, et al. Single image super-resolution via a holistic attention network[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 191-207.
[19]
LI Y Y, LI Y L, GU Y F. Channel-wise spatial attention with spatiotemporal heterogeneous framework for action recognition[C]//Proceedings of the 6th International Conference on Computing and Artificial Intelligence. Berlin, Germany: Springer, 2020: 334-338.
[20]
张海涛, 张梦. 引入通道注意力机制的SSD目标检测算法[J]. 计算机工程, 2020, 46(8): 264-270.
ZHANG H T, ZHANG M. SSD target detection algorithm with channel attention mechanism[J]. Computer Engineering, 2020, 46(8): 264-270. (in Chinese) DOI:10.19678/j.issn.1000-3428.0054946
[21]
MUDIGERE D, NAUMOV M, SPISAK J, et al. Building recommender systems with PyTorch[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, USA: ACM Press, 2020: 3525-3526.
[22]
TIMOFTE R, AGUSTSSON E, GOOL L V, et al. NTIRE 2017 challenge on single image super-resolution: methods and results[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington D. C., USA: IEEE Press, 2017: 1110-1121.
[23]
SMITH D C. Super-resolution of text images through neighbor embedding[C]//Proceedings of the 13th IASTED International Conference on Signal and Image Processing. Calgary, Canada: ACTA Press, 2011: 19-26.
[24]
彭亚丽, 张鲁, 张钰, 等. 基于深度反卷积神经网络的图像超分辨率算法[J]. 软件学报, 2018, 29(4): 926-934.
PENG Y L, ZHANG L, ZHANG Y, et al. Deep deconvolution neural network for image super-resolution[J]. Journal of Software, 2018, 29(4): 926-934. (in Chinese) DOI:10.13328/j.cnki.jos.005407
[25]
MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2001: 416-423.
[26]
HUANG J B, SINGH A, AHUJA N. Single image super-resolution from transformed self-exemplars[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 5197-5206.
[27]
FENG J, WANG Z W, ZHA M, et al. Flower recognition based on transfer learning and Adam deep learning optimization algorithm[C]//Proceedings of 2019 International Conference on Robotics, Intelligent Control and Artificial Intelligence. Washington D. C., USA: IEEE Press, 2019: 598-604.
[28]
FANG Z, XU X X, LI X, et al. SPGD algorithm optimization based on Adam optimizer[C]//Proceedings of AOPC'20. Beijing, China: [s. n.], 2020: 677-684.
[29]
HUYNH-THU Q, GHANBARI M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-810. DOI:10.1049/el:20080522
[30]
LIU D, LI Y C, CHEN S J. No-reference remote sensing image quality assessment based on the region of interest and structural similarity[C]//Proceedings of the 2nd International Conference on Advances in Image Processing. Berlin, Germany: Springer, 2018: 64-67.
[31]
KEYS R. Cubic convolution interpolation for digital image processing[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(6): 1153-1160. DOI:10.1109/TASSP.1981.1163711
[32]
LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 5835-5843.
[33]
AHN N, KANG B, SOHN K A. Fast, accurate, and lightweight super-resolution with cascading residual network[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 256-272.
[34]
HUI Z, GAO X B, YANG Y C, et al. Lightweight image super-resolution with information multi-distillation network[C]//Proceedings of the 27th ACM International Conference on Multimedia. New York, USA: ACM Press, 2019: 2024-2032.
[35]
胡晓辉, 张建国. 基于改进卷积神经网络的图像超分辨率算法研究[J]. 计算机应用研究, 2020, 37(3): 947-950, 956.
HU X H, ZHANG J G. Research on image super-resolution algorithm based on improved convolutional neural network[J]. Application Research of Computers, 2020, 37(3): 947-950, 956. (in Chinese) DOI:10.19734/j.issn.1001-3695.2018.10.0785