2. 深圳职业技术学院 工业中心, 广东 深圳 518055
2. Industry Center, Shenzhen Polytechnic, Shenzhen, Guangdong 518055, China
开放科学(资源服务)标志码(OSID):
图像超分辨率重建旨在从低分辨率图像中重建出高分辨率图像,但由于多个高分辨率图像可能会产生相同的低分辨率图像,因此超分辨率问题具有固有的不变形特点,且高分辨率图像会因多种类型的细节损失而退化成不同的低分辨率图像,导致图像超分辨率重建任务较为复杂。为解决该问题,研究人员提出了很多图像超分辨率方法,包括基于插值的方法[1]、基于重构的方法[2]以及基于学习的方法[3-5]。
自DONG等[6]引入浅层卷积神经网络(CNN)来实现图像超分辨率后,基于深度学习的方法由于其卓越的重建性能而引起广泛关注。基于深度学习方法的优势主要基于深度网络和跳跃连接两个关键因素。深度网络可以提供强大的特征表达和提取能力,能够建立复杂图像从低分辨率到高分辨率的映射,同时可以通过更大的接受域来保留更多的上下文信息,且跳跃连接可以有效地缓解仅通过堆叠更多卷积层加深网络而导致的梯度消失或爆炸问题。
随着网络深度的增加,网络参数的数量也不断增多,大规模的网络模型将占用巨大的内存资源,且存在过拟合的风险。为减少网络参数数量,使用递归结构是常见做法。最近的研究表明[7-8],许多具有递归结构的网络例如DRCN[9]、DRRN[10]等均可以近似为简单状态下的递归神经网络(RNN)。与多数传统的基于深度学习的方法相似,这些具有递归结构的网络可以以前馈方式共享信息。但即使采用了跳跃连接,前馈方式也无法使前一层的网络从后一层中得到有用的信息。
在生物学的认知理论中,连接皮层视觉区域的反馈连接可以将响应信号从高层区域传输到低层区域[11-12],因此最近的研究[13-14]已将这种反馈机制应用于人工神经网络体系结构中。这些体系结构中的反馈机制以自上而下的方式工作,通过将高阶信息反馈给浅层网络,完善低级编码信息。
本文提出一种基于反馈机制的图像超分辨率重建算法,通过构建超分辨率反馈网络,在反馈连接的基础上使用高阶信息细化低阶信息。该网络本质上是具有反馈模块的RNN,是专门针对图像超分辨率任务设计的网络。其中,反馈模块由具有密集跳跃连接的多组上采样层和下采样层构成,能形成强大的高级表示形式。受AMIR等[14]启发,本文使用具有约束条件的RNN中包含的隐藏状态来实现网络的反馈机制,并使用课程学习策略,通过连续迭代的方式使网络学习复杂的失真模型。
1 相关工作本节主要对3个方面的内容展开阐述,包括基于深度学习的图像超分辨率方法、反馈机制以及课程学习。
1.1 基于深度学习的图像超分辨率方法深度学习已经在包括图像超分辨率任务在内的各种计算机视觉任务中显示了卓越的性能。DONG等[6]在图像超分辨率中引入了3层CNN,以学习复杂的低分辨率图像到高分辨率图像的映射。KIM等[9]将CNN的深度增加到20层,以便在低分辨率图像中使用更多的上下文信息。文献[9]使用跳跃连接来克服当网络变得更深时的优化难题。最近的研究已采用不同类型的跳跃连接改善图像高分辨率算法,例如SRResNet[15]和EDSR[7]应用文献[16]中的残差跳跃连接,SRDenseNet应用文献[17]中的密集跳跃连接。ZHANG等[1]在RDN模型中组合了局部与全局残差和密集跳跃连接。由于这些网络体系结构中的跳跃连接均以自下而上的方式使用或扮演组合分层功能,因此低级别的信息只能从前面几层中接收到。由于接收域小,因此缺少足够的上下文信息。这些低级别的信息在之后的层中被重复使用,从而进一步限制了网络的重构能力。为解决此问题,本文提出一种超分辨率反馈网络,其中高级别信息以自上而下的方式流过反馈连接,以获取更多上下文信息,从而纠正低级别的信息。
1.2 神经网络的反馈机制神经网络的反馈机制允许网络通过输出信息来更正之前的状态,该反馈机制已被许多网络体系结构采用以满足各种计算机视觉任务的需求。在语义分割领域,文献[18]尝试用拓扑损失来提取高阶语言信息,高阶语义信息反馈到浅层网络用于纠正低阶语义信息。文献[14]旨在解决计算机视觉任务中的分类问题,将具有高阶信息的隐藏状态转移到输入图像的信息中,从而在卷积递归神经网络中实现反馈。对于图像高分辨率重建任务,HAN等[19]应用一种延迟反馈机制,在双状态RNN中的2个循环状态之间传输信息。但与本文的反馈网络不同的是,HAN等的工作中低分辨率图像到最终的高分辨率图像信息流仍然采用前馈方式。本文的反馈模块中的信息通过密集的跳跃连接有效地流经结构层。如图 1所示,每次迭代的隐藏状态都会流入下一个迭代过程以重新配置输入。为了使隐藏状态包含高分辨率图像的信息,在训练过程中将总损失与每次迭代过程相关联。超分辨率反馈网络的设计原理是使粗糙的高分辨率图像信息可以促进低分辨率图像更好地重建完整的高分辨率图像。图 2显示了本文网络的基本架构,很好地体现了本文的反馈机制。实验结果表明,本文的反馈模块具有更好的重建性能,更适合图像超分辨率任务。
![]() |
Download:
|
图 1 反馈模块的信息流 Fig. 1 Information flow of the feedback module |
![]() |
Download:
|
图 2 本文网络的基本框架 Fig. 2 Basic framework of the network in this paper |
课程学习是由易到难的逐步学习过程,此过程将逐渐增加学习目标的难度,是改善训练过程的一种有效策略。课程学习在早期主要用于处理单个任务,PENTINA等[20]将课程学习以顺序的方式扩展到多个任务。GAO等[21]利用课程学习解决图像恢复中的注视问题。由于他们的网络仅限于一次预测,因此在训练过程中将根据任务的复杂程度,通过输入不同的训练数据来实施课程学习。本文通过利用课程学习从易到难的训练过程,逐渐恢复失真的图像,重建出高分辨率图像。
2 基于反馈机制的图像超分辨率算法本文的反馈机制通过迭代的网络子模块重新配置,以纠正每个迭代过程中系统的输入,这种迭代的因果过程有助于上下文信息的传递和利用,因为高阶信息可以帮助低分辨率图像更好地恢复重建。本节首先介绍超分辨率反馈网络的整体架构,然后对反馈模块的设计展开探究,最后是课程学习在本文中的应用以及最后损失的计算方法的定义。
2.1 超分辨率反馈网络结构如图 3所示是本文的网络结构,可以看到超分辨反馈网络结构可以展开为T次迭代过程,每次迭代过程t在时间上从1到T排序。为了使超分辨率反馈网络中的隐藏状态带有输出的概念信息,每个迭代的损失将被计算叠加到总损失上。每个迭代轮次的子网络包含3个部分:低分辨率特征提取模块(LRFB),反馈模块(FB)和重构模块(RB),每个模块的权重在时间上是共享的。每次迭代过程中将通过全局的残差跳跃连接传递上采样的图像,以便于绕过子网。因此,网络的每次迭代过程的目的是在输入低分辨率图像
![]() |
Download:
|
图 3 超分辨率反馈网络结构 Fig. 3 Super-resolution feedback network structure |
低分辨率特征提取器包括
$ {F}_{\mathrm{i}\mathrm{n}}^{t}={f}_{\mathrm{L}\mathrm{R}\mathrm{F}\mathrm{B}}\left({I}_{\mathrm{L}\mathrm{R}}\right) $ | (1) |
其中:
第t个迭代轮次的反馈模块通过反馈连接接受前一个迭代轮次的隐藏状态
$ {F}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{t}={f}_{\mathrm{F}\mathrm{B}}({F}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{t-1}, {F}_{\mathrm{i}\mathrm{n}}^{t}) $ | (2) |
其中:
重构模块利用
$ {I}_{\mathrm{R}\mathrm{e}\mathrm{s}}^{t}={f}_{\mathrm{R}\mathrm{B}}\left({F}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{t}\right) $ | (3) |
其中:
第t个迭代轮次的输出图像
$ {I}_{\mathrm{S}\mathrm{R}}^{t}={I}_{\mathrm{R}\mathrm{e}\mathrm{s}}^{t}+{f}_{\mathrm{U}\mathrm{P}}\left({L}_{\mathrm{L}\mathrm{R}}\right) $ | (4) |
其中
如图 4所示为第t个轮次迭代过程中的反馈模块通过接受反馈信息
![]() |
Download:
|
图 4 反馈模块的网络结构 Fig. 4 Network structure of feedback module |
在反馈模块的初始阶段,
$ {L}_{0}^{t}={C}_{0}\left(\right[{F}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{t-1}, {F}_{\mathrm{i}\mathrm{n}}^{t}\left]\right) $ | (5) |
其中:
$ {H}_{g}^{t}={C}_{g}^{\uparrow }\left(\right[{L}_{0}^{t}, {L}_{1}^{t}, \cdots, {L}_{g-1}^{t}\left]\right) $ | (6) |
其中
$ {L}_{g}^{t}={C}_{g}^{\downarrow }\left(\right[{H}_{1}^{t}, {H}_{2}^{t}, \cdots, {H}_{g}^{t}\left]\right) $ | (7) |
其中:
为充分利用每个特征提取子网络获取的有效信息和下一个迭代轮次的低分辨率特征
$ {F}_{\mathrm{o}\mathrm{u}\mathrm{t}}^{t}={C}_{\mathrm{F}\mathrm{F}}^{t}\left(\right[{L}_{1}^{t}, {L}_{2}^{t}, \cdots, {L}_{G}^{t}\left]\right) $ | (8) |
其中:
本文选择L1损失函数优化本文的网络模型。由于本文框架会在时间刻度上展开,由此对同一退化模型会得到T张目标高分辨率图像
$ L\left(\theta \right)=\frac{t}{z}\sum \limits_{t=1}^{T}\left|\right|{I}_{\mathrm{H}\mathrm{R}}^{t}-{I}_{\mathrm{S}\mathrm{R}}^{t}|{|}_{1} $ | (9) |
其中
本文通过端到端的训练方式学习网络参数
$ L\left(\theta \right)=\frac{1}{n}\sum \limits_{i=1}^{n}\left|\right|F({Y}_{{}_{i}};\theta )-{X}_{i}|{|}_{1} $ | (10) |
本文设置模型的初始值学习率为1
数据库和评估指标:使用DIV2K[21]和Flickr2K作为网络的训练数据。为充分利用训练数据,采用数据增强的方法。使用PSNR和SSIM指标作为超分辨率图像的评估指标,测试数据集采用5个标准的测试集:Set5,Set14,B100,Urban100,Manga109。
为与现有模型进行公平且全面的比较,选取2种真实高分辨率图像生成低分辨率图像的标准退化模型。其中第1种退化模型是GB退化模型,该模型将高斯模糊应用于高分辨率图像下采样,在实验中使用7
使用pytorch训练框架和2块NVIDIA1080TiGPU,每个训练批次大小为16。为从低分辨率图像中充分利用上下文信息,根据放大系数提供具有不同色块大小的RGB图像块。不同尺寸缩放和对应的图像块大小如表 1所示,表 2是参数的设置,
![]() |
下载CSV 表 1 不同尺寸缩放对应的图像块尺寸 Table 1 Image block size corresponding to different size scaling |
![]() |
下载CSV 表 2 参数设置 Table 2 Parameter settings |
本节主要探索反馈模块的有效性,提出的反馈主要由2部分组成:1)上采样层和下采样层(UDSL);2)密集的跳跃连接(DSC)。如表 3所示,其中:
![]() |
下载CSV 表 3 UDSL和DSC的消融实验 Table 3 Ablation experiment of UDSL and DSC |
探索反馈模块中特征映射组数量G的影响。本文固定迭代轮次T为4,从图 5可以看出,适当增大特征映射组,可有效提升超分辨率的准确率(彩色效果见《计算机工程》官网HTML版)。
![]() |
Download:
|
图 5 G的收敛分析 Fig. 5 Convergence analysis of G |
本文的框架模型是能在时间刻度上展开的递归神经网络,每一个递归模块都会得到一张目标超分辨率图像。上一个迭代轮次的输出会帮助下一个迭代模块更好地完成超分辨率任务。由图 6可知(彩色效果见《计算机工程》官网HTML版),在高阶语义信息的反馈下,越后面迭代轮次的低阶语义信息特征图越细化,有效地提高了图像超分辨率的准确性。为进一步探索该迭代递归过程中反馈机制的有效性,图 7显示,与无反馈连接的网络(T=1)相比,借助反馈连接的网络重建性可以得到显著改善。此外随着T的增长,图像重建性可以得到有效增长,网络性能收益于迭代过程中的信息流通机制。
![]() |
Download:
|
图 6 细化特征图的视觉对比 Fig. 6 Visual comparison of refined feature maps |
![]() |
Download:
|
图 7 T的收敛分析 Fig. 7 Convergence analysis of T |
本文通过课程学习策略训练了GB模型和WN模型,这2种模型在图像超分辨率中属于明显的退化模型,具有普遍的代表性。在方法上选取了SRCNN[6]、VDSR[9]、IRCNN_G[23]、SRMDNF[24]及RDN[25]5种图像超分辨率模型。SRCNN前两层学习率为1
![]() |
下载CSV 表 4 不同模型的训练时间对比 Table 4 Comparison of training time of different models |
表 5和表 6所示为不同模型在5个测试数据集下的综合评估实验对比,表中加粗数字表示该组数据最大值。可以看到在不同尺度下,本文方法在GB和WN模型下的性能表现均优于其他图像超分辨率方法。图 8和图 9所示为来自标准数据集中GB和WN退化模型的2组超分辨率的视觉结果。与其他方法相比,本文方法能减轻失真程度,并在超分辨率图像中生成更准确的细节信息。因此,本文认为超分辨率反馈网络能够合理地利用反馈机制,在处理不同的退化模型中具有更强的鲁棒性和有效性。
![]() |
下载CSV 表 5 GB退化模型下的性能对比 Table 5 Performance comparison in GB degradation model |
![]() |
下载CSV 表 6 WN退化模型下的性能对比 Table 6 Performance comparison in WN degradation model |
![]() |
Download:
|
图 8 GB退化模型视觉对比 Fig. 8 Visual comparison of GB degradation model |
![]() |
Download:
|
图 9 WN退化模型视觉对比 Fig. 9 Visual comparison of WN degradation model |
本文提出一种基于反馈机制的图像超分辨率重建算法,通过构建新型网络结构,使用反馈连接在自上而下的反馈流中提供丰富的高阶信息。更多上下文信息的反馈有助于低分辨率图像的重建,且网络中的反馈模块能有效处理反馈信息流,带有反馈连接的递归结构能提高网络早期重建能力。此外,使用课程式学习策略,并通过连续迭代的方式使网络学习复杂的失真模型,从而对不同的失真退化模型具有更强的鲁棒性。实验结果表明,该算法与SRCNN、VDSR、RDN等算法相比,能有效提升图像超分辨率重建的准确性。尽管本文构建网络对于超分辨率任务有效,但在语义分割等高阶计算机视觉复杂任务上的效果并不明显,网络具有一定局限性,下一步将利用反馈机制发展一种通用的反馈网络,以处理计算机视觉中的复杂任务。
[1] |
ZHANG L, WU X. An edge-guided image interpolation algorithm via directional filtering and data fusion[J]. IEEE Transactions on Image Processing, 2006, 15(8): 2226-2238. DOI:10.1109/TIP.2006.877407 |
[2] |
ZHANG K, GAO X, TAO D, et al. Single image super-resolution with non-local means and steering kernel regression[J]. IEEE Transactions on Image Processing, 2012, 21(11): 4544-4556. DOI:10.1109/TIP.2012.2208977 |
[3] |
苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213. SU H, ZHOU J, ZHANG Z H. A review of super-resolution image reconstruction methods[J]. Journal of Automatica Sinica, 2013, 39(8): 1202-1213. (in Chinese) |
[4] |
苏秉华, 金伟其, 牛丽红, 等. 超分辨率图像复原及其进展[J]. 光学技术, 2001, 27(1): 6-9. SUN B C, JIN W Q, NIU L H. Super-resolution image restoration and its progress[J]. Optical Technique, 2001, 27(1): 6-9. (in Chinese) |
[5] |
浦剑, 张军平. 基于词典学习和稀疏表示的超分辨率方法[J]. 模式识别与人工智能, 2010, 23(3): 335-340. PU J, ZHANG J P. Super-resolution method based on dictionary learning and sparse representation[J]. Pattem Recognition and Aitificial Intelligence, 2010, 23(3): 335-340. (in Chinese) |
[6] |
DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]// Proccedings of European Conference on Computer Vision. Berlin, Germay: Springer, 2014: 184-199.
|
[7] |
LIAO Q, POGGIO T. Bridging the gaps between residual learning, recurrent neural networks and visual cortex[EB/OL]. [2020-10-01]. https://www.researchgate.net/publication/301876854_Bridging_the_Gaps_Between_Residual_Learning_Recurrent_Neural_Networks_and_Visual_Cortex.
|
[8] |
LUGMAYR A, DANELLJAN M, TIMOFTE R. Ntire 2020 challenge on real-world image super-resolution: methods and results[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 494-495.
|
[9] |
KIM J, KWON L J, MU L K. Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1637-1645.
|
[10] |
HAN W, CHANG S, LIU D, et al. Image super-resolution via dual-state recurrent networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 1654-1663.
|
[11] |
HUPÉ J M, JAMES A C, PAYNE B R, et al. Cortical feedback improves discrimination between figure and background by V1, V2 and V3 neurons[J]. Nature, 1998, 394(6695): 784-787. DOI:10.1038/29537 |
[12] |
GILBERT C D, SIGMAN M. Brain states: top-down influences in sensory processing[J]. Neuron, 2007, 54(5): 677-696. |
[13] |
STOLLENGA M F, MASCI J, GOMEZ F, et al. Deep networks with internal selective attention through feedbackconnections[EB/OL]. [2020-10-01]. https://www.researchgate.net/publication/263891809_Deep_Networks_with_Internal_Selective_Attention_through_Feedback_Connections.
|
[14] |
ZAMIR A R, WU T L, SUN L, et al. Feedback networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1308-1317.
|
[15] |
LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4681-4690.
|
[16] |
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
|
[17] |
HUANG G, LIU Z, VAN D M L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4700-4708.
|
[18] |
MOSINSKA A, MARQUEZ N P, KOZINSKI M, et al. Beyond the pixel-wise loss for topology-aware delineation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 3136-3145.
|
[19] |
HARIS M, SHAKHNAROVICH G, UKITA N. Deep back-projection networks for super-resolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 1664-1673.
|
[20] |
PENTINA A, SHARMANSKA V, LAMPERT C H. Curriculum learning of multiple tasks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 5492-5500.
|
[21] |
GAO R, GRAUMAN K. On-demand learning for deep image restoration[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 1086-1095.
|
[22] |
AGUSTSSON E, TIMOFTE R. Ntire 2017 challenge on single image super-resolution: dataset and study[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 126-135.
|
[23] |
ZHANG K, ZUO W, GU S, et al. Learning deep CNN denoiser prior for image restoration[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 3929-3938.
|
[24] |
ZHANG K, ZUO W, ZHANG L. Learning a single convolutional super-resolution network for multiple degradations[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 3262-3271.
|
[25] |
ZHANG Y, TIAN Y, KONG Y, et al. Residual dense network for image super-resolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 2472-2481.
|