开放科学(资源服务)标志码(OSID):
奈奎斯特采样定理要求采样频率必须达到信号带宽的2倍以上才能从采样信号中恢复出原始信号。随着物联网和大数据时代的到来,从采样信号中恢复原始信号,需不断加快采样速率,这使得传统的奈奎斯特采样过程面临较大挑战。近年来,DONOHO等[1]提出压缩感知理论,利用随机测量矩阵
在图像压缩感知问题中,测量值
由于深度学习能解决传统方法中计算量大的问题,因此研究人员提出基于深度学习的压缩感知重构方法。KULKARNI等[5]提出ReconNet,利用固定的随机高斯矩阵测量获取的图像采样数据,实现了非迭代压缩感知重构的目的。YAO等将ReconNet[5]网络与残差网络[6]相结合提出DR2-Net[7],可以更充分地捕获图像的细节信息。文献[8]提出一种深度神经网络CombNet,通过卷积核级联的方式加深网络的深度,提高重建图像的质量。文献[9]提出一种自适应测量的方法Adaptive-Net,该方法可以保留较多的图像信息。上述方法在低采样率下都存在严重的块效应,重构图像的视觉效果较模糊。
本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型。通过均值滤波消除图像中的噪声点,减少原始图像中的冗余信息,有利于采集更加有效的图像信息。通过对图像进行多尺度全卷积采样,在消除重建图像块效应的同时保留更多图像信息。在残差块中引入注意力机制,根据挖掘特征图通道之间的关联性,提取特征图中的关键信息用于恢复出高质量的重构图像。
1 相关工作基于深度学习的图像重构方法在计算机视觉和图像处理领域受到了广泛的关注,如图像超分辨率重建[10]、图像语义分割[11]、图像去噪[12]等。一些基于深度学习的方法也相继被提出,并应用于压缩感知的重构图像上。例如,利用堆叠降噪自动编码[13](Stacked Denoising Auto-encoder,SDA)模型和卷积神经网络[14](Convolutional Neural Network,CNN)学习一个端到端的映射,直接将测量值输入到网络得到的重构图像。文献[13]利用SDA训练得到测量值与重构图像之间的映射关系,通过测量值对该映射关系进行图像重构。KULKARNI等[5]提出的ReconNet实现了非迭代压缩感知重构,但重构质量相对较差。研究人员提出的DR2-Net[7]网络由全连接层和四个残差块组成,可以更充分地捕获图像的细节信息。文献[15]提出多尺度残差网络MSRNet,引入多尺度扩张卷积层来提取图像中不同尺度的特征。ISTA-Net[16]网络结合基于优化和基于网络的压缩感知方法的优点,具有良好的可解释性。DPA-Net[17]通过将图像的纹理结构信息分开重建后再进行融合,以提升重构图像的质量,文献[15-16]所提方法通过对输入图像进行分块,利用高斯矩阵进行逐块测量,存在计算量大的问题。此外,基于块的图像压缩感知重构破坏了图像结构信息的完整性。在Pep-Net[18]、CSNET[19]、MSResICS[20]、FCMN[21]中用自适应测量代替随机高斯矩阵的分块测量方法,保留图像结构和边缘信息的完整性,然而在重构时只采用单一的残差网络,未充分提高重建图像的质量。当FDC-Net[22]网络重构时,利用卷积网络与密集网络组合成的双路径重构网络,在提高重构图像质量的同时缩短了重构时间。但在低采样率下重建图像的视觉效果仍不清晰。为提高低采样率下重建图像的质量,本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型MSANet。
2 MSANet模型本文设计的网络主要由测量和重构两部分组成。
2.1 均值滤波均值滤波[23]是一种线性滤波器,用均值代替图像中的各个像素值,即对待处理的当前像素点
均值滤波的核函数
$ h(x, y)=\left\{\begin{array}{l}\frac{1}{WH}, \left|x\right| < \frac{W}{2}, \left|y\right| < \frac{H}{2}\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (1) |
$ \begin{array}{l}F\left[h\right(x, y\left)\right]=H(\mu , \nu )={\int }_{-\mathrm{\infty }}^{+\mathrm{\infty }}{\int }_{-\mathrm{\infty }}^{+\mathrm{\infty }}h(x, y){\mathrm{e}}^{-\mathrm{j}2\mathrm{\pi }(\mu x+\nu y)}\mathrm{d}x\mathrm{d}y=\\ {\int }_{-\frac{W}{2}}^{+\frac{W}{2}}\frac{1}{W}{\mathrm{e}}^{-\mathrm{j}2\mathrm{\pi }\mu x}\mathrm{d}x{\int }_{-\frac{W}{2}}^{+\frac{W}{2}}\frac{1}{H}{\mathrm{e}}^{-\mathrm{j}2\mathrm{\pi }\nu y}\mathrm{d}y=\\ \frac{\mathrm{s}\mathrm{i}\mathrm{n}\left(\mathrm{\pi }W\mu \right)}{\mathrm{\pi }W\mu }\times \frac{\mathrm{s}\mathrm{i}\mathrm{n}\left(\mathrm{\pi }H\nu \right)}{\mathrm{\pi }Hv}=\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{c}\left(W\mu \right)\times \mathrm{s}\mathrm{i}\mathrm{n}\mathrm{c}\left(H\nu \right)\end{array} $ | (2) |
从式(2)可以看出,
本文使用卷积层对图像进行采样,其过程如图 1所示。通过M个大小为
![]() |
Download:
|
图 1 卷积采样过程 Fig. 1 Process of convolution sampling |
在传统网络中每一层使用一个尺寸的卷积核,而Google和Inception网络中每一层的特征图使用多个不同大小的卷积核,以获得不同尺度的特征图,再把这些特征相融合。Inception网络结构如图 2所示。基于多尺度卷积的思想,本文采用多尺度全卷积对原始图像信号进行全图像测量,实现图像的多尺度全卷积采样。每一层卷积可以得到一个特征图,将多尺度卷积采样得到的多个特征图进行拼接融合,使得最终的特征图包含更多、更全面的信息。
![]() |
Download:
|
图 2 Inception网络结构 Fig. 2 Structure of Inception network |
注意力机制能够重点关注输入图像中的关键特征信息,分为硬注意力机制和软注意力机制。硬注意力机制是在所有特征信息中选择关键部分进行重点关注,其余特征则忽略不计。例如,文献[24]的数字识别任务中,在提取原始图像特征时,仅含有数字的像素点是有用的,因此,只需对含有数字的像素点进行重点关注。硬注意力机制能有效减少计算量,但丢弃了图像的部分信息,而在压缩感知重构任务中,图像的每一个像素点的信息都是有用的,显然,硬注意力机制不适用于压缩感知重构任务。随后,HU等[25]提出的SE块在残差网络之后使用原始的channel-wise attention来提高分类精度。软注意力机制对所有的特征设置一个权重,并对其进行特征加权,通过自适应调整凸显重要特征。图像经过每个卷积层都会产生多个不同的特征图,通道注意力机制[26]通过对每张特征图赋予不同的权重,使网络从特征的通道维度来提取重要的特征。
通道注意力模型结构如图 3所示,在卷积操作后分出一个旁路分支,首先进行Squeeze操作(即图中的
![]() |
Download:
|
图 3 通道注意力模型结构 Fig. 3 Structure of channel attention model |
当卷积层对图像进行卷积运算时,只能提取感受野内的特征信息。并且单一卷积层的计算输出没有考虑各个通道的依懒性。因此,本文在重构网络中提出一种新的残差注意力模型,其结构如图 4所示。通过在中间层设置通道注意力模块,加强了不同层以及特征通道之间的长期依赖关系,使得重要的特征信息在传递过程中不易丢失,提升最终重建图像的质量。
![]() |
Download:
|
图 4 残差注意力模型结构 Fig. 4 Structure of residual attention model |
残差块由三个不同卷积核大小的卷积层组成。第一层卷积使用11×11的卷积核,得到感受野较大的特征信息;第二层卷积首先使用1×1卷积核,降低第一层卷积计算的输出维度,然后将信息输入到注意力模块中,通过建模各个特征通道之间的重要程度,使网络有选择性地增强信息量大的特征,以充分利用这些特征信息,从而恢复出高质量的重构图像,并对无用特征进行抑制;第三层使用7×7的卷积核,提取各个通道上信息量大的特征信息,输出一张大小为256×256像素的灰度图像。
本文所提MSANet网络模型结构如图 5所示。
![]() |
Download:
|
图 5 MSANet网络模型结构 Fig. 5 Structure of MSANet network model |
本文实验在PyTorch深度学习框架上完成。计算机配备了主频率为2.8 GHz的Intel Core i5-8400H CPU、1个NVIDIA GeForce GTX 1080Ti GPU,网络框架在windows 10操作系统上运行。
为确保实验的公平性,本文在不同的采样率分别为1%、4%、25%下训练网络,使用相同的训练集和测试集,选择DIV2K作为模型的训练集数据,并在Set0、Set5、Set14和BSD100数据集上进行测试与对比实验。这些数据集包含大量来自各个领域的图像,能够对模型性能进行有效验证。
RGB图像在输入到网络之前被转换为灰度图像,数据归一化到区间[-1, 1],使网络能更快、更好地收敛。当训练模型时,本文使用Adam算法对模型参数进行优化,初始动量设置为0.9,每次迭代的批大小设置为8,学习率为0.001,激活函数采用PReLu。采用均方误差(Mean Square Error,MSE)作为损失函数,如式(3)所示:
$ {L}_{\mathrm{M}\mathrm{S}\mathrm{E}}=\mathrm{m}\mathrm{i}\mathrm{n}\frac{1}{2N}\sum \limits_{i=1}^{N}{‖f({x}_{i};w)-{x}_{i}‖}_{\mathrm{F}}^{2} $ | (3) |
其中:
本文实验采用国际通用的图像重建评价指标:峰值信噪比(
$ {P}_{\mathrm{P}\mathrm{S}\mathrm{N}\mathrm{R}}=10\mathrm{ }\mathrm{l}\mathrm{g}\left(\frac{255\times 255}{{L}_{\mathrm{M}\mathrm{S}\mathrm{E}}}\right) $ | (4) |
结构相似度从图像的亮度、结构和相似度三个方面进行评价。给定两张图片A和B,其结构相似度计算如式(5)所示:
$ {S}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}=\frac{(2\times {\mu }_{a}\times {\mu }_{b}+{C}_{1})(2\times {\sigma }_{ab}+{C}_{2})}{({\mu }_{a}^{2}+{\mu }_{b}^{2}+{C}_{1})({\mu }_{a}^{2}+{\mu }_{b}^{2}+{C}_{2})} $ | (5) |
其中:
本文模型与TVAL3[27]、SDA[13]、ReconNet[5]、DR2-Net[7]、CombNet[8]、ISTA-Net[16]和Pep-Net[18]进行PSNR对比,对比结果如表 1所示。从表 1可以看出,当采样率为1%和4%时,本文所提模型的PSNR值均优于对比模型,说明重构图像的失真小且质量较高。
![]() |
下载CSV 表 1 不同模型的峰值信噪比对比 Table 1 Peak signal-to-noise ratio comparison among different models |
为验证本文模型重建图像的视觉效果,在不同采样率下重建图像的视觉效果对比如图 6所示。
![]() |
Download:
|
图 6 在不同采样率下不同模型重建图像的视觉效果对比 Fig. 6 Visual effects of reconstructed images comparison among different models at different sampling rates |
当采样率为1%时,ReconNet[5]和DR2-Net[7]重建图像产生了严重的块效应问题,视觉效果较差,而本文模型的重建效果比较清晰。当采样率为4%时,ReconNet[5]和DR2-Net[7]重建图像仍然存在块效应,本文模型具有较优的视觉效果。在不同采样率下本文模型的均方差损失对比如图 7所示。当采样率为25%时,本文模型测试图像均方差损失的平均值最小,相应PSNR值的优势较明显,能有效消除块效应现象,具有较优的视觉效果。
![]() |
Download:
|
图 7 不同采样率下本文模型的均方差损失平均值 Fig. 7 The average of mean square error loss of the proposed model under different sampling rates |
分析上述结果可以得到:当采样率(25%)较大时,由于模型的均方差损失较小,因此重建出的图像都表现出较好的视觉效果,但在低采样率为1%时,其他模型重建的图像存在严重的块效应。
为验证本文模型重构的图像在亮度、对比度和结构的优越性,当采样率为1%时,不同模型在重构图像与原始图像之间结构相似性(SSIM)的计算结果如表 2所示。从表 2可以看出,本文模型的SSIM性能有较明显的优势。相比其他模型,本文设计的多尺度全卷积的采样方式可以保存完整的图像结构纹理信息,使大量有用信息进入重构网络,减小了重构图像与原始图像的差异性。因此,本文模型具有较优的SSIM。
![]() |
下载CSV 表 2 当采样率为1%时不同模型的结构相似性对比 Table 2 Structural similarity comparison among different models when the sampling rate is 1% |
传统的基于迭代压缩感知模型存在迭代次数多、计算复杂度高、耗时长等问题。本文提出的基于深度学习的压缩感知重构模型,在采样阶段,通过对初始图像进行滤波处理,消除了图像中的噪声信息,减少了数据量并保留有用信息。在重构阶段,利用卷积神经网络局部连接、权值共享的特性有效降低了网络的复杂度,减少了训练参数量。通过上述两个阶段的处理,有效地缩短了重构图像所消耗的时间。不同模型重建单张256×256像素图像花费的时间对比如表 3所示。
![]() |
下载CSV 表 3 不同模型重建图像花费的时间对比 Table 3 Comparison of time spent on image reconstruction by different models |
从表 3可以看出,相比传统的迭代模型,本文模型能有效降低重构过程的时间复杂度,缩短重构时间,节约了计算成本。
4 结束语本文提出一种基于通道注意力的多尺度全卷积压缩感知图像重构模型MSANet。在采样阶段,通过均值滤波消除图像中的噪声点,得到图像的低频信息。采用多尺度全卷积进行测量,消除重构图像的块效应且保留较多的原始图像信息。在重构阶段,在残差块中引入通道注意力机制挖掘特征图通道之间的关联性,增强了网络提取图像关键特征信息的能力,恢复出视觉效果更加清晰的重构图像。实验结果表明,相比传统的压缩感知模型,本文模型能有效缩短图像的重构时间,相较于基于深度学习的压缩感知重构模型ReconNet、DR2-Net等,在低采样率下生成的图像更加逼真自然。下一步将在本文模型的基础上引入密集网络,减少网络训练参数,增强特征传播,以缩短重构图像花费的时间。
[1] |
DONOHO D L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306. DOI:10.1109/TIT.2006.871582 |
[2] |
XIAO Y, YANG J, YUAN X. Alternating algorithms for total variation image reconstruction from random projections[J]. Inverse Problems & Imaging, 2012, 6(3): 547-563. |
[3] |
DONG S W, SHI G M, LI X, et al. Image reconstruction with locally adaptive sparsity and nonlocal robust regularization[J]. Signal Processing: Image Communication, 2012, 27(10): 1109-1122. DOI:10.1016/j.image.2012.09.003 |
[4] |
ELDAR Y C, KUPPINGER P, BOLCSKEI H. Block-sparse signals: uncertainty relations and efficient recovery[J]. IEEE Transactions on Signal Processing, 2010, 58(6): 3042-3054. DOI:10.1109/TSP.2010.2044837 |
[5] |
KULKARNI K, LOHIT S, TURAGA P, et al. ReconNet: non-iterative reconstruction of images from compressively sensed measurements[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 449-458.
|
[6] |
HE K M, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
|
[7] |
YAO H, DAI F, ZHANG S, et al. DR2-Net: deep residual reconstruction network for image compressive sensing[J]. Neurocomputing, 2019, 359: 483-493. DOI:10.1016/j.neucom.2019.05.006 |
[8] |
刘玉红, 刘树英, 付福祥. 基于卷积神经网络的压缩感知重构算法优化[J]. 计算机科学, 2020, 47(3): 143-148. LIU Y H, LIU S Y, FU F X. Opimization of compressed sensing reconstruction algorithm optimization based on convolutional neural network[J]. Computer Science, 2020, 47(3): 143-148. (in Chinese) |
[9] |
XIE X M, WANG Y X, SHI G M, et al. Adaptive measurement network for CS image reconstruction[C]//Proceedings of Chinese Conference on Computer Vision. Berlin, Germany: Springer, 2017: 407-417.
|
[10] |
LIU J, ZHANG W, TANG Y, et al. Residual feature aggregation network for image super-resolution[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 2359-2368.
|
[11] |
MOU L, HUA Y, ZHU X X. Relation matters: relational context-aware fully convolutional network for semantic segmentation of high-resolution aerial images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(11): 7557-7569. DOI:10.1109/TGRS.2020.2979552 |
[12] |
ZHANG K, ZUO W, CHEN Y, et al. Beyond a Gaussian denoiser: residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142-3155. DOI:10.1109/TIP.2017.2662206 |
[13] |
MOUSAVI A, PATEL A B, BARANIUK R G. A deep learning approach to structured signal recovery[C]//Proceedings of the 53rd Annual Allerton Conference on Communication, Control, and Computing. Washington D.C., USA: IEEE Press, 2015: 1336-1343.
|
[14] |
LI Y D, HAO Z, LEI H. Survey of convolutional neural network[J]. Journal of Computer Applications, 2016, 36(9): 2508-2515. |
[15] |
练秋生, 富利鹏, 陈书贞, 等. 基于多尺度残差网络的压缩感知重构算法[J]. 自动化学报, 2019, 45(11): 2082-2091. LIAN Q S, FU L P, CHEN S Z, et al. A compressed sensing algorithm based on multi-scale residual reconstruction network[J]. Acta Automatica Sinica, 2019, 45(11): 2082-2091. (in Chinese) DOI:10.16383/j.aas.c170546 |
[16] |
ZHANG J, GHANEM B. ISTA-Net: interpretable optimization-inspired deep network for image compressive sensing[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 1828-1837.
|
[17] |
SUN Y, CHEN J, LIU Q, et al. Dual-path attention network for compressed sensing image reconstruction[J]. IEEE Transactions on Image Processing, 2020, 29: 9482-9495. DOI:10.1109/TIP.2020.3023629 |
[18] |
DU J, XIE X, WANG C, et al. Perceptual compressive sensing[C]//Proceedings of Chinese Conference on Pattern Recognition and Computer Vision. Berlin, Germany: Springer, 2018: 268-279.
|
[19] |
SHI W, JIANG F, ZHANG S, et al. Deep networks for compressed image sensing[C]//Proceedings of International Conference on Multimedia and Expo. Washington D.C., USA: IEEE Press, 2017: 877-882.
|
[20] |
杨春玲, 裴翰奇. 基于残差学习的多阶段图像压缩感知神经网络[J]. 华南理工大学学报(自然科学版), 2020, 48(5): 82-91. YANG C L, PEI H Q. Multistage image compressive sensing neural network based on residual learning[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48(5): 82-91. (in Chinese) |
[21] |
DU J, XIE X, WANG C, et al. Fully convolutional measurement network for compressive sensing image reconstruction[J]. Neurocomputing, 2019, 328: 105-112. DOI:10.1016/j.neucom.2018.04.084 |
[22] |
ZHANG Z, GAO D, XIE X, et al. Dual-channel reconstruction network for image compressive sensing[J]. Sensors, 2019, 19(11): 2549. DOI:10.3390/s19112549 |
[23] |
TAO X, HONG X, SHI W, et al. Analogy-detail networks for object recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32(10): 4404-4418. |
[24] |
WANG F, TAX D M J. Survey on the attention based RNN model and its applications in computer vision[EB/OL]. [2021-11-19]. https://arxiv.org/abs/1601.06823.pdf.
|
[25] |
HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. DOI:10.1109/TPAMI.2019.2913372 |
[26] |
WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
|
[27] |
LI C, YIN W, JIANG H, et al. An efficient augmented Lagrangian method with applications to total variation minimization[J]. Computational Optimization and Applications, 2013, 56(3): 507-530. DOI:10.1007/s10589-013-9576-1 |