«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (8): 215-223  DOI: 10.19678/j.issn.1000-3428.0062333
0

引用本文  

徐超越, 余映, 何鹏浩, 等. 基于U-Net的多尺度低照度图像增强网络[J]. 计算机工程, 2022, 48(8), 215-223. DOI: 10.19678/j.issn.1000-3428.0062333.
XU Chaoyue, YU Ying, HE Penghao, et al. Multi-Scale Low-Light Image Enhancement Network Based on U-Net[J]. Computer Engineering, 2022, 48(8), 215-223. DOI: 10.19678/j.issn.1000-3428.0062333.

基金项目

国家自然科学基金“基于视觉感知和认知机理的云南少数民族壁画数字修复关键技术研究”(62166048);国家自然科学基金“面向复杂场景自动目标检测和识别的变换域视觉注意模型研究”(61263048);云南省应用基础研究计划项目“面向复杂场景的新型视觉注意计算模型研究”(2018FB102);云南大学中青年骨干教师培养计划(XT412003)

通信作者

余映(通信作者), 副教授

作者简介

徐超越(1997-), 女, 硕士研究生, 主研方向为图像处理、计算机视觉、深度学习;
何鹏浩, 硕士研究生;
李淼, 硕士研究生;
马玉辉, 硕士研究生

文章历史

收稿日期:2021-08-12
修回日期:2021-09-30
基于U-Net的多尺度低照度图像增强网络
徐超越 , 余映 , 何鹏浩 , 李淼 , 马玉辉     
云南大学 信息学院, 昆明 650091
摘要:低照度是夜晚拍摄时常见的一种现象,不充分的光照会使图像细节损失严重,降低图像视觉质量。针对现有低照度图像增强方法对不同尺度特征的感知和表达能力存在不足的问题,提出一种基于U-Net的多尺度低照度图像增强网络(MSU-LIIEN)。采用特征金字塔作为基本处理框架,实现对低照度图像的特征提取。在特征金字塔构建的3个分支结构中均使用U-Net作为骨干网,对提取到的浅层图像特征进行编码与解码操作,同时引入结构细节残差融合块以增强网络模型提取和表征低照度图像特征信息的能力。在此基础上,对提取到的特征信息逐层融合,恢复正常光照图像。实验结果表明,MSU-LIIEN在LOL-datasets和Brighting Train数据集中相比于性能排名第二的KinD模型,平均峰值信噪比分别提高16.21%和46.67%,且在主观视野感受和客观评价指标方面均优于所有对比的经典模型,不但能有效提升低照度图像的整体亮度,而且能很好地保持图像中的细节信息和清晰的物体边缘轮廓,使增强后的图像整体画面真实自然。
关键词低照度图像增强    深度学习    U-Net网络    多尺度特征图    感受野    
Multi-Scale Low-Light Image Enhancement Network Based on U-Net
XU Chaoyue , YU Ying , HE Penghao , LI Miao , MA Yuhui     
School of Information Science and Engineering, Yunnan University, Kunming 650091, China
Abstract: Low light is a common phenomenon when shooting at night.Insufficient illumination causes serious loss of image details and reduces visual quality.The existing low-light image enhancement methods have insufficient perception and expression of features at different scales.To address the problem of existing low-light image enhancement methods being inadequate in their ability to perceive and express features at different scales, a multi-scale low-light image enhancement network based on U-Net(MSU-LIIEN) is proposed.Firstly, the feature pyramid is used as the basic processing framework of this article to achieve feature extraction for low-light images.Then, the U-Net is used as the backbone in all three branch structures of the feature pyramid construction to encode and decode the extracted shallow image features, while structural detail residual fusion blocks are introduced to enhance the network's ability to extract and characterize low-light image feature information.Finally, the extracted feature information is fused layer by layer to recover the final image.The experimental results show that, compared with the second-performing KinD algorithm in LOL-datasets, the average Peak Signal-to-Noise Ratio(PSNR) value increased by 16.21%, and compared with the second-performing model on the Brighting Train dataset, the average PSNR value increased by 49.67%.The proposed algorithm outperforms other classical low-light image enhancement algorithms in terms of both subjective visual field perception and objective evaluation metrics.Not only does it effectively enhance the overall brightness of low-light images, but it also maintains detailed information in the image and clear object outlines, making the overall picture of the enhanced image realistic and natural.
Key words: low-light image enhancement    deep learning    U-Net    multi-scale feature map    receptive field    

开放科学(资源服务)标志码(OSID):

0 概述

低照度图像增强是计算机视觉中具有挑战性的任务之一,在各个领域得到广泛应用。在光线较暗的条件下,传感器获得的效果严重退化,产生的图像不但辨识性差、对比度低,而且还存在颜色失真、包含大量噪声等问题,这使得随后的计算机视觉任务变得困难,如视频监控、自动驾驶、目标检测等。为了提高低照度图像的实用性,需要采取低照度图像增强方法进行处理。

传统的低照度图像增强模型可以分为基于直方图均衡化、基于频域和基于Retinex理论对光照区域增强的方法。根据计算中考虑的区域不同,基于直方图均衡化的方法可以分为全局直方图均衡化[1]、局部直方图均衡化[2]、自适应直方图均衡化[3]、限制对比度自适应直方图均衡化[4]等方法,但这些方法由于灰度合并可能会丢失图像细节信息。基于频域的方法主要利用小波变换[5]和傅里叶变换[6]。在傅里叶变换域中,研究者采用高通滤波器增强高频反射分量,抑制低频照明分量来增强低照度图像。YANG等[7]利用双树复小波变换来进行图像增强,但该方法需要大量计算,变换参数的选择往往需要人工干预。文献[8-10]提出基于Retinex理论对光照区域增强的方法,利用颜色恒常知觉计算理论,通过获得反映物体固有属性的反射分量来实现图像增强处理,但此类方法在强烈的阴影过渡区域容易出现光晕、伪影。张聿等[11]利用Retinex理论提出一种基于分区曝光融合的不均匀亮度视频增强方法。此外,DONG等[12]采用去雾方法实现低照度图像增强;WANG等[13]提出一种双对数变换和亮通滤波器,可以在图像细节和亮度之间取得平衡;YING等[14]提出一种双曝光融合模型对低照度图像进行增强。

近年来,基于深度学习的增强方法逐渐发展,通过深度学习,网络经过训练生成一个处理器,不仅能产生更好的效果同时也能将训练好的网络应用到智能手机上。LORE等[15]在训练低照度图像增强LLNet的框架中采用堆叠稀疏去噪自编码器来实现图像增强,但增强后的图像细节模糊,存在噪声。江泽涛等[16]基于变分自编码器提出了一种多重构变分自编码器,从粗到细地生成高质量低照度增强图像。WEI等[17]将Retinex理论与深度学习相结合,但所得结果存在边缘轮廓模糊的现象。LÜ等[18]提出一种新的网络MBLLEN,通过特征融合产生输出图像,但其在亮度增强上效果不够理想。LIU等[19]提出一种基于最优加权多曝光融合机制的图像增强方法。马红强等[20]利用深度卷积神经网络(DCNN)对亮度分量进行增强。ZHANG等[21]提出一个简单有效的KinD网络处理低照度图像。随后,ZHANG等[22]又在KinD网络的基础上加入多尺度亮度注意力模块来增强处理低照度图像。LIU等[23]基于生成对抗网络(Generative Adversarial Network,GAN)提出一种感知细节GAN(PD-GAN)来调整光照。陈榆琅等[24]提出一种基于生成对抗网络的空间卫星低照度图像增强方法。ZHU等[25]采用零样本学习(zero-shot)方案增强图像。此类方法将低照度图像增强制定为曲线估计任务,但图像整体亮度仍偏暗。XU等[26]提出一种用于低照度图像增强的多尺度融合框架。基于深度学习的方法是当前图像处理研究发展的主要趋势,但其对不同尺度图像特征的表达能力不足,使得网络很难从极暗的图像中复原细节信息,且增强后的图像容易出现色彩畸变、噪声被放大、边缘轮廓模糊的现象。

针对上述问题,本文提出一种基于U-Net的多尺度低照度图像增强网络(MSU-LIIEN),旨在增强图像亮度,消除噪声并使图像细节内容清晰可见。利用特征金字塔网络对原始低照度图像进行处理,以便让网络模型在初期即可获得融合深、浅层特征信息的特征图,使得所有不同尺度的特征图都含有丰富的高级语义信息。MSU-LIIEN中每个网络分支都采用U-Net网络,可以使模型在捕捉图像特征信息的长期依赖方面更有效。在此基础上,将多尺度和U-Net互相结合,设计MSU-Net模块,以获得丰富的细节信息,有效增强低照度图像的亮度。由于融合不同尺度的特征图是提高网络性能的一个重要手段,因此还设计一种扩张的结构细节残差融合块(Structural Detail Residual Fusion Block,SDRFB)嵌入到U-Net骨干网中。该模块通过扩大感受野的方式,能够获得更为全面、语义层次更高的特征图,提高网络表达图像特征信息的能力。

1 MSU-LIIEN模型 1.1 网络结构

为了解决低照度图像亮度增强、图像细节恢复和噪声去除的问题,本文提出一种基于U-Net的多尺度低照度图像增强网络(MSU-LIIEN)。MSU-LIIEN通过融合不同尺度的特征图来对低照度图像进行增强,采用特征金字塔(FPN)和U-Net结合的方法使网络模型获得丰富的低照度图像特征信息,并将所得到的特征图沿着网络模型逐渐融合。由于图像细节是高频信息,因此低照度图像增强后会不可避免地导致图像细节模糊或产生噪声,且现有的特征提取块[27]很难完全从低照度图像中获得纹理细节特征,所以,MSU-LIIEN以特征金字塔为基本结构,用于把低照度图像转换为特征映射,将特征金字塔网络提取到的多级特征融合为基本特征。然后将其输入到MSU-Net模块中,经过多层卷积消除噪声,并获得丰富的图像特征信息。最后将3个分支输出的特征图逐层进行融合,用于恢复出最终的结果图。在MSU-Net模块中的3个分支中都采用U-Net结构作为骨干网,对提取到的图像特征进行编码与解码操作,并在所有分支上都进行相同的卷积和结构细节残差融合操作,以加强主干网络对特征信息的传递,获得表达能力更强的特征图。本文网络整体结构框架如图 1所示,原始低照度图像首先通过特征金字塔提取浅层特征信息,然后将特征图输入到3个U-Net分支中,其中U1、U2和U3分别是输入特征图的尺寸为H×WH/2×W/2和H/4×W/4的3个U-Net分支。

Download:
图 1 MSU-LIIEN网络结构框架 Fig. 1 Network structure frame of MSU-LIIEN

将通过MSU-Net模块得到的所有尺度特征图进行逐层融合,再通过两层卷积和SDRFB模块得到最终增强后的正常光照图像,该过程表示为:

$ \left[\mathrm{U}1, \mathrm{U}2, \mathrm{U}3\right]=\mathrm{F}\mathrm{P}\mathrm{N}\left(i\right) $ (1)
$ o=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{C}\mathrm{a}\mathrm{t}\left[\mathrm{U}1, \mathrm{U}2, \mathrm{U}3\right]\right)\right)\right) $ (2)

其中:$ i $表示输入的原始低照度图像;$ o $为最终增强的正常光照图像;$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v} $表示大小为3×3、步长为1的卷积操作;$ \mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B} $表示结构细节残差融合块;$ \mathrm{C}\mathrm{a}\mathrm{t} $表示对图像进行连接操作;U1、U2、U3表示3个分支,这里是对3个分支输出的特征图进行Cat操作。

1.2 MSU-Net模块

每经过一层卷积噪声的等级就会减小,但相应的图像细节内容也会丢失,因此,本文设计了MSU-Net模块。该模块将多尺度结构和U-Net互相结合,在达到良好去噪效果的同时较好地保留了图像细节纹理信息。采用多尺度结构可以在不同尺度的特征图上捕获更全面的特征信息,增强网络对不同尺度特征的感知能力。U-Net网络能够将编码器中的低级特征与解码器中的深层语义特征相结合,充分利用上下纹理信息。与标准的U-Net架构相比,MSU-Net的不同主要在于采用多分支多尺度的方式融合了多个不同感受野大小的卷积序列产生的特征图,在模块中通过对多个不同感受野的特征图进行信息提取,能够让网络获得更多的细节和语义信息,从而增强网络对多尺度特征信息的提取和表达能力。MSU-Net分支结构如图 2所示。

Download:
图 2 MSU-Net分支结构 Fig. 2 MSU-NET branch structure

值得注意的是,每个分支采用的U-Net网络的结构和深度都一致,其每个分支都采用3×3大小、步长为1的卷积,下采样执行2×2最大池化操作,上采样执行2×2转置卷积操作。编码器由两个卷积层、两个结构细节残差融合块组成,解码器也是同样结构。当来自编码器网络的高分辨率特征图与解码器网络含有丰富语义的特征图逐渐融合时,能够让网络更有效地捕获图像的细节和语义信息。在MSU-Net模块中,下采样用来逐渐展现环境信息,上采样用来进行信息的传递。由于模块具有对称性,因此可以在提高网络模型精度的同时减小计算量。每个分支的计算过程可以表示为:

$ {F}_{1}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B}\left({F}_{\mathrm{i}\mathrm{n}}\right)\right) $ (3)
$ {F}_{2}=\mathrm{M}\mathrm{a}\mathrm{x}\_\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B}\left({F}_{1}\right)\right)\right) $ (4)
$ {F}_{3}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B}\left({F}_{2}\right)\right) $ (5)
$ {F}_{\mathrm{o}\mathrm{u}\mathrm{t}}=\mathrm{u}\mathrm{p}\_\mathrm{s}\mathrm{a}\mathrm{m}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B}\left({F}_{3}\right)\right)\right) $ (6)

其中:$ {F}_{\mathrm{i}\mathrm{n}} $为输入的特征图;$ {F}_{1}\mathrm{、}{F}_{2}\mathrm{、}{F}_{3} $分别为经过卷积、池化等操作产生的特征图;$ {F}_{\mathrm{o}\mathrm{u}\mathrm{t}} $为MSU-Net模块每个分支输出的特征图;$ \mathrm{S}\mathrm{D}\mathrm{R}\mathrm{F}\mathrm{B} $表示结构细节残差融合操作;$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v} $表示卷积操作;$ \mathrm{M}\mathrm{a}\mathrm{x}\_\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g} $表示下采样最大池化操作;$ \mathrm{u}\mathrm{p}\_\mathrm{s}\mathrm{a}\mathrm{m}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g} $表示上采样转置卷积操作。

1.3 结构细节残差融合块

为了更好地挖掘图像的深层次特征信息,提高网络表达特征信息的能力,本文将SDRFB嵌入到U-Net中,它不仅可以结合不同尺度的图像特征信息,同时也有助于梯度的反向传播,加快网络模型的训练速度,解决网络层数较深情况下梯度消散的问题。图 3所示为本文设计的结构细节残差融合块结构,其对输入的特征图进行最大池化下采样操作,以保留显著的图像特征信息并减少网络训练参数。

Download:
图 3 结构细节残差融合块 Fig. 3 Structure details residual block

在SDRFB模块内生成两个不同尺度的特征图,大小分别为H/2×W/2和H/4×W/4,然后将特征图进行融合获得含有丰富信息的特征图。受残差网络的影响,考虑到非线性因素的初始化方法适用于研究更深更大的网络结构,因此该模块借鉴了残差网络的结构,引入跳跃连接进行特征融合。与普通残差块的主要区别是,SDRFB模块可以在同一尺度内充分利用多尺度信息。该模块因为具有更大的感受野,所以可以获得更多的上下文信息,有助于网络找回丢失的图像细节信息。此外,它还是一个独立的模块,可以灵活地嵌入到各种网络模型训练中。

SDRFB模块首先对输入的特征图进行卷积操作,然后再对输入的特征图进行池化操作以获得不同尺度特征图,该过程可以表示为:

$ {y}_{1}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(x\right) $ (7)
$ {y}_{2}=\mathrm{M}\mathrm{a}\mathrm{x}\_\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(x\right) $ (8)

其中:$ x $表示输入的特征图;$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v} $表示大小为3×3、步长为1的卷积操作;$ \mathrm{M}\mathrm{a}\mathrm{x}\_\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g} $表示大小2×2、步长为2的池化操作;$ {y}_{1} $$ {y}_{2} $分别表示通过卷积和池化操作得到的输出特征图,大小分别为H/2×W/2、H/4×W/4。

最后,将所有尺度的特征图融合在一起,通过带有BN和PReLU操作的卷积层,再和输入特征图$ x $相加。该过程可以表示为:

$ Z=\mathrm{H}\left(\mathrm{C}\mathrm{a}\mathrm{t}\left[{y}_{1}, \mathrm{U}{\mathrm{p}}_{1}\left({y}_{2}\right)\right]\right)+x $ (9)

其中:$ \mathrm{U}{\mathrm{p}}_{1} $表示一次上采样操作;$ \mathrm{C}\mathrm{a}\mathrm{t} $表示对特征图进行拼接,融合不同尺度的特征信息;$ Z $为通过结构细节残差融合块(SDRFB)输出的特征图;$ \mathrm{H} $表示包含Conv、Batch Norm和PReLU操作组成的运算,可以加速网络训练,加强特征的传播、减少模型参数,解决了深层网络的梯度消散和减少小样本的过拟合的问题。

1.4 损失函数

为定性和定量地提高图像质量,考虑图像的结构信息、感知信息和区域差异,本文将均方误差(Mean Square Error,MSE)、结构性相似度(Structural Similarity Index,SSIM)和梯度损失(Grad Loss,GL)结合起来作为图像增强模型的联合训练损失函数,其计算公式如下:

$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\mathrm{ }=\alpha \times {L}_{\mathrm{M}\mathrm{S}\mathrm{E}}+\beta \times {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}+\gamma \times {L}_{\mathrm{G}\mathrm{R}\mathrm{A}\mathrm{D}} $ (10)

MSE是网络训练时常用的回归损失函数,在训练过程中具有较好的收敛性,其计算公式为:

$ {L}_{\mathrm{M}\mathrm{S}\mathrm{E}}=\frac{1}{MN}\sum\limits _{i=0}^{N-1}\sum \limits_{j=0}^{M-1}\left[I\right(i, j)-K{(i, j)]}^{2} $ (11)

其中:I表示原始正常图像,大小为M×NK表示经过网络框架增强后的图像。

为弥补普通的均方误差无法衡量图片结构相似性的缺陷,本文加入了SSIM损失函数,其计算公式为:

$ {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}(x, y)=\frac{\left(2{\mu }_{x}{\mu }_{y}+{c}_{1}\right)\left(2{\sigma }_{xy}+{c}_{2}\right)}{\left({\mu }_{x}^{2}+{\mu }_{y}^{2}+{c}_{1}\right)\left({\sigma }_{x}^{2}+{\sigma }_{y}^{2}+{c}_{2}\right)} $ (12)

其中:$ {\mu }_{x} $$ {\mu }_{y} $分别为图像$ x $$ y $的均值;$ {\sigma }_{x}^{2} $$ {\sigma }_{y}^{2} $分别是图像$ x $$ y $的方差;$ {\sigma }_{xy} $表示图像$ x $$ y $的协方差;$ {c}_{1} $$ {c}_{2} $为默认调节参数。

为了避免网络在训练过程中陷入局部最优,在联合训练损失函数中加入梯度损失函数,计算公式为:

$ {L}_{\mathrm{G}\mathrm{R}\mathrm{A}\mathrm{D}}=\frac{1}{2}\cdot \left[\begin{array}{c}{\left({\nabla }_{x}{R}_{\mathrm{l}\mathrm{o}\mathrm{w}\mathrm{ }}-{\nabla }_{x}{R}_{\mathrm{h}\mathrm{i}\mathrm{g}\mathrm{h}}\right)}^{2}+{\nabla }_{y}{R}_{\mathrm{l}\mathrm{o}\mathrm{w}}-{\nabla }_{y}{R}_{\mathrm{h}\mathrm{i}\mathrm{g}\mathrm{h}}{)}^{2}\end{array}\right] $ (13)

其中:$ \nabla $是梯度算子,包含图像$ x $$ y $两个维度方向;$ {\nabla }_{x} $$ {\nabla }_{y} $分别表示水平和垂直方向的梯度。

2 实验与结果分析

将本文提出的基于U-Net的多尺度低照度图像增强网络MSU-LIIEN与现有经典方法进行对比评估,并对网络模型进行消融实验。

2.1 训练数据集

本文使用LOL-datasets和Brighting Train数据集作为训练数据集。LOL-datasets包括500个低/正常光图像对,有485对低光/正常光训练图像,15张低照度测试图像。Brighting Train数据集包含1 000对低照度和正常光照图像。实验平台配置Intel Xeon W-2102 2.90 GHz CPU、8 GB RAM和Nvidia 2080 GPU,实验程序在Tensorflow 1.15框架上运行,联合损失函数的权重参数设置为α=β=γ=1,利用学习率设置为1e-4的Adam优化模型对网络进行优化,整个网络训练次数为2 000次。

2.2 定量分析

基于LOL数据集,本文将MSU-LIIEN网络模型与9种经典低照度图像增强模型进行比较,传统模型为MSRCR[8]、DONG[12]、NPE[13]、SRIE[9]、MF[10]、BIMEF[14],深度学习模型为MBLLEN[18]、KinD[21]、RRDNet[25]图 4~图 6分别是从LOL数据集中选取的3张测试图像的实验结果对比图,其中细节部分用方框标出。可以看出:SRIE、BIMEF和RRDNet模型计算得到的图像在亮度和清晰度上均不理想;DONG、BIMEF、MF、NPE、MSRCR和SRIE方法都产生了大量噪声,导致主观效果欠佳;MSRCR模型使增强后的图像存在过曝的现象且伴有大量噪声;BIMEF、MBLLEN和KinD模型在其增强后的图像物体边缘会出现模糊现象,细节丢失严重;相比之下,本文提出的MSU-LIIEN模型不但能更好地提升增强图像的整体亮度,而且增强后的图像保持了丰富的物体细节信息和清晰的边缘轮廓,同时还能有效抑制噪声的产生。

Download:
图 4 Wardrobe图像实验结果对比 Fig. 4 Experimental results comparison of Wardrobe image
Download:
图 5 Natatorium图像实验结果对比 Fig. 5 Experimental results comparison of Nataorium image
Download:
图 6 Doll图像实验结果对比 Fig. 6 Experimental results comparison of Doll image

基于Brighting Train数据集,本文模型与3种基于深度学习的低照度图像增强模型进行对比,对比模型包括Retinex-Net[16]、KinD[21]、TBEFN[28]模型。图 7~图 9分别是从Brighting Train数据集中选取的3张测试图像的实验结果对比图,其细节部分用方框标出。由图 7可以看出:TBEFN的模型无法增强出其图像本身的色彩,增强后的图像整体呈现灰色黯淡的情况;拱门上面的奖杯出现灰度分布不均匀的现象,雕像侧边凹进去的墙壁边缘模糊;Retinex-Net模型在图像整体色彩恢复上较差,拱门上面的奖杯存在色彩失真的现象,侧边凹进去的墙壁边缘轮廓模糊不清;KinD模型可以把奖杯的色彩均匀的恢复出来,但图像的整体细节信息还是存在模糊的问题;本文提出的MSU-LIIEN模型可以较好地恢复出建筑物本身的色彩,且拱门上面的奖杯和侧边凹进去的墙面边界都能清晰地增强出来。由图 8可以看出:TBEFN模型仍旧没有把建筑物本身的色彩增强出来;Retinex-Net模型存在颜色失真、图像模糊的现象,屋顶建筑物的轮廓和屋檐与墙壁之间的分界处由于噪声的存在,导致图像模糊,且天空中的乌云分布不自然合理;KinD模型有伪影的现象发生,屋檐与天空的分界不明显,屋顶建筑物的轮廓也不清晰;本文的MSU-LIIEN模型能够使天空中的乌云的分布恢复得更自然一些,屋顶及屋顶建筑物的轮廓增强得较为清晰,且细节更加丰富,颜色丰富度较其他模型有明显的提高。由图 9可以看出:TBEFN模型使草地的颜色明显发生了明显退化,有很多小草的颜色没有恢复出来;Retinex-Net模型出现了大量的噪声,且两只鸟的色彩恢复较为单一;KinD模型存在细节模糊的现象,两只鸟的边缘轮廓模糊;相比之下,本文提出的MSU-LIIEN模型可以使两只鸟的边缘轮廓更加清晰,草地的颜色更加合理自然,且有效地抑制了噪声的产生。总体而言,本文模型取得了较好的效果。

Download:
图 7 Building1图像实验结果对比 Fig. 7 Experimental results comparison of Building1 image
Download:
图 8 Building2图像实验结果对比 Fig. 8 Experimental results comparison of Building2 image
Download:
图 9 Bird图像实验结果对比 Fig. 9 Experimental results comparison of Bird image
2.3 客观评价指标

本节实验采用图像质量客观评价指标来评估本文提出的MSU-LIIEN网络模型。选用的评价指标包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性(Structual Similarity,SSIM)、噪声质量评价(Noise Quality Measure,NQM)、信噪比(Signal-to-Noise Ratio,SNR)、视觉信息保真度(Visual Information Fidelity,VIF)以及信息保真度准则(Information Fidelity Criterion,IFC)来评价。PSNR值越大,表明图像的质量越好,失真越少;SSIM值越大,表明图像的质量越好,更符合人眼的评判标准;VIF、NQM和IFC越大,表明图像细节保留得越好。

表 1~表 3分别给出了对应LOL数据集中3幅测试图像的各种对比模型所得到的客观评价指标,其中,加粗数据为最优数据,下同。可以看出:在表 1中除了SSIM指标略低于KinD方法外,本文模型在其他评价指标上明显优于其他对比模型。在表 2中除了SSIM、VIF指标外,其他评价指标都是最优的,而且在PSNR、NQM、IFC、SNR指标上和图像处理速度上明显优于其他对比模型。在表 3中本文模型在所有评价指标上均明显优于其他对比模型。此外,在表 3中还给出了LOL数据集中全部15幅测试图像所对应各种模型的平均峰值信噪比(Average Peak Signal-to-Noise Ratio,AVG_PSNR)指标,可以看出,本文模型在该指标上也明显优于其他所有对比模型。由此看见,本文模型对低照度图像增强的效果在客观评价指标上明显优于其他9种对比模型,且图像的处理时间也为最短。

下载CSV 表 1 Cabinet图像评价指标 Table 1 Evaluation index of Cabinet image
下载CSV 表 2 Natatorium图像评价指标 Table 2 Evaluation index of Natatorium image
下载CSV 表 3 Doll图像评价指标 Table 3 Evaluation index of Doll image

表 4~表 6分别给出了对应Brighting Train数据集中3幅测试图像的各种对比模型所得到的客观评价指标。可以看出,在表 4~表 6中除了图像的运行时间外,其他评价指标均是本文模型最优,且在PSNR、SSIM、NQM、IFC、VIF和SNR指标上明显优于其他对比模型。此外,在表 6中还给出了Brighting Train数据集中全部测试图像所对应各种模型的平均峰值信噪比(AVG_PSNR)指标。可以看出,本文模型在该指标上也明显优于其他所有对比模型。由此看见,无论是在像素层面、结构层面还是在感知层面,本文网络模型的图像增强质量均优于其他所有对比模型。

下载CSV 表 4 Building1图像评价指标 Table 4 Evaluation index of Building1 image
下载CSV 表 5 Builling2图像评价指标 Table 5 Evaluation index of Building2 image
下载CSV 表 6 Bird图像评价指标 Table 6 Evaluation index of Bird image
2.4 消融实验

对MSU-LIIEN网络模型中各个网络模块进行消融实验,本实验采用LOL数据集。为公平比较,实验均在相同设置下进行训练。为了验证本文引入的结构细节残差融合块(SDRFB)和特征金字塔网络(FPN)的有效性,每次训练分别移除其中一个网络模块来进行消融实验。

图 10所示为从LOL_datasets选出的3张测试图像。可以看出,去掉SDRFB模块的网络模型在颜色丰富度上没有基础模型好,去掉FPN的网络模型在细节恢复上不够理想,物体的边缘轮廓较为模糊。

Download:
图 10 消融实验结果对比 Fig. 10 Results comparison of ablation experiment

表 7给出了采用LOL数据集中“Doll”图像和“Room”图像来进行消融实验所得到的客观评价指标。其中,AVG_PSNR和AVG_SSIM(Average Structural Similarity,AVG_SSIM)是采用LOL数据集中所有15幅测试图像所得到的平均峰值信噪比和平均结构相似度。从表 7中可以看出,本文引入SDRFB模块和FPN能够有效提升低照度图像的增强效果,AVG_PSNR和AVG_SSIM指标有明显提升。加入FPN后,AVG_PSNR指标提升了4.95%,AVG_SSIM指标提升了1.19%;而加入SDRFB模块后,AVG_PSNR指标提升了23.02%,AVG_SSIM指标提升了3.66%。

下载CSV 表 7 消融实验指标对比 Table 7 Indexes comparison of ablation experiment

图 11(a)图 11(b)分别为各消融实验每隔200次迭代所得到的平均PSNR值和平均SSIM值的变化情况。可以看出,在每200次迭代中,均值PSNR及均值SSIM指标均是本文模型最好,因此,本文的基础模型能够取得最好的结果。

Download:
图 11 消融实验PSNR、SSIM指标对比折线图 Fig. 11 Line chart of comparison of PSNR and SSIM in ablation experiment
3 结束语

本文提出一种基于U-Net的多尺度低照度图像增强网络(MSU-LIIEN),在网络训练过程中采用融合的策略对网络进行端对端的有监督学习,以促进网络模型融合更多的图像特征信息。由于网络中3个分支都采用U-Net作为骨干网,因此MSU-LIIEN能够充分捕捉相隔较远图像区域间的特征信息,提取更丰富的语义信息,从而有利于恢复图像的整体结构,增强图像亮度。此外,MSU-LIIEN模型中嵌入的SDRFB模块能够更好地聚合上下纹理信息,捕获更详细的图像特征信息,提高网络模型精度。实验结果表明,与KinD、MSRCR、NPE、MBLLEN等模型相比,本文模型在增强图像亮度的同时能保持更多的图像结构和纹理信息,而且可以有效抑制噪声的产生。MSU-LIIEN模型只适用于静态低照度图像处理,下一步拟将其应用范围扩展到低照度视频增强领域。

参考文献
[1]
YUN S H, KIM J H, KIM S. Image enhancement using a fusion framework of histogram equalization and Laplacian pyramid[J]. IEEE Transactions on Consumer Electronics, 2010, 56(4): 2763-2771. DOI:10.1109/TCE.2010.5681167
[2]
SENTHILKUMARAN N, THIMMIARAJA J. Histogram equalization for image enhancement using MRI brain images[C]//Proceedings of World Congress on Computing and Communication Technologies. Washington D.C., USA: IEEE Press, 2014: 80-83.
[3]
SURESHA M, RAGHUKUMAR D S, KUPPA S. Kumaraswamy distribution based Bi-histogram equalization for enhancement of microscopic images[J]. International Journal of Image and Graphics, 2022, 22(1): 1-10.
[4]
SINGH P, MUKUNDAN R, DE RYKE R. Feature enhancement in medical ultrasound videos using contrast-limited adaptive histogram equalization[J]. Journal of Digital Imaging, 2020, 33(1): 273-285. DOI:10.1007/s10278-019-00211-5
[5]
YE H M, SU K Q, HUANG S M. Image enhancement method based on bilinear interpolating and wavelet transform[C]//Proceedings of the 5th Advanced Information Technology, Electronic and Automation Control Conference. Washington D.C., USA: IEEE Press, 2021: 1147-1150.
[6]
KAUR K, JINDAL N, SINGH K. Fractional Fourier transform based Riesz fractional derivative approach for edge detection and its application in image enhancement[J]. Signal Processing, 2021, 180: 1-10.
[7]
YANG M X, TANG G J, LIU X H, et al. Low-light image enhancement based on Retinex theory and dual-tree complex wavelet transform[J]. Optoelectronics Letters, 2018, 14(6): 470-475. DOI:10.1007/s11801-018-8046-5
[8]
RAHMAN Z, JOBSON D J, WOODELL G A. Multi-scale Retinex for color image enhancement[C]//Proceedings of the 3rd IEEE International Conference on Image Processing. Washington D.C., USA: IEEE Press, 1996: 1003-1006.
[9]
FU X Y, ZENG D L, HUANG Y, et al. A weighted variational model for simultaneous reflectance and illumination estimation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2782-2790.
[10]
FU X Y, ZENG D L, HUANG Y, et al. A fusion-based enhancing method for weakly illuminated images[J]. Signal Processing, 2016, 129: 82-96. DOI:10.1016/j.sigpro.2016.05.031
[11]
张聿, 刘世光. 基于分区曝光融合的不均匀亮度视频增强[J]. 计算机辅助设计与图形学学报, 2017, 29(12): 2317-2322.
ZHANG Y, LIU S G. Non-uniform illumination video enhancement based on zone system and fusion[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(12): 2317-2322. (in Chinese)
[12]
DONG X, WANG G, PANG Y, et al. Fast efficient algorithm for enhancement of low lighting video[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D.C., USA: IEEE Press, 2011: 1-6.
[13]
WANG S H, ZHENG J, HU H M, et al. Naturalness preserved enhancement algorithm for non-uniform illumination images[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3538-3548. DOI:10.1109/TIP.2013.2261309
[14]
YING Z Q, LI G, GAO W. A bio-inspired multi-exposure fusion framework for low-light image enhancement[EB/OL]. [2021-02-10]. https: //arxiv.org/abs/1711.00591.
[15]
LORE K G, AKINTAYO A, SARKAR S. LLNet: a deep autoencoder approach to natural low-light image enhancement[J]. Pattern Recognition, 2017, 61: 650-662. DOI:10.1016/j.patcog.2016.06.008
[16]
江泽涛, 伍旭, 张少钦. 一种基于MR-VAE的低照度图像增强方法[J]. 计算机学报, 2020, 43(7): 1328-1339.
JIANG Z T, WU X, ZHANG S Q. Low-illumination image enhancement based on MR-VAE[J]. Chinese Journal of Computers, 2020, 43(7): 1328-1339. (in Chinese)
[17]
WEI C, WANG W J, YANG W H, et al. Deep Retinex ecomposition for low-light enhancement[EB/OL]. [2021-02-10]. https://arxiv.org/abs/1808.04560.
[18]
LÜF F, LU F, WU J H, et al. MBLLEN: low-light image/video enhancement using CNNs[C]//Proceedings of BMVC'18. Washington D.C., USA: IEEE Press, 2018: 220.
[19]
LIU S G, ZHANG Y. Detail-preserving underexposed image enhancement via optimal weighted multi-exposure fusion[J]. IEEE Transactions on Consumer Electronics, 2019, 65(3): 303-311. DOI:10.1109/TCE.2019.2893644
[20]
马红强, 马时平, 许悦雷, 等. 基于深度卷积神经网络的低照度图像增强[J]. 光学学报, 2019, 39(2): 91-100.
MA H Q, MA S P, XU Y L, et al. Low-light image enhancement based on deep convolutional neural network[J]. Acta Optica Sinica, 2019, 39(2): 91-100. (in Chinese)
[21]
ZHANG Y H, ZHANG J W, GUO X J. Kindling the darkness: a practical low-light image enhancer[C]//Proceedings of the 27th ACM International Conference on Multimedia. New York, USA: ACM Press, 2019: 1632-1640.
[22]
ZHANG Y H, GUO X J, MA J Y, et al. Beyond brightening low-light images[J]. International Journal of Computer Vision, 2021, 129(4): 1013-1037. DOI:10.1007/s11263-020-01407-x
[23]
LIU Y J, WANG Z N, ZENG Y, et al. PD-GAN: perceptual-details GAN for extremely noisy low light image enhancement[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2021: 1840-1844.
[24]
陈榆琅, 高晶敏, 张科备, 等. 基于生成对抗网络的空间卫星低照度图像增强[J]. 中国空间科学技术, 2021, 41(3): 16-23.
CHEN Y L, GAO J M, ZHANG K B, et al. Low-light image enhancement of space satellites based on GAN[J]. Chinese Space Science and Technology, 2021, 41(3): 16-23. (in Chinese)
[25]
ZHU A Q, ZHANG L, SHEN Y, et al. Zero-shot restoration of underexposed images via robust retinex decomposition[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Washington D.C., USA: IEEE Press, 2020: 1-6.
[26]
XU Y D, YANG C, SUN B B, et al. A novel multi-scale fusion framework for detail-preserving low-light image enhancement[J]. Information Sciences, 2021, 548: 378-397.
[27]
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 936-944.
[28]
LU K, ZHANG L H. TBEFN: a two-branch exposure-fusion network for low-light image enhancement[J]. IEEE Transactions on Multimedia, 2021, 23: 4093-4105. DOI:10.1109/TMM.2020.3037526