开放科学(资源服务)标志码(OSID):
红外图像通过物体的热辐射信息成像得到,具有显著区别于周围环境的目标信息。可见光图像通过物体反光成像得到,具有较丰富的背景细节信息。红外与可见光图像的融合能够克服单一传感器获得的图像信息不足的缺点。因此,红外与可见光图像融合广泛应用在人脸识别、遥感、目标检测、目标跟踪 [1-3]等领域。
传统的红外与可见光图像融合方法主要有多尺度变换、稀疏表示、混合模型等。文献[4]提出基于目标增强的多尺度变换分解模型,该方法使用拉普拉斯变换将配准的源图像分解为高频和低频成分后,根据分解后的红外低频信息确定融合权重,通过正则化参数控制红外特征的比例,同时利用拉普拉斯逆变换重建融合图像。文献[5]提出一种混合模型驱动的融合方法,将源图像分解为显著子带和基础子带后,根据子带的特点采用不同的融合方法得到融合图像,具有较优的融合效果。随着深度学习的发展,越来越多的深度学习方法应用于图像融合领域。文献[6]提出一种基于神经网络CNN的融合方法。该方法利用训练好的卷积神经网络提取源图像的特征,通过手动设计融合规则得到融合图像。文献[7]提出基于生成对抗网络(Generative Adversarial Network,GAN)的融合方法Fusion GAN,将各源图像一起作为GAN的输入,生成器提取特征并生成初步融合图像,判别器调整生成器,使得融合图像中有更多的可见光信息。Fusion GAN生成的融合图像中包含红外图像的目标信息和可见光图像的背景信息,但是缺少细节信息,并且清晰度较低。文献[8]提出一种基于Wasserstein距离的融合网络D2WGAN。在D2WGAN中,使用2个判别器使得训练过程变得复杂。融合图像虽然具有较高的对比度,但是视觉效果较差,且图像比较模糊。
注意力机制能够充分利用图像的关键信息,并忽略不相关的信息。本文提出基于注意力与残差级联的红外与可见光图像融合方法。采用层次特征融合模块提取源图像中的层次特征,通过特征解码融合模块融合层次特征并生成融合图像,使用谱归一化技术提高GAN训练稳定性,生成具有红外图像显著目标和可见光图像丰富背景细节的融合图像。
1 相关工作 1.1 注意力机制近年来,注意力机制广泛应用于图像处理领域。针对图像分类问题,文献[9]提出一种SE(Squeeze-and-Excitation)的网络结构,通过Squeeze和Excitation这2个部分来学习并加权特征。SE结构的原理是通过增大有用特征的权重值并抑制无用特征的权重值来提高网络提取特征的能力。文献[10]提出一种残差注意力的网络结构,在每个注意力模块中都增加掩膜分支。主干分支使用残差网络结构提取特征,掩膜分支将降采样和上采样相结合,并将其与高低维度的特征组合,得到掩膜权重,以提升网络提取高频特征的能力。在红外与可见光图像融合的过程中需要提取大量的细节信息,因此,本文依据这2种网络结构,并在文献[11]的基础上构建新的模块。
1.2 谱归一化生成对抗网络针对传统GAN在训练中存在模式崩溃和不收敛的问题,文献[12]提出基于Wasserstein距离的GAN,增大GAN训练时的稳定性,其主要原理是使用Wasserstein距离代替GAN的JS (Jensen Shannon)距离来求得2个分布的距离,因此经过改进后的GAN称为WGAN。WGAN的计算如式(1)所示:
$ \underset{G}{\mathrm{m}\mathrm{i}\mathrm{n}}\underset{D}{\mathrm{m}\mathrm{a}\mathrm{x}}={E}_{x\sim {p}_{\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{a}}\left(x\right)}\left[\mathrm{l}\mathrm{g}D\left(x\right)\right]+{E}_{z~{p}_{z}\left(z\right)}\left[\mathrm{l}\mathrm{g}D\left(G\left(z\right)\right)\right] $ | (1) |
WGAN在判别器的参数矩阵上增加了Lipschitz约束,但是该方法容易破坏参数之间的比例关系,导致网络的梯度丢失。SNGAN[13](Spectral Normalization GAN)设计既满足Lipschitz约束,又不破坏矩阵结构。多层神经网络可以看成是多个复合函数的嵌套,因此神经网络可以简写为:
$ f\left(x, \theta \right)={\boldsymbol{W}}^{L+1}{a}_{L}\left({\boldsymbol{W}}^{L}\right({a}_{L-1}\left({\boldsymbol{W}}^{L-1}\right(\cdots {a}_{1}\left({\boldsymbol{W}}^{1}x\right)\cdots \left)\right)\left)\right) $ | (2) |
激活函数均满足1-Lipschitz条件,要使整个网络满足1-Lipschitz条件,只需让每层的矩阵W满足即可。因此,对每层矩阵W进行谱归一化操作即可满足1-Lipschitz,谱归一化操作如式(3)所示:
$ \boldsymbol{W}:=\boldsymbol{W}/\sigma \left(\boldsymbol{W}\right) $ | (3) |
其中:
$ \sigma \left(\boldsymbol{W}\right):=\underset{x:x\ne 0}{\mathrm{m}\mathrm{a}\mathrm{x}}\frac{{‖\boldsymbol{W}x‖}_{2}}{{‖x‖}_{2}}=\underset{{‖x‖}_{2}\le 1}{\mathrm{m}\mathrm{a}\mathrm{x}}{‖\boldsymbol{W}x‖}_{2} $ | (4) |
通过对神经网络进行谱归一化操作后,神经网络的梯度被限制在一个范围内,从而增强GAN的训练稳定性。
2 基于注意力与残差级联的融合方法本文网络架构基于GAN原理,分为生成器和判别器2个网络结构。本文的网络架构如图 1所示。
![]() |
Download:
|
图 1 本文网络架构 Fig. 1 Framework of the proposed network |
在模型训练中,红外图像、可见光图像、调节图像及这3个图像的梯度一起作为生成器的输入,生成器得到输入图像后直接生成初始融合图像。得到调节图像的方法如式(5)所示:
$ R=wI\left(x, y\right)+\left(1-w\right)V\left(x, y\right) $ | (5) |
其中:R为调节图像;I和V分别为红外图像与可见光图像;w为权重,在本文中w设置为0.4;
传统的融合网络通过卷积神经网络直接融合特征,但是在网络结构过深时,存在丢失信息的问题。针对该问题,文献[14]提出一种新的改进嵌套连接结构。本文生成器网络主要由提取浅层特征的卷积块、基于注意力与残差级联的层次特征提取模块(Hierarchical Feature Extract Block,HFEB)、特征解码融合的模块(Decoder ConvBlock,DCB)组成。整体生成器结构如图 2所示。
![]() |
Download:
|
图 2 生成器结构 Fig. 2 Generator structure |
在深层神经网络传递的过程中不断损失特征信息,最后的特征融合部分会丢失源图像的信息。为解决该问题,本文构建一种残差连接结构。每层HFEB得到的输入都是前面HFEB模块的输出与浅层提取特征的级联,每层HFEB的计算如式(6)所示:
$ {X}_{n}={f}_{\mathrm{H}\mathrm{F}\mathrm{E}\mathrm{B}}\left(C\right({X}_{n-1}, {X}_{n-2}, \cdots , X\left)\right) $ | (6) |
其中:fHFEB为HFEB模块;C为连接操作;Xn-1为每个HFEB的输出。在每个HFEB中,输入特征先经过一个3×3的卷积层,再输入到EM(Extract and Mask)模块中提取高频特征。
受文献[11]启发,在超分辨率重建任务中,采用掩码注意力网络提取图像的细节信息。本文对掩码注意力网络进行改进,用于提取红外和可见光图像中的高频信息。在每个EM模块中,输入图像的信息先经过一次通道注意力SE模块,以加权重要通道的信息,并且减小不重要信息的比重。经过加权的特征信息再分别输入到特征提取模块和基于注意力的掩码模块,其结构如图 3所示。
![]() |
Download:
|
图 3 特征提取与掩码模块 Fig. 3 Feature extraction and mask module |
特征提取模块主要用于提取源图像中的高频信息。本文借鉴文献[11]的结构来提取红外与可见光源图像中的高频信息。输入的中间特征x经过上采样得到
$ {x}_{\mathrm{u}\mathrm{p}}^{0}={f}_{\uparrow }\left(x\right) $ | (7) |
$ {x}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{0}={f}_{\downarrow }\left({x}_{\mathrm{u}\mathrm{p}}^{0}\right) $ | (8) |
将
$ {x}_{\mathrm{u}\mathrm{p}}^{1}={f}_{\uparrow }\left({x}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{0}-x\right) $ | (9) |
$ {x}_{\mathrm{o}\mathrm{u}\mathrm{t}}={f}_{\downarrow }\left({x}_{\mathrm{u}\mathrm{p}}^{0}+{x}_{\mathrm{u}\mathrm{p}}^{1}\right) $ | (10) |
经过2次上采样和卷积后,红外与可见光图像的高频细节信息被最大限度提取。
EM模块的另一个分支是掩码注意力模块,其设计思路基于文献[15],其结构如图 4所示。
![]() |
Download:
|
图 4 掩码注意力模块 Fig. 4 Mask attention module |
在掩码注意力模块内,输入的特征通过3×3卷积和PReLU函数激活后,再经过平均池化对通道信息进行压缩,经过2次1×1的卷积,在每个卷积层后都有一个PReLU层,最后使用Softmax函数加权特征通道。
2.1.2 特征解码融合模块特征解码融合模块由卷积层组成,每个DCB模块由2个卷积层组成,每个卷积层后面都利用ReLU函数进行激活。
2.2 判别器结构判别器是一个二分类网络,其网络结构如表 1所示。表中I(Input)表示输入通道数,O(Output)表示输出通道数,K(kernel_size)表示卷积核尺寸,S(stride)表示步长,P(padding)表示填充大小。
![]() |
下载CSV 表 1 判别器结构 Table 1 Discriminator structure |
判别器是用于判别输入图像是生成图像还是预融合图像的概率,由8个卷积层组成,在每个卷积层的后面都使用LeakyReLU函数进行激活,并保持梯度,在网络的最后一层采用PatchGAN综合考虑图像中不同部分的影响,使得模型的感受野更大,判别器的准确率更高。
2.3 损失函数生成器的损失由对抗损失、融合图像与预融合图像的内容损失、融合图像与可见光图像的结构强度损失、融合图像与红外图像的梯度损失4个部分组成,如式(11)所示:
$ {L}_{G}=\alpha {L}_{\mathrm{a}\mathrm{d}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{s}}\left(G\right)+\lambda {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}}^{\mathrm{p}\mathrm{r}\mathrm{e}}+{\beta }_{1}{L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}^{v}+{\beta }_{2}{L}_{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}}^{i} $ | (11) |
1) 生成器的对抗损失采用SNGAN的损失计算方法,其计算公式如式(12)所示:
$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{s}}\left(G\right)=-{\mathbb{E}}_{{I}_{f}\sim {P}_{If}}\left[D\left({I}_{f}\right)\right] $ | (12) |
其中:If为融合图像;PIf为融合图像的分布。
2) 融合图像与预融合图像的内容损失如式(13)所示:
$ {L}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}}^{\mathrm{p}\mathrm{r}\mathrm{e}}=\frac{1}{WH}\sum\limits _{i=1}^{W}\sum \limits_{j=1}^{H}{\left({\varphi }_{\mathrm{p}\mathrm{r}{\mathrm{e}}_{\left(i, j\right)}}-{\varphi }_{{f}_{\left(i, j\right)}}\right)}^{2} $ | (13) |
其中:
3) 通过SSIM损失计算融合图像与可见光图像之间的结构强度损失,如式(14)所示:
$ {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}^{v}=1-\mathrm{M}\mathrm{S} - \mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}\left(F, P\right) $ | (14) |
其中:F为融合图像;P为预融合图像。本文采用多尺度结构强度损失计算结构强度损失。
4) 融合图像与红外图像之间的损失是梯度损失,如式(15)所示:
$ {L}_{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}}^{i}=\frac{1}{WH}{‖\nabla {I}_{f}-\nabla {I}_{i}‖}^{2} $ | (15) |
其中:
损失函数的参数设置为:α为0.005,γ为100,β1和β2为5。
3 实验与结果分析本文从公开数据集INO[16]和TNO[17]中选取配准的红外与可见光图像进行实验。基于文献[16],本文选取INO数据集中具有红外和可见光的视频,并进行帧拆分得到295对红外与可见光图像,通过STDFusionNet[18]方法得到预融合图像,并将其作为训练数据集。针对数据量不足的问题,在训练中每次都从源图像中随机截取128×128像素的图像进行训练。由于源图像中可见光图像的对比度较低,因此本文在训练中使用对比度受限的直方图均衡[19](Contrast Limited Adaptive Histogram Equalization,CLAHE)对可见光图像进行处理,得到对比度分明的可见光图像。本文实验环境:CPU为Intel I7-6 800K处理器,主频为3.4 GHz,内存为32 GB,显卡为NVIDIA GeForce GTX1080Ti,操作系统为ubuntu16.04,Pytorch框架。本文的训练参数设置如下:优化器为Adam,学习速率为0.000 2,Batch Size为32,Epoch为2 000。
本文从TNO数据集中选取21对红外与可见光图像进行实验,并与其他5种方法得到的图像进行对比。所有对比实验的代码和参数都基于公开的实验代码。
3.1 主观评价本文方法与FusionGAN、LP[20](Laplacian Pyramid Transform)、GANMcc[21]、NestFuse[14]和STDFusionNet[18]方法的红外与可见光融合结果对比如图 5~图 7所示。
![]() |
Download:
|
图 5 不同方法的融合结果对比1 Fig. 5 Fusion results comparison 1 among different methods |
![]() |
Download:
|
图 6 不同方法的融合结果对比2 Fig. 6 Fusion results comparison 2 among different methods |
![]() |
Download:
|
图 7 不同方法的融合结果对比3 Fig. 7 Fusion results comparison 3 among different methods |
从图 5可以看出,基于FusionGAN得到的融合图像缺乏细节信息,对于可见光图像的细节纹理完全缺失,只有轮廓信息。基于LP方法得到的融合图像对比度较低,并且图像的噪声较多。基于GANMcc得到的融合图像与FusionGAN相似,提取较少的可见光图像细节信息,没有地面和树叶的纹理信息。基于NestFuse得到的融合图像的整体亮度不够,图像的细节纹理稀少。基于STDFusionNet得到的融合图像亮度较低,图像的整体视觉效果较差。本文方法能够有效提取可见光图像的亮度和细节信息,其融合图像具有明显的树叶地面等细节信息,视觉效果显著提升。
从图 6可以看出,基于FusionGAN得到的融合图像较灰暗,对比度不够鲜明,且较为模糊。基于LP、GANMcc、NestFuse得到的融合图像较接近,但是这三者对可见光图像提取的信息都较少且路边的障碍物也没有表现出来;基于STDFusionNet得到的融合图像整体亮度较低,与本文方法的融合结果相比,缺少较多的可见光细节纹理信息。
从图 7可以看出,基于FusionGAN和GANMcc的融合图像整体偏暗,图像背景区域缺少纹理。基于LP和NestFuse的融合图像整体视觉效果较灰暗,其背景区域同样缺少纹理。基于STDFusionNet的融合图像对比度鲜明,其目标较为显著,但是与本文方法的融合结果相比,人物旁边树叶的清晰度较低,缺失树叶的纹理等细节信息。
3.2 客观评价本文选取信息熵(EN)、标准差(SD)、互信息(MI)、空间频率(SF)和多尺度结构相似度(MS-SSIM)这5个指标对得到的融合图像进行客观评价。EN越大说明融合图像中的信息量越大,保留的图像细节越多。SD和SF越大说明图像的质量越高。MI衡量图像之间的相似程度,MI越大说明融合图像保留源图像的信息越多,图像质量越好。MS-SSIM衡量图像与源图像的相似性。所有指标为融合图像的平均评估结果。不同融合方法的评价指标对比如表 2所示。
![]() |
下载CSV 表 2 不同融合方法的评价指标对比 Table 2 Evaluation indexs comparison among different fusion methods |
从表 2可以看出,本文方法在EN、SD、MI和SF这4个指标上明显优于其他融合方法,表明本文方法保留了较丰富的源图像信息,并且生成图像的视觉效果较优。本文方法的MS-SSIM指标较低,其原因为源图像中可见光图像整体亮度和对比度较低,而融合图像的图像对比度较高,整体细节纹理信息较多,因此图像与源图像的结构相似度较低。
本文通过计算网络参数的数量来评估各融合方法的空间复杂度,由于各方法使用的网络架构不同,基于生成对抗网络的方法在测试时只需要生成器,因此本文仅计算测试时各方法的性能参数。在2种数据集上,不同融合方法的测试时间和参数量对比如表 3所示。时间复杂度通过计算各方法的实际运行时间进行评估,所有方法的运行时间都是测试集上的平均时间。本文方法能够改善融合效果,并且提高运行效率。
![]() |
下载CSV 表 3 不同融合方法的测试时间和参数量对比 Table 3 Test time and parameter quantity comparison among different fusion methods |
本文提出基于生成对抗网络的红外与可见光图像融合方法。通过构建结合注意力与残差机制的生成器,融合从源图像中提取的层次特征,同时利用注意力机制提高网络提取特征的能力,采用谱归一化技术提高生成对抗网络训练的稳定性。实验结果表明,相比FusionGAN、LP、STDFusionNet等融合方法,该方法能够充分提取源图像的信息,改善融合效果,并且生成高质量的融合图像。后续将研究更有效的损失函数,以降低网络的复杂度,使本文方法适用于实际场景。
[1] |
SINGH S, GYAOUROVA A, BEBIS G, et al. Infrared and visible image fusion for face recognition[EB/OL]. [2021-05-07]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=12F273C9531B20ED4AE12509A4F42504?doi=10.1.1.9.5885&rep=rep1&type=pdf.
|
[2] |
SIMONE G, FARINA A, MORABITO F C, et al. Image fusion techniques for remote sensing applications[J]. Information Fusion, 2002, 3(1): 3-15. DOI:10.1016/S1566-2535(01)00056-2 |
[3] |
MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]. Information Fusion, 2019, 45: 153-178. DOI:10.1016/j.inffus.2018.02.004 |
[4] |
CHEN J, LI X J, LUO L B, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]. Information Sciences, 2020, 508: 64-78. DOI:10.1016/j.ins.2019.08.066 |
[5] |
沈瑜, 陈小朋, 刘成, 等. 基于混合模型驱动的红外与可见光图像融合[J]. 控制与决策, 2021, 36(9): 2143-2151. SHEN Y, CHEN X P, LIU C, et al. Infrared and visible image fusion based on hybrid model driving[J]. Control and Decision, 2021, 36(9): 2143-2151. (in Chinese) |
[6] |
LIU Y, CHEN X, CHENG J, et al. Infrared and visible image fusion with convolutional neural networks[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 16(3): 1-10. |
[7] |
MA J Y, YU W, LIANG P W, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI:10.1016/j.inffus.2018.09.004 |
[8] |
LI J, HUO H T, LIU K J, et al. Infrared and visible image fusion using dual discriminators generative adversarial networks with Wasserstein distance[J]. Information Sciences, 2020, 529: 28-41. DOI:10.1016/j.ins.2020.04.035 |
[9] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
|
[10] |
WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6450-6458.
|
[11] |
陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建[J/OL]. 自动化学报: 1-11[2021-07-30]. https://doi.org/10.16383/j.aas.c200035. CHEN Y M, ZHOU D W. Super-resolution reconstruction of attention network based on adaptive cascade[J/OL]. Acta Automatica Sinica: 1-11[2021-07-30]. https://doi.org/10.16383/j.aas.c200035. (in Chinese) |
[12] |
ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning. New York, USA: ACM Press, 2017: 214-223.
|
[13] |
MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[EB/OL]. [2021-05-07]. https://arxiv.org/pdf/1802.05957.pdf.
|
[14] |
LI H, WU X J, DURRANI T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656. DOI:10.1109/TIM.2020.3005230 |
[15] |
蔡体健, 彭潇雨, 石亚鹏, 等. 通道注意力与残差级联的图像超分辨率重建[J]. 光学精密工程, 2021, 29(1): 142-151. CAI T J, PENG X Y, SHI Y P, et al. Channel attention and residual concatenation network for image super-resolution[J]. Optics and Precision Engineering, 2021, 29(1): 142-151. (in Chinese) |
[16] |
陈卓, 方明, 柴旭, 等. 红外与可见光图像融合的U-GAN模型[J]. 西北工业大学学报, 2020, 38(4): 904-912. CHEN Z, FANG M, CHAI X, et al. U-GAN model for infrared and visible images fusion[J]. Journal of Northwestern Polytechnical University, 2020, 38(4): 904-912. (in Chinese) DOI:10.3969/j.issn.1000-2758.2020.04.027 |
[17] |
ALEXANDER T. TNO image fusion dataset[EB/OL]. [2021-05-07]. https://figshare.com/articles/TNO-Image-Fusion-Dataset/1008029.
|
[18] |
MA J Y, TANG L F, XU M L, et al. STDFusionNet: an infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13. |
[19] |
刘佳, 李登峰. 马氏距离与引导滤波加权的红外与可见光图像融合[J]. 红外技术, 2021, 43(2): 162-169. LIU J, LI D F. Infrared and visible light image fusion based on mahalanobis distance and guided filter weighting[J]. Infrared Technology, 2021, 43(2): 162-169. (in Chinese) |
[20] |
BURT P J, ADELSON E H. The Laplacian pyramid as a compact image code[J]. IEEE Transactions on Communications, 1983, 31(4): 532-540. DOI:10.1109/TCOM.1983.1095851 |
[21] |
MA J Y, ZHANG H, SHAO Z F, et al. GANMcc: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-14. |