引入独立融合分支的双模态语义分割网络

引用本文

田乐, 王欢. 引入独立融合分支的双模态语义分割网络[J]. 计算机工程, 2022, 48(8), 240-248, 257. DOI: 10.19678/j.issn.1000-3428.0062066.

TIAN Le, WANG Huan. Dual-Mode Semantical Segmentation Network with an Independent Fusion Branch[J]. Computer Engineering, 2022, 48(8), 240-248, 257. DOI: 10.19678/j.issn.1000-3428.0062066.

基金项目

国家自然科学基金（61703209）

通信作者

王欢(通信作者), 副教授

作者简介

田乐(1996-), 男, 硕士研究生, 主研方向为计算机视觉、图像处理、人工智能

文章历史

收稿日期：2021-07-13
修回日期：2021-09-18

Contents Abstract Full text Figures/Tables PDF

引入独立融合分支的双模态语义分割网络

田乐 , 王欢

南京理工大学计算机科学与工程学院, 南京 210094

收稿日期：2021-07-13；修回日期：2021-09-18

基金项目：国家自然科学基金（61703209）

作者简介：田乐(1996-), 男, 硕士研究生, 主研方向为计算机视觉、图像处理、人工智能.

通信作者：王欢(通信作者), 副教授.

E-mail: 119106021993@njust.edu.cn

摘要：基于可见光、红外双模态数据的场景语义分割在多种复杂环境下较单模态分割显现出更好的性能，然而，获取较好分割效果的前提条件是可见光相机和红外热像仪的成像均清晰。真实场景中存在较多不利的环境因素，如恶劣的光照和天气会对可见光或红外产生不同程度的干扰，从而限制了基于双模态语义分割方法的性能表现。为解决该问题，建立一种改进的双模态语义分割模型。在双流网络架构的基础上增加红外与可见光的像素级融合模块，将其作为一个独立的分支网络并与可见光、红外2个已有分支进行特征级融合，从而实现双模态的像素级和特征级融合。此外，在融合分支中增加空间、通道注意力机制，以挖掘双模态在像素级上的互补特征。实验结果表明，在MF和FR-T这2个公开数据集上，该模型的mIoU指标相比性能表现次优的RTFNet-50模型分别提高6.5和0.6个百分点，且在双模态图像降质和失效时依然具有良好的分割性能。

Dual-Mode Semantical Segmentation Network with an Independent Fusion Branch

TIAN Le , WANG Huan

School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China

Abstract: Scene semantic segmentation based on visible and infrared dual-mode data typically shows better performance than single-mode segmentation in a variety of complex environments.However, the precondition for obtaining better segmentation results is that the images of a visible camera and infrared thermal imager should be clear. Many unfavorable environmental factors are present in real scenes, including bad light and weather, which interfere with visible or infrared light to varying degrees.These factors limit the performance of the dual-mode semantic segmentation method.To solve this problem, an improved dual-mode semantic segmentation model is developed in this study.Based on the dual-stream network architecture, a pixel-level fusion module of infrared and visible light is added to the model.This is regarded as an independent branch network and is fused at the feature level with the two existing branches of visible and infrared light, enabling dual-mode pixel-level and feature-level fusion to be realized.In addition, spatial and channel attention mechanisms are added to the fusion branches to mine the complementary features of the two modes at the pixel-level.Experimental results show that the mIoU index of the model is 6.5 and 0.6 percentage points higher than that of the RTFNet-50 model with the second highest mIoU on the two public datasets of MF and FR-T, respectively.The model also exhibits good segmentation performance under dual-mode image degradation and failure.

开放科学（资源服务）标志码（OSID）：

0 概述

在全天时条件下的语义分割任务中，恶劣光照、雨雪等天气条件会对可见光和热红外相机成像造成不同程度的干扰，因此，有很多研究人员联合可见光和红外热图像的信息^[1-2]来设计双模态语义分割方法。可见光和热红外相机具有多种可以互补的优势，例如，在白天场景下，可见光相机分辨率高，成像清晰；在黑夜环境中，热红外不受低光照的影响，并且具有穿透雾霾等遮挡物的能力，在恶劣场景下依然能够观测到车辆、行人等与背景有温度差异的目标。通过互补这2个传感器的信息，能够提升全天时的道路场景语义分割性能。但是，SUN等^[3]指出直接合并可见光、红外图像的所有通道信息作为网络模型的输入时效果并不好，有些甚至不如单模态网络，造成该现象的原因主要与双模态数据的差异性有关。

针对上述问题，主流方法大都采用2支编码器来提取双模态图像的特征，然后对相同级别的特征图进行融合，以此来互补双模态信息。文献[4-5]中提出的多模态融合网络均是采用对应元素相加的方式组合每个模态的特征，但是这些研究并没有在双模态特征的选择上表现出倾向性，当遇到双模态图像包含的信息量严重失衡时，方法的效果将下降，例如，当相机视野内所有物体的温度差异很小时，热图像的信息量就很有限；在光照强烈或严重不足时，RGB相机产生的图像会出现大面积白色或黑色等无效信息。文献[6]针对元素相加融合双模态信息的方法进行改进，在网络中加入模态加权融合层以加强对融合特征图的模态选择，该方法能够在夜间光照缺乏时检测出行人目标。根据双模态图像所包含信息量的多少来自适应地将更高的权重赋予信息量贡献更大的模态图像，有利于更好地完成分割任务。

为了有效融合可见光谱与红外谱段信息来实现图像语义分割，本文提出一种双模态深度神经网络。在双流网络架构的基础上，增加一支包含自适应图像融合模块的独立融合子网络，该子网络能够通过空间、通道注意力机制对双模态特征进行空间和通道上的显著性分析，以自适应地调整特征融合系数，从而完成双模态图像特征级和像素级的融合。

1 相关工作 1.1 图像语义分割

图像语义分割的目标是对图像的每一个像素点进行类别预测。为了精细化图像的分割结果，研究人员提出了众多应用于深度学习分割系统的网络结构和方法。BADRINARAYANAN等^[7]提出的SegNet网络通过在池化层保留池化索引实现了非线性的上采样，其能够在解码阶段融入原始图像的空间信息。HE等^[8]提出深度残差学习的方法，该方法解决了梯度弥散问题，使深层网络的训练成为可能。Google团队提出的GoogleNet网络证明了CNN可以有更多的排列方式，其提出的Xception模块^[9]不仅通过继承Inception v3感知模块的功能获得了不同尺度的特征，还利用引入的可分离卷积提高了模型的运行速率。

此外，各种注意力机制也被应用于语义分割领域。MA等^[10]通过在卷积运算后加入自身平方项的注意力机制，增强了深层和浅层特征在解码器阶段的融合效果。HU等^[11]从像素预测和像素分组2个独立的维度对语义分割重新进行考量，使用多头的压缩注意力模块增强像素间的密集预测。本文网络模型同样引入了注意力机制，包括空间、通道注意力机制，从而在不增加参数量的情况下使得网络能够选择更关键的信息。

1.2 多模态的语义分割

多模态图像能够提供具有不同成像机理的信息，因此，在医学领域得到广泛应用^[12]，多模态语义分割经常被用于分割病变区域，如ZHOU等^[13]利用多模态图像完成肿瘤的检测与分割任务。

多模态图像语义分割在机器人环境感知中也得到应用，常见的数据源有可见光图像、红外图像以及3D点云图像。SUN等^[14]以DenseNet作为编码器主干，提出两阶段的融合策略：第一阶段在RGB编码器中分层添加红外特征；第二阶段将融合的特征图与对应层级的解码器特征图进行连接，以恢复密集下采样所造成的空间信息损失。HAZIRBAS等^[15]在FuseNet网络中设计双支VGG-16编码器同时提取RGB和Depth特征，通过密集和稀疏融合策略将深度特征融合到RGB编码器中。LÜ等^[16]使用Resdiv模块完成融合特征的解码工作，其可以有效地融合颜色和红外特征。本文网络在编码阶段提出一种新的方法，在双流网络架构的基础上增加一个独立融合网络分支，其输入为可见光和红外图像，根据双模态图像信息量的贡献度自适应地调整融合系数以得到融合特征图。例如，当目标与环境温度相近时，红外图像在特征提取中提供的可用信息量较少，对于学习到的红外特征，融合网络在生成融合特征图时就会赋予其较低的权重。

1.3 图像融合

在传统的图像处理方法中，根据图像表征层次的不同，图像融合通常分为像素级融合、特征级融合和决策级融合这3种层次^[17]：像素级图像融合在输入数据层面进行融合，最大限度地保留了图像的细节信息；特征级融合对特征提取后的信息进行合并处理；决策级融合是在每个模态数据单独完成特征提取和分类后，根据每个决策的可信度做出的综合处理。此外，基于变换域的分解重构融合算法^[18-19]也被用于可见光和红外图像的融合任务。

在深度学习网络中，多模态数据的融合策略有很多。本文以融合可见光、红外2种模态数据为例进行介绍，这些策略也可以推广到更多的模态问题中。用$ \mathrm{v}\mathrm{i} $、$ \mathrm{i}\mathrm{r} $表示可见光、红外2种模态，$ {f}_{\mathrm{v}\mathrm{i}}^{l} $和$ {f}_{\mathrm{i}\mathrm{r}}^{l} $为它们在神经网络第$ l $层的特征图，$ {G}_{l}\left(·\right) $、$ {f}_{F}^{l} $分别是第$ l $层的变换函数和融合结果。3种融合策略具体如下：

1）Addition。在双模态特征融合上采用像素级累加的方式得到融合特征，即：

$ {f}_{F}^{l}={G}_{l}\left({f}_{\mathrm{v}\mathrm{i}}^{l}+{f}_{\mathrm{i}\mathrm{r}}^{l}\right) $

(1)

2）Concatenation。这种策略通常会在卷积层之前沿特征图的深度方向叠加2种模态的数据，如式（2）所示：

$ {f}_{F}^{l}={G}_{l}\left({f}_{\mathrm{v}\mathrm{i}}^{l}\mathrm{♁}{f}_{\mathrm{i}\mathrm{r}}^{l}\right) $

(2)

其中：$ \mathrm{♁} $表示张量的合并操作。

3）Mixture of Experts。混合专家网络^[20]的策略能够通过多个专家网络隐式地学习每个模态的权重图，再和原始特征图加权以得到最终的融合特征图。VALADA等^[21]采用这种融合策略，根据场景条件自适应地加权专家网络得到的特征，从而完成全天时和跨季节的道路场景解析。本文以$ {w}_{\mathrm{v}\mathrm{i}} $、$ {w}_{\mathrm{i}\mathrm{r}} $分别代表专家网络为可见光、红外模态预测的权重，则最终融合特征的数学表示为：

$ {f}_{F}^{l}={w}_{\mathrm{v}\mathrm{i}}\cdot {f}_{\mathrm{v}\mathrm{i}}^{l}+{w}_{\mathrm{i}\mathrm{r}}\cdot {f}_{\mathrm{i}\mathrm{r}}^{l}, {w}_{\mathrm{v}\mathrm{i}}+{w}_{\mathrm{i}\mathrm{r}}=1 $

(3)

2 本文双模态语义分割网络 2.1 模型整体框架

图 1所示为本文模型的整体结构，其中，左图是网络的整体框架，右图是上采样块的详细结构，$ k $和$ s $分别表示卷积核的大小和步长，默认值分别为3和1。鉴于Encoder-Decoder是一种有效的语义分割网络框架^[22]，本文采用该框架来搭建所提模型的主干网络。与主流RGBT网络的双编码器有所不同，本文在此基础上增加一支包含融合模块的编码器网络。3个独立的编码网络分别从RGB图像$ {I}_{\mathrm{V}} $、热红外图像$ {I}_{\mathrm{T}} $、融合“图像”（融合模块的输出）中提取特征。本文将所提网络命名为三支型网络，三支编码器分别命名为可见光编码子网络$ {E}_{\mathrm{V}} $、红外编码子网络$ {E}_{\mathrm{T}} $、融合编码子网络$ {E}_{\mathrm{F}} $。$ {E}_{\mathrm{F}} $的前端是一个融合模块，通过注意力机制自适应地在像素级别融合双模态的信息。$ {E}_{\mathrm{F}} $子网络在下采样操作后添加可见光和红外单模态的编码分支网络的各级特征，以得到多模态特征。

	Download: JPG larger image
图 1 本文模型的整体结构 Fig. 1 The overall structure of the proposed model

2.2 模型细节

模型编码（Encoder）部分由3支包含ResNet结构的编码子网络组成。3种模态原始图像的通道数分别为1、3、4，而3支编码器$ {E}_{\mathrm{V}} $、$ {E}_{\mathrm{T}} $、$ {E}_{\mathrm{F}} $的输入数据要求通道数均为64。因此，本文设计了In Conv卷积层来统一多模态数据的深度（即设置该卷积层输出通道数均为64），之后采用$ L $个stage的残差卷积层（本文中$ L $=4）来进行不同尺度特征的提取。数据流经过每一个stage，宽度和高度各减小1/2，通道数会增加一倍。表 1所示为编码器子网络的具体结构，包括每个残差卷积块使用的残差卷积层数量。

下载CSV 表 1 编码器子网络结构 Table 1 Structure of encoder sub network

残差卷积层主要分为2种设计方式，如图 2所示。本文选择3层残差卷积结构，其将2个3×3的卷积层替换为1×1、3×3、1×1的结构，从而有效降低参数量。例如，在一个卷积单元中，2层的残差结构参数量为$ 18{C}^{2} $，而3层残差结构中第一个1×1的卷积将通道数降为原始通道数的1/4，然后通过后置的1×1卷积再将通道数恢复，整体上的参数量为$ \frac{17}{16}{C}^{2} $，比2层的残差结构降低了94.1%。

	Download: JPG larger image
图 2 残差卷积的2种结构 Fig. 2 Two structures of residual convolution

整个编码器网络通过像素级别的融合编码子网络实现双模态图像的特征融合，且该子网络通过Concat方式添加对应层级的可见光和红外特征图，通过该方式使得到的特征图通道数变为原先的3倍。为了减轻网络负载，本文使用一个1×1的卷积来降低通道数，因此，融合编码子网络最终的输出特征图为：

$ {E}_{\mathrm{o}\mathrm{u}\mathrm{t}}={E}_{\mathrm{V}}\left({I}_{\mathrm{V}}\right)\mathrm{♁}{E}_{\mathrm{T}}\left({I}_{\mathrm{T}}\right)\mathrm{♁}{E}_{\mathrm{F}}({I}_{\mathrm{V}}, {I}_{\mathrm{T}}) $

(4)

Decoder部分包含4个上采样块，由卷积层、BN层、激活层、反卷积层组成。每个上采样块的残差连接部分首先采用1×1卷积核的卷积层作为bottleneck层进行通道数降维，以减少训练的参数量，然后使用核为3的卷积层和同尺寸的反卷积层来恢复特征图的尺寸。上采样块的短连接部分只做反卷积操作，得到与残差部分相同尺寸的特征图。把上述2个部分的输出通过像素级对应的方式进行组合，得到新的特征图并通过ReLU激活函数层获得当前块的输出，将其作为下一层的输入。整个模型使用多分类的交叉熵损失函数来训练，通过计算预测数据与真实标签的差距来反向传播梯度从而优化模型。

2.3 像素级特征融合模块

多数融合策略采用加权平均算子的方式生成加权映射以融合特征，如ASPP空洞空间金字塔池化模块使用多个空洞卷积层来提取不同感受野下的特征，从而得到融合特征，然而，这些策略并不适合本文的双模态特征融合，因为本文的目标是既保留红外图像中所提取的辐射特征，也要保留可见光图像中所提取的细节特征。融合注意力机制能够解决不能针对性地提取不同模态特征的问题。

本文基于空间和通道注意力机制的融合策略，可以实现像素级的特征融合。空间注意力机制以特征图的每个像素点作为单位，对每个像素点都分配一个权重值，这个权重值可看作一个矩阵，尺寸与当前特征图一致；通道注意力以特征图的每个通道作为单位，得到的权重值是一个向量，其与当前特征图的深度一致。如图 3所示，本文像素级特征融合模块分为3个阶段：下采样阶段分别对可见光、红外图像进行特征提取；融合阶段对相同层级的双模态特征图（虚线部分）采用空间、通道2种注意力融合（Spatial and Channel Fusion，SCF）机制；上采样阶段在每个层级上添加前一层的特征图，再通过上采样操作获得当前层的融合特征。

	Download: JPG larger image
图 3 特征融合模块结构及SCF机制流程 Fig. 3 Feature fusion module structure and SCF mechanism procedure

本文特征融合模块的特点是在跳跃连接过程中增加SCF操作。在第$ l $（$ l=\mathrm{1, 2}, \mathrm{3, 4} $）次下采样过程中，$ {\phi }_{\mathrm{v}\mathrm{i}}^{l} $、$ {\phi }_{\mathrm{i}\mathrm{r}}^{l} $分别表示$ \mathrm{S}\mathrm{C}{\mathrm{F}}_{l} $层的可见光、红外特征图输入，$ {\stackrel{-}{\phi }}_{s}^{l} $、$ {\stackrel{-}{\phi }}_{c}^{l} $为通过2种注意力机制增强后的特征图，最终的加权特征$ {\phi }_{F}^{l} $为两者的平均值。实现该策略的关键是计算2种注意力机制的权重图$ \omega $和权重向量$ \boldsymbol{\nu } $。

权重图$ \omega $由空间注意力模块（Spatial-Attention Module，SAM）的AVG层和Softmax操作得到。其中，AVG为通道平均层，能够在特征图所有的空间位置$ \left(x, y\right) $上对所有通道的值取平均，得到尺寸为$ h\times w\times 1 $的特征图，再利用Softmax层计算得到权重图$ \omega $，如式（5）、式（6）所示：

$ \mathrm{A}\mathrm{V}{\mathrm{G}}_{\mathrm{v}\mathrm{i}}\left(x, y\right)=\frac{1}{{2}^{l}C}\sum\limits _{z=1}^{{2}^{l}C}{\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z) $

(5)

$ {\omega }_{\mathrm{v}\mathrm{i}}(x, y)=\frac{\mathrm{A}\mathrm{V}{\mathrm{G}}_{\mathrm{v}\mathrm{i}}(x, y)}{\sum\limits _{x=1}^{h}\sum\limits _{y=1}^{w}\mathrm{A}\mathrm{V}{\mathrm{G}}_{\mathrm{v}\mathrm{i}}（x, y）+\sum\limits _{x=1}^{h}\sum\limits _{y=1}^{w}\mathrm{A}\mathrm{V}{\mathrm{G}}_{\mathrm{i}\mathrm{r}}（x, y）} $

(6)

权重向量$ \boldsymbol{\nu } $由通道注意力模块（Channel-Attention Module，CAM）的GAP层和Softmax操作得到。GAP为全局池化层，在特征图每个通道上对所有位置上的值取平均，得到$ c $维的特征向量，再通过Softmax计算得到权重向量$ \boldsymbol{v} $，如式（7）、式（8）所示：

$ \mathrm{G}\mathrm{A}{\mathrm{P}}_{\mathrm{v}\mathrm{i}}=\frac{\sum\limits _{x=1}^{h}\sum\limits _{y=1}^{w}{\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z)}{h\times w} $

(7)

$ {\nu }_{\mathrm{v}\mathrm{i}}\left(z\right)=\frac{\mathrm{G}\mathrm{A}{\mathrm{P}}_{\mathrm{v}\mathrm{i}}\left(z\right)}{\sum\limits _{z=1}^{c}\mathrm{G}\mathrm{A}{\mathrm{P}}_{\mathrm{v}\mathrm{i}}\left(z\right)+\sum\limits _{z=1}^{c}\mathrm{G}\mathrm{A}{\mathrm{P}}_{ir}\left(z\right)} $

(8)

空间、通道上的增强特征图$ {\stackrel{-}{\phi }}_{s}^{l} $、$ {\stackrel{-}{\phi }}_{c}^{l} $由原始输入特征和相应的权重图、权重向量计算得到，如式（9）、式（10）所示：

$ {\stackrel{-}{\phi }}_{s}^{l}(x, y, z)={\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z)\cdot {\omega }_{\mathrm{v}\mathrm{i}}(x, y)+{\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z)\cdot {\omega }_{\mathrm{i}\mathrm{r}}(x, y) $

(9)

$ {\stackrel{-}{\phi }}_{c}^{l}(x, y, z)={\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z)\cdot {\nu }_{\mathrm{v}\mathrm{i}}\left(z\right)+{\phi }_{\mathrm{v}\mathrm{i}}^{l}(x, y, z)\cdot {\nu }_{\mathrm{i}\mathrm{r}}\left(z\right) $

(10)

最终的融合特征$ {\phi }_{F}^{l} $为：

$ {\phi }_{F}^{l}(x, y, z)=\frac{1}{2}\left({\stackrel{-}{\phi }}_{s}^{l}(x, y, z)+{\stackrel{-}{\phi }}_{c}^{l}(x, y, z)\right) $

(11)

3 实验结果与分析 3.1 数据集与评价指标

MF是较早用于城市场景双模态语义分割的数据集，其包括1 569个有像素级标注的可见光、红外图像对。本文对MF数据集进行划分，使训练集、验证集、测试集的比例为4∶1∶1，且每部分的白天、夜晚数据比例为1∶1。

FR-T数据集包含多个白天和夜晚的可见光、红外图像序列，并对13个语义类别进行了标注，但是该数据集没有提供夜间场景的图像标注信息，因此，本文仅使用部分白天拍摄的图像序列，共12 170个可见光、红外图像对。

在语义分割领域，一般利用均交并比（mean Intersection over Union，mIoU）作为度量标准，其计算公式为：

$ {m}_{\mathrm{m}\mathrm{I}\mathrm{o}\mathrm{U}}=\frac{1}{k+1}\sum\limits _{i=0}^{k}\frac{{p}_{ii}}{\sum\limits _{j=0}^{k}{p}_{ij}+\sum\limits _{j=0}^{k}{p}_{ji}-{p}_{ii}}\times 100\mathrm{\%} $

(12)

其中：$ k+1 $是所有语义类别的个数（包含未标记的类）；$ {p}_{xy} $表示真实值为$ x $而被预测为$ y $的像素数量；$ {p}_{ii} $代表真正例（True Positive，TP）；$ {p}_{ij} $、$ {p}_{ji} $分别代表假正例（False Positive，FP）和假负例（False Negative，FN）。

在消融实验部分，本文还引入精确率Precision指标来衡量模型的查准率，该指标表示在所有正样本中正确目标所占的比例，计算公式如下：

$ {P}_{\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}}\times 100\mathrm{\%} $

(13)

3.2 实验环境与参数设置

本文实验平台为基于Linux18.04系统的深度学习服务器，包括4张Nvidia 3090显卡，并使用Pytorch 1.7深度学习框架。分别在MF和FR-T数据集上训练模型，初始学习率设置为0.03，学习率每次迭代下降2%，训练批大小为4。使用SGD和Adam优化器的组合策略共训练200个Epoch，通过最小化交叉熵损失函数来优化模型参数。

3.3 与主流模型的对比实验

将本文所提模型与MFNet^[1]、PSTNet^[4]、HeatNet^[23]、RTFNet-50^[3]模型进行对比实验，此外，还设置一组RTFNet-50+NestFuse^[24]的组合模型，以验证本文像素级融合策略在语义分割任务中的性能优势。NestFuse^[24]是RGB、红外图像的融合网络，其在RTFNet的基础上增加一支编码网络，输入为通过NestFuse输出的红外、可见光融合图像。NestFuse模型直接采用原始论文中提供的参数。

表 2所示为MF数据集上的对比实验结果（mIoU），其中，“—”表示原文实验未提供，加粗字体表示每列中的最好结果。从表 2可以看出，在8个语义类别中，本文模型在其中的6个类别上都达到了最优，另外，在第5、第6组实验中，Guardrail类别的检测率有大幅提升，而这2组实验与其他网络模型的主要区别是增加了一支融合编码网络，这表明在双模态网络中增加第三支融合编码器的策略具有有效性。另外，由于第5组实验中网络的融合模块是NestFuse，即本文提出的像素级融合模块在可见光、红外的双模态数据融合中更具优势。

下载CSV 表 2 各模型在MF数据集上的测试结果 Table 2 Test results of each model on the MF dataset

图 4所示为MF数据集上定性实验的部分样例可视化结果（彩色效果见《计算机工程》官网HTML版），第1列、第2~第4列分别显示白天、夜晚场景下的结果，第2~第4列代表夜间的照明条件，部分区域甚至完全黑暗。从图 4可以看出，与其他网络模型相比，本文网络模型提取的目标更完整，比如在第3、第4列中，只有本文模型识别出了完整的车辆、自行车类别的目标。

	Download: JPG larger image
图 4 MF数据集上的分割结果可视化效果 Fig. 4 Visualization of segmentation results on MF dataset

从表 3可以看出，在FR-T数据集的12种语义类别中，本文模型在其中的8种类别上mIoU达到了最优，总体平均值比RTFNet高0.6个百分点。图 5所示为FR-T数据集上的部分样例可视化结果（彩色效果见《计算机工程》官网HTML版），从中可以看出，本文模型对目标的识别更为准确，分割的结果也更为精细。

下载CSV 表 3 各模型在FR-T数据集上的测试结果 Table 3 Test results of each model on the FR-T dataset

	Download: JPG larger image
图 5 FR-T数据集上的分割结果可视化效果 Fig. 5 Visualization of segmentation results on FR-T dataset

为了测试各模型在白天、夜晚不同场景下的稳定性，在MF测试集的白天、夜间图像上分别进行评估，表 4所示为白天和夜间场景中模型预测结果的定量比较（mIoU），实验结果表明，本文模型在2种场景下均能达到最佳效果，其精确率较2种场景中次优的模型分别高出4.5和4.0个百分点。

下载CSV 表 4 白天和夜晚场景下的模型分割结果比较 Table 4 Comparison of model segmentation results in day and night scenes

3.4 消融实验 3.4.1 网络参数分析

编码子网络中残差卷积块的堆叠数量L直接影响网络的深度，为了探究其对模型学习效果的影响，设置L分别为3、4、5并进行实验，结果如表 5所示，从中可以看出，在MF数据集上使模型效果最优的L值为4，L过大会使模型的参数量增加，训练难度提高，L过小会导致模型的学习结果欠拟合。

下载CSV 表 5 残差卷积块数量对模型性能的影响 Table 5 Influence of the number of residual convolution blocks on the performance of the model

本文在编解码器中使用1×1卷积的bottleneck层，目的是降低特征图的通道数。通过实验分析bottleneck层的使用与否对网络参数量、实时性、准确性产生影响。表 6结果表明，使用1×1卷积的bottleneck层策略，不仅能让整个模型的参数量降低8%，而且在准确率和平均交并比指标上均有略微提升。

下载CSV 表 6 bottleneck层对模型性能的影响 Table 6 Influence of the bottleneck layer on model performance

3.4.2 各编码器分支对网络的影响测试

为了分析三支型网络中各编码器分支的作用，本文尝试了各分支的其他组合形式：同时去掉红外和可见光2支编码器子网络（w/o RGBT实验组）；单独去掉融合编码器子网络（w/o Fusion实验组）。实验结果如表 7所示，从中可以看出，当去除红外和可见光编码器分支时，模型的预测准确率下降8.9%，仅缺少融合编码器子网络时下降7.6%。因此，通过红外、可见光编码器网络补充的特征级信息以及融合编码器自身的像素级融合特征，都能使模型性能得到提升。

下载CSV 表 7 编码器分支的组合实验 Table 7 Combined experiment of encoder branch

3.4.3 像素级融合模块中注意力机制的有效性测试

表 8所示为融合模块中采用不同注意力机制的效果，以不采用注意力机制的网络模型1为基准，将其分别与采用空间注意力机制SAM（模型2）、通道注意力机制CAM（模型3）以及空间通道注意力机制SCAM（模型4）进行比较。从表 8可以看出：模型1因为没有使用注意力机制，其平均交并比和预测精确率均为最低；与通道注意力机制（模型3）相比，空间注意力机制（模型2）对网络分割效果的提升更明显，表示空间注意力机制更有效；本文模型在2个指标上均为最优，说明采用空间和通道注意力机制相结合的方式最有效。

下载CSV 表 8 注意力机制的消融实验结果 Table 8 Ablation experimental results of attention mechanism

3.4.4 融合策略的影响

为了验证不同融合策略对模型效果的影响，设计早期融合和晚期融合2种策略进行对比实验^[25]。如图 6所示，上图是采用早期融合策略的网络模型，其以可见光、红外以及像素级融合模块的融合结果作为输入，将3种图像逐通道拼接作为新的输入，然后训练分割网络，整个模型从第一层到最后一层都可以利用不同模态的特征信息。早期融合策略可以表示为：

$ {\phi }_{F}={G}_{L}(\cdot \cdot \cdot {G}_{l}(\cdot \cdot \cdot {G}_{2}\left({G}_{1}\right({f}_{\mathrm{v}\mathrm{i}}^{0}\mathrm{♁}{f}_{\mathrm{i}\mathrm{r}}^{0}\mathrm{♁}{f}_{F}^{0}\left)\right)\left)\right) $

(14)

	Download: JPG larger image
图 6 2种融合策略的模型结构 Fig. 6 Model structure of two fusion strategies

图 6中的下图是采用晚期融合策略的网络模型，每个模态图像是对应分支网络的唯一输入，仅在决策阶段才综合各分支网络的信息，且以预测概率最大的类别作为最终的分割结果。使用该融合策略的模型旨在从不同模式中独立学习互补信息。晚期融合策略可以表示为：

$ \begin{array}{l}{\phi }_{F}^{\mathrm{\text{'}}}={G}_{L}^{\mathrm{v}\mathrm{i}}(\cdot \cdot \cdot {G}_{l}^{\mathrm{v}\mathrm{i}}(\cdot \cdot \cdot {G}_{1}^{\mathrm{v}\mathrm{i}}\left({f}_{\mathrm{v}\mathrm{i}}^{0}\right)\left)\right)\mathrm{♁}\\ {G}_{L}^{\mathrm{i}\mathrm{r}}(\cdot \cdot \cdot {G}_{l}^{\mathrm{i}\mathrm{r}}(\cdot \cdot \cdot {G}_{1}^{\mathrm{i}\mathrm{r}}\left({f}_{\mathrm{i}\mathrm{r}}^{0}\right)\left)\right)\mathrm{♁}\\ {G}_{L}^{F}(\cdot \cdot \cdot {G}_{l}^{F}(\cdot \cdot \cdot {G}_{1}^{F}\left({f}_{F}^{0}\right)\left)\right)\end{array} $

(15)

表 9中的前2行数据分别对应早期融合、晚期融合策略的网络模型。本文调整3组实验的编码器、解码器结构，均减少一个下采样层和对应的上采样层以及相关的卷积层。一方面，由于迟融合网络分别含有3支编码器、解码器网络，如果采用和第2节相同的下采样数量，迟融合模型的参数量会过大从而导致难以训练；另一方面，对所有组实验均采用相同的策略能排除模型结构对实验数据的影响。

下载CSV 表 9 不同融合策略的实验结果 Table 9 Experimental results of different fusion strategies

综合3组实验模型的参数量、预测结果的平均交并比以及分割精确率可以看出，虽然采用迟融合策略的网络取得了最佳表现，但是将融合阶段置于网络的后端，需要更多地参数来执行前置的卷积以及其他操作。本文模型采用的融合策略在准确率和参数量上取得了较好的平衡。

3.4.5 图像降质和失效情况下的网络测试

本次实验测试输入图像质量降低甚至失效时对模型性能的影响程度。通过对输入的可见光、红外热图像附加额外操作来模拟图像的降质和失效情况，如图 7所示。对于图像降质，本文通过改变RGB图像的亮度和对比度，以模拟可见光相机在过曝、欠曝场景下得到的降质图像；通过给红外图像附加高斯滤波操作，以模拟红外图像的降质。对于图像失效，本文在图像的每个通道上都增加一个全局平均池化操作。

	Download: JPG larger image
图 7 降质、失效图像的合成与实验结果 Fig. 7 Synthesis and experimental results of degraded and invalid images

为了定量地说明网络在上述情况下受影响的程度，本文将处理后的图像分别输入RTFNet网络和三支型网络中进行对比。表 10所示为测试网络在双模态图像质量降低或单一模态图像失效时的性能表现，其中，下降率表示模态失效时模型指标较正常状态的下降幅度。对输入图像的降质操作具体为：将可见光图像的整体亮度调整为原来的0.2倍；在红外图像上增加一个核尺寸为21的高斯滤波操作；对双模态输入图像同时采取上述2种操作。从表 10可以看出：当可见光、红外图像单独降质时，本文模型准确率分别下降3.7%和3.9%，RTFNet模型准确率分别下降5%和4.3%；当双模态图像均降质时，2种模型准确率分别降低11.1%、12.1%。对于单一模态输入图像失效的情况，参与实验的模型都受到了较大程度的影响，在可见光、红外图像分别单独失效时，RTFNet模型的测试指标分别下降16.9%、36.5%，本文模型则分别下降22.2%、24.5%。

下载CSV 表 10 图像降质和失效情况下的测试结果 Table 10 Test results in case of image degradation and invalidation

在输入图像失效的极端场景中，由于本文模型使用三支编码子网络分别进行特征提取，因此能够保证有正常输入的一支子网络能够继续工作，此外，像素级特征融合模块在这种情况下虽然丢失了双模态特征的选择功能，但仍然能对正常输入模态图像进行特征提取和增强，这也是在任一模态图像失效时本文模型能得到一个稳定的分割结果且模型指标下降程度较低的原因。

4 结束语

为对城市场景图像进行语义分割，本文提出一种双模态深度神经网络。该网络通过RGB-T、像素级数据融合模块以及注意力机制，完成双模态图像的特征级和像素级融合。实验结果表明，在加入独立融合分支网络后，模型性能得到一定提升，在公开数据集上，与已有网络MFNet、PSTNet等相比，本文所提网络能取得最优的分割效果。此外，本文还研究了输入模态图像降质和失效情况下模型的性能表现，结果表明，无论是单个模态图像降质还是双模态图像均降质甚至单个模态图像完全失效，本文模型受影响程度均较低，表明其鲁棒性较高。

本文所提网络仍然存在若干问题需要解决：目前整个模型参数量达到亿的数量级，推理速度无法满足实时处理的需求，今后尝试利用参数剪枝的方法加快网络的运行速度；模型在白天和夜晚2种情景下的分割效果存在一定差距，本文认为这和双模态图像很难在像素上一一对应有关，可以通过调整深层特征图映射的感受野大小来尝试解决该问题；虽然本文网络中融合了细粒度的特征信息和粗粒度的抽象信息，但是各个类别的上下文信息也同样值得探究，利用这些信息在物体边界上获取更好的分割效果也是下一步的研究方向。

参考文献

[1]	HA Q S, WATANABE K, KARASAWA T, et al. MFNet: towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2017: 5108-5115.
[2]	DOLZ J, GOPINATH K, YUAN J, et al. HyperDense-net: a hyper-densely connected CNN for multi-modal image segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(5): 1116-1126. DOI:10.1109/TMI.2018.2878669
[3]	SUN Y X, ZUO W X, LIU M. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes[J]. IEEE Robotics and Automation Letters, 2019, 4(3): 2576-2583. DOI:10.1109/LRA.2019.2904733
[4]	SHIVAKUMAR S S, RODRIGUES N, ZHOU A, et al. PST900: RGB-thermal calibration, dataset and segmentation network[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2020: 9441-9447.
[5]	JOHN V, BOYALI A, THOMPSON S, et al. BVTNet: multi-label multi-class fusion of visible and thermal camera for free space and pedestrian segmentation[EB/OL]. [2021-06-05]. https://www.xueshufan.com/publication/3130396667.
[6]	施政, 毛力, 孙俊. 基于YOLO的多模态加权融合行人检测算法[J]. 计算机工程, 2021, 47(8): 234-242. SHI Z, MAO L, SUN J. YOLO-based multi-modal weighted fusion pedestrian detection algorithm[J]. Computer Engineering, 2021, 47(8): 234-242. (in Chinese)
[7]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[8]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[9]	CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1800-1807.
[10]	马震环, 高洪举, 雷涛. 基于增强特征融合解码器的语义分割算法[J]. 计算机工程, 2020, 46(5): 254-258, 266. MA Z H, GAO H J, LEI T. Semantic segmentation algorithm based on enhanced feature fusion decoder[J]. Computer Engineering, 2020, 46(5): 254-258, 266. (in Chinese)
[11]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141.
[12]	LI L Q, ZHAO X M, LU W, et al. Deep learning for variational multimodality tumor segmentation in PET/CT[J]. Neurocomputing, 2020, 392: 277-295. DOI:10.1016/j.neucom.2018.10.099
[13]	ZHOU T X, RUAN S, CANU S. A review: deep learning for medical image segmentation using multi-modality fusion[J]. Array, 2019, 3/4: 100004. DOI:10.1016/j.array.2019.100004
[14]	SUN Y X, ZUO W X, YUN P, et al. FuseSeg: semantic segmentation of urban scenes based on RGB and thermal data fusion[J]. IEEE Transactions on Automation Science and Engineering, 2021, 18(3): 1000-1011. DOI:10.1109/TASE.2020.2993143
[15]	HAZIRBAS C, MA L N, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture[EB/OL]. [2021-06-05]. https://vision.in.tum.de/_media/spezial/bib/hazirbasma2016fusenet.pdf.
[16]	LÜ Y, SCHIOPU I, MUNTEANU A. Multi-modal neural networks with multi-scale RGB-T fusion for semantic segmentation[J]. Electronics Letters, 2020, 56(18): 920-923.
[17]	LI S T, KANG X D, FANG L Y, et al. Pixel-level image fusion: a survey of the state of the art[J]. Information Fusion, 2017, 33: 100-112.
[18]	LE GUEN V. Cartoon + texture image decomposition by the TV-L1 model[J]. Image Processing on Line, 2014, 4: 204-219. DOI:10.5201/ipol.2014.103
[19]	闫钧华, 杭谊青, 孙思佳. 基于GPU的可见光与红外图像融合快速实现[J]. 计算机工程, 2013, 39(11): 249-253. YAN J H, HANG Y Q, SUN S J. Image fusion fast realization of visible light and infrared image based on GPU[J]. Computer Engineering, 2013, 39(11): 249-253. (in Chinese) DOI:10.3969/j.issn.1000-3428.2013.11.056
[20]	EIGEN D, RANZATO M, SUTSKEVER I. Learning factored representations in a deep mixture of experts[EB/OL]. [2021-06-05]. https://arxiv.org/abs/1312.4314.
[21]	VALADA A, VERTENS J, DHALL A, et al. AdapNet: adaptive semantic segmentation in adverse environmental conditions[C]//Proceedings of IEEE International Conference on Robotics and Automation. Washington D.C., USA: IEEE Press, 2017: 4644-4651.
[22]	LATEEF F, RUICHEK Y. Survey on semantic segmentation using deep learning techniques[J]. Neurocomputing, 2019, 338: 321-348.
[23]	VERTENS J, ZÜRN J, BURGARD W. HeatNet: bridging the day-night domain gap in semantic segmentation with thermal images[C]//Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D.C., USA: IEEE Press, 2021: 8461-8468.
[24]	LI H, WU X J, DURRANI T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645-9656.
[25]	GUNES H, PICCARDI M. Affect recognition from face and body: early fusion vs. late fusion[C]//Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Washington D.C., USA: IEEE Press, 2005: 3437-3443.