室内服务机器人的实时场景分割算法

引用本文

林杰, 陈春梅, 刘桂华, 等. 室内服务机器人的实时场景分割算法[J]. 计算机工程, 2021, 47(7), 21-29. DOI: 10.19678/j.issn.1000-3428.0059577.

LIN Jie, CHEN Chunmei, LIU Guihua, et al. Real-Time Scene Segmentation Algorithm for Indoor Service Robot[J]. Computer Engineering, 2021, 47(7), 21-29. DOI: 10.19678/j.issn.1000-3428.0059577.

基金项目

国防科工局核能开发科研项目"核应急处置机器人关键技术研究"(17zg610205);四川省科技厅重点研发项目"基于二维与三维视觉图像融合技术的车底异物检测系统"(19ZS2117)

通信作者

陈春梅(通信作者), 副教授、博士

作者简介

林杰(1996-), 男, 硕士研究生, 主研方向为图像处理、模式识别、深度学习;
刘桂华, 教授、博士;
祝礼佳, 硕士研究生

文章历史

收稿日期：2020-09-25
修回日期：2020-11-13

Contents Abstract Full text Figures/Tables PDF

室内服务机器人的实时场景分割算法

林杰 , 陈春梅 , 刘桂华 , 祝礼佳

西南科技大学信息工程学院, 四川绵阳 621000

收稿日期：2020-09-25；修回日期：2020-11-13

基金项目：国防科工局核能开发科研项目"核应急处置机器人关键技术研究"(17zg610205);四川省科技厅重点研发项目"基于二维与三维视觉图像融合技术的车底异物检测系统"(19ZS2117)

作者简介：林杰(1996-), 男, 硕士研究生, 主研方向为图像处理、模式识别、深度学习; 刘桂华, 教授、博士; 祝礼佳, 硕士研究生.

通信作者：陈春梅(通信作者), 副教授、博士.

E-mail: 47920787@qq.com

摘要：室内场景下的实时场景分割是开发室内服务机器人的一项关键技术，目前关于语义分割的研究已经取得了重大进展，但是多数方法都倾向于设计复杂的网络结构或者高计算成本的模型来提高精度指标，而忽略了实际的部署成本。针对移动机器人算力成本有限的问题，设计一种轻量化的瓶颈结构，并以此为基本元素构建轻量化场景分割网络。该网络通过与特征提取网络级联获得更深层次的语义特征，并且融合浅层特征与深层语义特征获得更丰富的图像特征，其结合深度可分离卷积与多尺度膨胀卷积提取多尺度图像特征，减少了模型的参数量与计算量，同时利用通道注意力机制提升特征加权时的网络分割精度。以512像素×512像素的图像作为输入进行实验，结果表明，该算法在NYUDv2室内场景分割数据集和CamVid数据集上的MIoU分别达到72.7%和59.9%，模型计算力为4.2 GFLOPs，但参数量仅为8.3 Mb，在移动机器人NVIDIA Jetson XavierNX嵌入式平台帧率可达到42 frame/s，其实时性优于DeepLabV3+、PSPNet、SegNet和UNet算法。

Real-Time Scene Segmentation Algorithm for Indoor Service Robot

LIN Jie , CHEN Chunmei , LIU Guihua , ZHU Lijia

School of Information Engineering, Southwest University of Science and Technology, Mianyang, Sichuan 621000, China

Abstract: Real-time scene segmentation in indoor scenes is a key technology required for the development of indoor service robots.Some great advances have been made in the studies of semantic segmentation, but most existing methods tend to use complex network structures or models that improve the accuracy at the price of higher computational cost and deployment cost.To address the limited computational cost of mobile robots, the design of a lightweight bottleneck structure is described, and on this basis a lightweight scene segmentation network is constructed.The network cascades with the feature extraction network to obtain deeper semantic features, and integrates shallow features with deep semantic features to obtain richer image features.Then the network combines depthwise separable convolution and multi-scale dilated convolution to extract multi-scale image features, and reduces the number of parameters and amount of calculation of the model.At the same time, the channel attention mechanism is introduced to improve the accuracy of network segmentation.Experiments are carried out taking 512×512 pixels image as the input, and results show that the MIoU of the proposed algorithm reaches 72.7% on the NYUDv2 indoor scene segmentation dataset and 59.9% on the CamVid dataset, while the amount of calculation cost is only 4.2 GFLOPs and the number of parameters is 8.3 Mb.The algorithm can be deployed on the NVIDIA Jetson XavierNX embedded platform for mobile robots, and achieved 42 frame/s in inference speed, significantly outperforming DeepLabV3+, PSPNet, SegNet and UNet algorithms in real-time performance.

开放科学（资源服务）标志码（OSID）：

0 概述

场景分割是指对图像中的所有像素进行分类，是自动驾驶和机器人感知领域中一项重要的前置任务。受现有阈值分割算法^[1-2]启发，基于阈值的二值分割方法被大量应用于移动服务机器人，如文献[3]设计一种基于直方图的阈值分割方法用于足球机器人，文献[4]利用阈值提取边缘并基于边缘信息对图像进行分割，文献[5]利用Otsu阈值和炭疽孢子的连通特性及形状特征实现对炭疽孢子的分割，文献[6]设计一种YUV色彩空间下的阈值分割方法用于番茄机器人。然而，基于传统图像处理技术的分割方法存在较大的局限性，适用的分割场景也较为简单。因此，研究者提出基于聚类的方法，如文献[7]通过结合mean-shift和Ncut算法减少计算量和噪声的干扰，使分割速度大幅提升，文献[8]使用mean-shift算法结合深度信息实现复杂度较高的场景分割。

近年来，随着GPU算力增长，基于深度学习的语义分割算法飞速发展，图像分割技术水平得到大幅提高。文献[9]提出了全卷积网络（Fully Convolutional Network，FCN）用于实现端到端的逐像素分类，后续深度学习语义分割算法大都以该网络结构为基础改进。SegNet^[10]在解码器部分使用上池化操作进行上采样，保留了高频细节的完整性，实现了更精细的分割。UNet^[11]在编/解码器间加入了若干跳跃连接，融合了编/解码器不同层次的特征，通过减少信息丢失来提升精度。文献[12]在FCN的特征提取网络的输出端添加了条件随机场（Conditional Random Field，CRF）模块，进而提出了DeepLab方法，也大幅提高了分割的精度。上述算法虽然都有效提升了精度，但由于特征提取网络的感受野是固定的，因此没有获得图像全局的一些特征。文献[13]提出了DeepLab-V2网络，通过引入空洞空间金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）模块增加了感受野，提高了针对小目标的分割精度。文献[14]对DeepLab-V2中的ASPP模块进行改进，提出了DeepLabV3+网络。该网络融合了更多尺度特征，大幅提升了细节分割准确率。PSPNet^[15]网络则选用大量的池化金字塔获得更多的全局信息。文献[16]考虑样本不均衡因素设计了焦点约束损失（Constrained Focal Loss，CFL）函数，大幅提升了样本量不均衡时模型的分割精度。后续高准确度的分割算法大多致力于增加模型参数量和复杂度，如HRNet^[17]。该网络在特征提取时不压缩特征图尺寸，利用巨大的模型参数量和计算量换来了很大的图像感受野，并且充分融合了多尺度特征，在多项任务上都能达到较高的精度。但对于实际工程应用而言，部署算法不仅要考虑精度，同时也要考虑算力成本，自动驾驶无人车、服务机器人的移动端嵌入式计算设备应价格、功耗低且体积小，因此，参数量大且计算复杂度高的分割算法不适合部署在此类设备上。

对于室内服务机器人的应用场景，在算力有限的平台完成高准确度且快速的室内场景分割是一项重要任务。本文在现有语义分割模型的基础上，参考轻量化网络设计方法，提出一种基于轻量级串联特征提取网络的实时语义分割算法。通过深度可分离卷积、膨胀卷积和通道注意力机制设计轻量级的高准确度特征提取瓶颈结构模块，以此为基础构建轻量特征提取骨干网络，使用2个轻量型的网络级联增加网络深度，同时融合多尺度、多层次的语义特征，在保证算法高精度的前提下，基于TensorRT技术在NVIDIA Jetson XavierNX嵌入式平台实现实时室内场景分割。

1 基本原理

设计高准确率的轻量化特征提取网络，需要考虑如何在减少模型参数量的前提下提升精度。本文通过深度可分离卷积、感受野控制和注意力机制来提升准确率并降低模型复杂度。

1.1 深度可分离卷积

深度可分离卷积是很多轻量级网络的关键技术，其将常规的卷积计算分解成两步操作：首先对各个通道进行卷积提取特征，然后使用1×1卷积进行特征层融合或者特征层的扩充，从而有效地减少卷积计算中的参数量并保留常规卷积相似的性能。

对卷积核的参数量进行分析。如图 1所示，假设输入图像的尺寸为$w \times h \times c$，w、h、c分别表示图像的宽、高和通道数。若卷积后想要得到b个通道的特征图，使用原始卷积方法，卷积核的参数量为$k×k×c×d$，其中k为卷积核的边长。深度可分离卷积则先单独对通道卷积，参数量为$k×k× c$，再使用逐点卷积法将特征图通道扩张到b个，参数量为$c×d$。因此，总参数量为$k×k× c+c×d $。

	Download: JPG larger image
图 1 深度可分离卷积的计算过程 Fig. 1 Calculation process of depth separable convolution

相比传统卷积，深度可分离卷积的参数量大幅减少。传统卷积的计算量为$w×h×c×d×k×k$，深度可分离卷积的计算量为$w×h×c×k×k+w×h×c×d$，这2种方法的参数量之比和计算量之比均为$\frac{{k×k×c×d}}{{k×k×c+c×d}}=\frac{{w×h×c×d×k×k}}{{w×h×c×k×k+w×h×c×d}}=\frac{{k^2×d}}{{k^2+d}}$，可见无论是参数量还是计算量，通过可分离卷积都得到了很大幅度的压缩，使网络更加轻量化。对于边缘计算设备及无GPU的移动设备，深度可分离卷积可使CPU在不需要庞大算力的情况下完成卷积计算。因此，轻量级网络设计大多使用深度可分离卷积，如Xception^[18]、GhostNet^[19]等，本文也使用深度可分离卷积来实现轻量级的特征提取网络。

1.2 感受野控制

感受野直接影响着网络精度，网络的感受野越大，获取到的图像的全局特征也就越多，这在HRNet上得到了充分验证。HRNet精度之所以很高，就是因为它有一个固定的、具有极大感受野的特征提取分支。在该分支上，特征图尺寸不会缩小，在特征提取过程中几乎没有丢失信息。但是这种提升感受野的方式会带来巨大的参数量，使模型推理时间大幅增加，对于速度优先级较高的网络并不适用，而膨胀卷积在提升感受野的同时并不会增加参数量，适合用于轻量级网络设计。

膨胀卷积是指在常规的卷积核中添加空洞，此操作可以在计算量不变的情况下增大卷积核的大小和卷积操作的感受野。如图 2所示，对于一个3×3的卷积核，当设置膨胀率为2时，会在每一对相邻卷积核之间添加一个值为0的点，从而使卷积核大小变为5×5。

	Download: JPG larger image
图 2 膨胀卷积感受野 Fig. 2 Receptive field of expanded convolution

膨胀后卷积核大小的计算公式如下：

$ {k_{{\rm{dw}}}}{\rm{ = }}r \times \left( {{k_{\rm{c}}} - 1} \right) + 1 $

(1)

其中：${k_{{\rm{dw}}}}$为膨胀后卷积核的边长；r为膨胀率；k_c为未膨胀卷积核的边长。卷积核膨胀后感受野范围得到了扩大，而更大感受野的卷积操作能够提取出更大尺度的图像特征，这对准确的场景理解和分割精度提升非常有效。高精度的分割算法如DeepLab也大量使用了膨胀卷积，并且并联不同膨胀率的特征图设计了ASPP模块，以此融合不同尺度的空间特征。但是，膨胀卷积存在特征图稀疏的问题：膨胀率变大，卷积核之间的空洞随之增大，而当膨胀率过大时，卷积核会变得非常离散，也就不能提取到更多全局特征的信息，从而导致特征图非常稀疏，提取到的特征会缺少细节信息，影响图像分割精度。

1.3 注意力机制

随着SE-Net^[20]尝试使用基于通道的注意力机制，在图像分类中实现了较好的分割性能，注意力机制便成为深度神经网络的有力工具^[21]。它可以利用特征图的通道特征和空间特征约束网络训练，从而学习到有效特征，提升对于细节的分割精度。由于通道注意力机制在提升特征有效性的同时几乎不增加参数量，因此本文在设计编码模块时使用通道注意力机制模块提升模型的准确率。

2 场景分割方法优化 2.1 残差瓶颈结构设计

为减少模型的参数计算量同时达到高分割精度，本文在网络中添加一个残差瓶颈结构作为网络的基础模块。残差瓶颈结构如图 3所示。

	Download: JPG larger image
图 3 残差瓶颈结构 Fig. 3 Residual bottleneck structure

瓶颈编码模块包括2个调整特征通道的1×1卷积、1个深度可分离卷积、1个通道注意力模块和1条残差连接，具体设计目的和思路如下：

1）为降低模型的计算量和参数量，使用降维-升维的瓶颈结构。先使用1×1卷积对通道数进行压缩，压缩后使用3×3深度可分离卷积提取特征，再使用1×1卷积进行特征升维。为提升感受野，提取不同尺度的特征信息，3×3深度可分离卷积带有膨胀系数。

2）进行深度可分离卷积操作后，在升维卷积操作前加入SE-Net网络使用的通道注意力机制模块。该模块的计算过程如图 4所示。首先对特征通道进行全局平均池化操作，然后连接全连接层学习每个通道的权重值，并利用sigmoid函数归一化到[0, 1]，最后对特征层进行通道加权，从而筛选特征的每个通道的信息，以此进一步提高分割准确度。

	Download: JPG larger image
图 4 通道注意力模块计算流程 Fig. 4 Calculation procedure of channel attention module

3）为缓解膨胀卷积引起的稀疏化问题，在瓶颈结构中加入残差边连接，将特征层的输入和提取后的特征层相加，从而补充因膨胀卷积稀疏化而在特征提取时丢失的信息，同时残差连接也可以有效避免由网络深度增加带来的梯度消失问题。

2.2 网络结构设计

本文网络模型使用的是编码器-解码器网络框架，在编码器端获取上下文信息和语义信息，在解码器端对提取的特征进行上采样和图像分割。为实现实时分割，本文没有对解码器进行复杂设计，而是使用高效的特征上采样模块。此外，由于网络越深获取的语义特征越丰富，但是空间信息丢失也越多，因此本文设计的网络在解码阶段对不同层次的特征进行重利用，以高级语义特征融合低级图像特征，从而丰富模型特征，提高模型分割精度。

本文模型结构如图 5所示，其中，c代表concat操作，模型输入图像尺寸为512像素×512像素。为有效提取深层语义特征，编码器级联2个特征提取网络。第1级主干网络使用7个残差瓶颈结构模块作为基础单元构成特征提取的主干网络，每一个瓶颈结构模块的参数不同，相同通道数的瓶颈结构模块的膨胀率不同，以此获得不同感受野与不同尺度的特征。经实验验证，当膨胀率在8以上时，特征图的稀疏化非常严重，严重影响精度。因此，设置膨胀率为2、4或8。经过7个瓶颈结构模块提取深层特征以后，对特征图进行上采样送入第2级特征提取网络，第2级特征提取网络由4个瓶颈结构模块和1个平均池化层构成，4个瓶颈结构模块在提取特征的同时融合第1个主干网络特征提取时相同尺度的特征图，减小特征提取时丢失的信息，之后使用平均池化对特征进行多尺度融合，再送入解码器模块。在解码过程中，融合第2个特征提取网络中相同层次的特征，补充特征图细节，最后进行场景分割结果输出。

	Download: JPG larger image
图 5 本文网络模型结构 Fig. 5 Structure of the proposed network model

3 实验 3.1 数据集及训练平台

使用NYUDv2数据集^[22]对本文提出的网络模型进行训练和评估。NYUDv2是针对室内场景专门制作的语义分割数据集，最细分类可以达到895类。为简化分类任务、增大类间距离以降低分类难度，本文使用的为类别缩减映射后的40类数据集。该数据集共包括1 448张精细标注的样本，图像尺寸为640像素×480像素。为模拟室内环境变化，本文对1 348张室内场景图像进行数据增强，对原始图像做小幅度的随机色相和明度偏移，在随机裁剪、缩放、翻转、平移数据增强后进行模型训练，使用400张未预处理的原始图像进行验证测试。为进一步测试本文模型性能，在CamVid数据集上进行测试，CamVid数据集是针对道路街景制作的分割数据集，其中采集了50个城市不同天气的行车视角街景，包括行人、车辆、道路等11个类别，共1 402幅精细标注的复杂街景图像。本文使用1 169幅图像进行训练，在233张的测试集上进行验证测试。

本文实验的软件环境为Ubuntu18.04 64 bit操作系统，深度学习软件框架为Pytorch，硬件环境为Intel^Ⓡ Xeon^Ⓡ CPU E5-2620 v4 2.1 GHz处理器，64 GB内存，GPU为NVIDIA GTX TITAN XP 12G。

3.2 训练策略与超参数设置

为使网络模型达到较高的准确率，目前在训练网络时一般会使用该模型在ImageNet数据集训练的参数初始化网络。但是本文网络为自己设计，如果使用迁移学习，需要在ImageNet数据集上做预训练。考虑到ImageNet数据集庞大，如果没有大型GPU集群，训练耗时会非常长，并且Facebook的AI实验室的验证^[23]表明，即使不做预训练，最终模型精度也会达到接近预训练效果的水平，因此，本文使用多阶段参数调整的训练策略，如图 6所示。

	Download: JPG larger image
图 6 训练策略示意图 Fig. 6 Schematic diagram of training strategy

在第1个阶段，随着迭代次数的上升，学习率降低，模型较好地收敛，之后加大学习率进入第2个阶段的训练，反复这个过程，能够使模型跳出前一训练阶段损失收敛的局部最小值，使模型找到一个更大范围内的最优参数。训练的损失值变化曲线如图 7所示。可以看出，损失值的4次波动下降状态分别代表着4个阶段的训练过程，损失值的大小在经历4个阶段的训练后比第1个阶段结束时降低较多。

	Download: JPG larger image
图 7 训练损失值变化曲线 Fig. 7 The training loss change curve

对于优化器，选择Adam^[24]优化器来优化模型参数，批样本量设置为16，Dropout失活率设置为0.5。对于损失函数，使用像素级交叉熵函数作为目标函数，其函数定义如下：

$ L = \frac{1}{n}\sum\limits_i {{L_i}} = \frac{1}{n}\sum\limits_i {\left( { - \sum\limits_{c = 1}^M {\left( {{y_{ic}}\ln {p_{ic}}} \right)} } \right)} $

(2)

其中：M为类别数量；y_ic为指示变量，若样本i的分类结果与标签类别c相同，则为1，否则为0；p_ic代表样本i属于类别c的概率。

3.3 评价指标

为全面地评价模型性能，本文使用像素准确率（Accuracy，ACC）、平均交并比（Mean Intersection over Union，MIoU）和频率加权交并比（Frequency Weight Intersection over Union，FWIoU）这3个指标来体现分割精度。像素准确率的计算公式如下：

$ A = \frac{{{p_{\rm{t}}}}}{{{p_{{\rm{sum}}}}}} $

(3)

其中：p_t代表分类正确的像素数；p_sum代表像素总数。在平均交并比指标中，IoU表示预测结果与真实值交集的面积比上他们并集的面积，MIoU为所有类别IoU的平均值。频率加权交并比即使用每一类像素出现的频率对IoU加权计算得到的值，其评价样本分布不均衡的数据更科学，计算公式如式（4）所示：

$ {F_{\rm{F}}}_{{\rm{WIoU}}} = \sum\limits_0^r {\frac{{{P_r}}}{{{P_{{\rm{sum}}}}}}} \times {I_{{\rm{IoU}}}}_r $

(4)

其中：r为类别数；p_n为第n个类别所有的像素数，将其比上p_sum即可求出该类别样本数量在数据集中的比例，再与该类别的交并比I_IoUn相乘即完成加权。

同时，为更全面地评价模型的复杂度，本文使用模型参数衡量模型的空间复杂度，并且使用每秒浮点计算次数（Floating Point Operations，FLOPs）与帧率（FPS）这2个指标衡量模型的时间复杂度。FLOPs的计算公式^[25]如式（5）所示：

$ F = \left[ {\left( {{K_H} \times {K_W} \times {C_{{\rm{in}}}}} \right) \times {C_{{\rm{out}}}}} \right] \times \left( {H \times W} \right) = {p_{{\rm{params}}}} \times W \times H $

(5)

其中：H、W为卷积输入特征图的高和宽；K_H、K_W为卷积核的长和宽；C_in和C_out为卷积层输入和输出的通道数；p_params为该卷积层的所有参数。

3.4 实验结果与分析 3.4.1 NYUDv2数据集上的实验结果分析

本文在NYUDv2数据集上使用40类分类标准进行训练及测试，并对比了经典、常用的分割算法，精度对比结果如表 1所示。可以看出：本文算法总体分割精度，大幅领先于SegNet和UNet，略低于DeepLabv3+和PSPNet，这主要是因为UNet和SegNet网络的感受野固定而本文网络使用膨胀卷积，提升了感受野，并且本文多层次特征融合较多，而UNet与SegNet较少，而PSPNet与DeepLabv3+则使用不同的金字塔结构获得了更大的感受野，从而融合了更多全局特征，使得分割更为精准。

下载CSV 表 1 在NYDUv2数据集上的精度对比 Table 1 Accuracy comparison on NYDUv2 dataset

为更全面地对比5种算法分割准确度，统计各算法针对NYUDv2数据集不同类别的IoU，结果如表 2所示。从表 2可知，本文算法在各类别的分割精度上均处在一个较高的水平，在一些UNet与SegNet分割效果不好的类别（windows、bookshelf、mirror等）上得到了很高的准确率，并且与DeepLabV3+和PSPNet精度差距不大，充分验证了感受野提升和特征融合对精度提升的效果，并且各类之间的分割精准度总体也比较均衡，鲁棒性较好。

表 2 针对NYUDv2数据集不同类别的分割结果对比 Table 2 Segmentation result comparison for different object categories on NYUDv2 dataset

%
算法	bg	wall	floor	cabinet	bed	chair	sofa	table	door	window	bookshelf	picture	counter	blinds	desk	shelves	curtain	dresser	pillow
SegNet	72.8	69.3	66.6	63.3	56.4	59.9	68.3	64.3	52.5	24.0	41.6	64.8	56.7	66.9	35.0	31.3	42.4	54.2	60.5
UNet	82.6	76.8	71.2	71.1	75.5	63.3	77.6	70.9	54.8	55.2	55.9	70.4	67.2	83.6	50.6	58.7	52.7	64.2	65.5
DeepLabV3+	87.8	89.6	89.2	87.5	93.6	74.8	88.2	78.8	76.1	81.4	82.2	77.5	79.7	90.5	71.7	73.2	81.8	88.8	89.2
PSPNet	86.7	86.1	85.9	86.4	93.2	72.3	86.1	78.6	79.5	76.6	77.6	78.4	77.6	87.6	72.5	69.2	90.4	88.2	86.1
本文算法	84.9	87.6	84.2	75.5	86.7	70.8	82.2	76.4	75.6	70.1	74.4	73.2	70.1	89.7	70.5	64.7	76.2	74.8	88.6

算法	mirror	floormat	clothes	ceiling	book	fridge	tv	paper	towel	shower	bath hub	board	person	nightstand	toilet	sink	lamp	box	bag
SegNet	26.9	60.9	28.2	65.9	28.9	66.9	58.7	46.2	46.4	58.9	44.6	46.2	38.8	48.9	66.0	66.2	47.9	58.3	31.9
UNet	35.9	64.9	33.2	66.9	40.9	82.6	76.2	56.7	62.1	80.5	58.2	67.7	54.4	64.6	80.8	82.9	51.1	68.1	35.6
DeepLabV3+	89.2	84.2	62.8	85.7	72.2	84.6	83.1	78.5	94.4	96.9	82.8	95.0	78.8	82.3	85.4	82.5	55.4	92.8	61.5
PSPNet	85.1	74.3	60.3	83.3	66.0	79.8	82.9	69.8	77.4	94.7	79.8	93.1	75.4	67.9	83.5	84.3	49.5	84.3	45.9
本文算法	79.3	70.1	44.2	80.5	67.2	72.2	84.6	68.2	72.5	87.4	75.8	82.9	69.0	66.7	76.0	80.5	50.4	69.9	42.8

下载CSV 表 2 针对NYUDv2数据集不同类别的分割结果对比 Table 2 Segmentation result comparison for different object categories on NYUDv2 dataset

5种算法的复杂度对比如表 3所示，可以看出，本文算法无论是计算复杂度、参数量还是推理速度（即帧率）都大幅优于其他算法，再次证明使用深度可分离卷积构建轻量级主干网络可降低参数量与计算复杂度。对比DeepLabV3+与PSPNet这2个高精度、高模型复杂度的算法，本文算法计算力仅为其1%，而在PC端GPU推理速度是它们的10倍以上。

下载CSV 表 3 复杂度对比 Table 3 Complexity comparison

综上所述，本文提出算法在保证较高分割精度的同时，对设备计算力要求不高，十分利于边缘计算设备部署。

5种算法室内场景分割的视觉效果如图 8所示。由图 8（c）~图 8（d）可以看出：UNet与SegNet对于大目标的分割还是出现了一些类别混淆，如门、橱柜、镜子等，其他3个算法对大目标分割都比较精准，得到的大目标的边缘轮廓部分也十分清晰；而对于小目标分割，DeeplabV3+的效果是最好的。对比图 8第4行图像中橱柜上杯子的真实标签及分割效果可知，除了DeepLabV3+外，其他算法都出现了程度不一的分类混淆。对于小目标的边缘轮廓，如图 8中第1行、第2行图像的床头灯、盥洗台等物品，各个算法的分割效果均不太理想，主要原因是数据集小目标样本分布不均衡会导致模型分割效果偏向样本量更多的类别，另外一个原因就是小尺度目标在图像中占像素量少，提取特征时经过几次下采样后，小目标的特征图尺寸已经被压缩到非常小了，提取的特征较为有限，从而导致小目标及其边缘的分割效果不佳。

	Download: JPG larger image
图 8 NYDUv2场景分割视觉效果 Fig. 8 Scene segmentation visual effects on NYUDv2 dataset

结合表 2所示的精度指标和图 8所示的分割效果可知，本文算法对复杂室内场景的分割准确度较高，非常接近PSPNet及DeepLabV3+的分割精度和效果，可满足室内服务机器人场景理解的基础要求。

3.4.2 CamVid数据集上的实验结果分析

在CamVid数据集上的精度分割实验结果如表 4所示。可以看出，在非室内场景下，本文算法的分割准确度也是相对较高的，FWIoU和MIoU差异相较于NYUDv2的结果大一些，这是由CamVid的数据分布不均衡造成的，仅道路、天空、建筑和树等4个类别样本量就占了数据集的73%，所以，各个算法的加权IoU都处于较高的水平。从MIoU的指标可以看出，面对样本分布不太均衡的数据集，本文算法即使不针对均衡样本做处理，分割准确度也优于SegNet和UNet算法。

下载CSV 表 4 在CamVid数据集上的精度对比 Table 4 Accuracy comparison on CamVid dataset

各个类别的详细分类IoU如表 5所示。可以看出各算法在建筑、天空、道路等大目标上的分割准确度都较高。在车辆这类中型目标上，本文算法大幅领先于SegNet和UNet，与DeepLabV3+和PSPNet精度非常接近。在标志牌，电线杆这类小目标的分割精度上，本文算法也与DeepLabV3+和PSPNet在同一水平。

下载CSV 表 5 针对CamVid数据集不同类别的分割结果对比 Table 5 Segmentation result comparison for different object categories on CamVid dataset

在CamVid数据集上5种算法分割的视觉效果如图 9所示。可以看出，本文算法的分割效果较好，车辆、建筑的边缘清晰。从图 9（g）第1行可以看出，即使在光照效果不佳的情况下，本文算法的分割效果也很好，而Unet和Segnet在同场景时，右下角的车辆出现了类别混淆。

	Download: JPG larger image
图 9 CamVid场景分割视觉效果 Fig. 9 Scene segmentation visual results on CamVid dataset

综上，本文算法相较常用的先进分割算法取得了较优的效果，从而再次验证了算法的优秀性能，其能有效地学习到图像的语义特征，并准确地表达物体的语义信息，从而大幅提升了场景解析的效果。

3.5 机器人嵌入式端部署

本文使用机器人平台计算核心板为NVIDIA Jetson XavierNX。XavierNX为NVIDIA发布的嵌入式GPU平台，在15 W的低功耗环境下，可以有6.8 TFLOPs的单精度计算能力，如果以INT8模式进行计算，则有高达21 TOPs的计算能力。在PC端训练模型后，将模型导出并使用NVIDIA的推理加速引擎TensorRT对模型进行合并层、并行优化等操作，将其序列化为TensorRT的引擎，将模型从FP32量化为FP16，从而既压缩了模型大小，又避免了INT8量化时精度损失较多的问题。在未量化及TensorRT加速时，模型在嵌入式端对512像素×512像素的图像推理速度为19 frame/s，经过TensorRT加速和量化后，嵌入式端的推理速度提升到42 frame/s，加速比约为2.2，加速后可实现在嵌入式平台上的实时室内场景分割。

4 结束语

本文针对室内服务机器人的场景分割任务，提出一种基于轻量级网络的实时语义分割算法，结合深度可分离卷积、膨胀卷积和通道注意力机制，设计以残差瓶颈结构为基础模块的级联特征提取网络。该网络的参数量较少，能够在保证低时间复杂度的同时提取到更深层的语义信息，并融合多尺度特征得到较高的MIoU分割精度。实验结果表明，与SegNet、UNet、PSPNet等先进分割算法相比，本文算法具有优异的预测速度，对移动设备的算力要求不高，可实现实时准确的室内场景分割，满足实际的机器人场景理解需求。然而该算法存在小目标分割和边缘分割不准确的问题，下一步将对此进行改进，通过结合多尺度及边缘分割方法，实现对室内场景更高准确率的精准分割。

参考文献

[1]	XU X Y, XU S Z, JIN L H, et al. Characteristic analysis of Otsu threshold and its applications[J]. Pattern Recognition Letters, 2011, 32(7): 956-961. DOI:10.1016/j.patrec.2011.01.021
[2]	OTSU N. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI:10.1109/TSMC.1979.4310076
[3]	YANG J, LI W G, GUO W X. Research on color image segmentation method based on soccer robot[J]. Journal of Inner Mongolia University of Technology(Natural Science Edition), 2013, 32(2): 30-33. (in Chinese) 杨静, 李卫国, 郭文霞. 基于足球机器人的彩色图像分割方法研究[J]. 内蒙古工业大学学报(自然科学版), 2013, 32(2): 30-33.
[4]	WANG L, JI J, DENG Y S. Design of underwater pipeline inspection robot based on image segmentation[J]. Robot Technique and Application, 2017(4): 37-40. (in Chinese) 王乐, 纪竟, 邓彦松. 基于图像分割的水下管道检测机器人设计[J]. 机器人技术与应用, 2017(4): 37-40. DOI:10.3969/j.issn.1004-6437.2017.04.011
[5]	ZHAO Y C, LIN F S, LIU S G, et al. Separate degree based Otsu and signed similarity driven level set for segmenting and counting anthrax spores[J]. Computers and Electronics in Agriculture, 2020, 169: 1-5.
[6]	LIN W M, HU Y T. Image segmentation method of tomato harvesting robot based on YUV color model[J]. Journal of Agricultural Machinery, 2012, 43(12): 176-180. (in Chinese) 林伟明, 胡云堂. 基于YUV颜色模型的番茄收获机器人图像分割方法[J]. 农业机械学报, 2012, 43(12): 176-180. DOI:10.6041/j.issn.1000-1298.2012.12.032
[7]	TAO W B, JIN H, ZHANG Y M. Color image segmentation based on mean shift and normalized cuts[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B(Cybernetics), 2007, 37(5): 1382-1389. DOI:10.1109/TSMCB.2007.902249
[8]	LEI J, WANG L H, HE Y Q, et al. Image segmentation method suitable for robot vision[J]. Journal of Systems Engineering and Electronics, 2017, 39(7): 1653-1659. (in Chinese) 雷俊, 王立辉, 何芸倩, 等. 适用于机器人视觉的图像分割方法[J]. 系统工程与电子技术, 2017, 39(7): 1653-1659.
[9]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[10]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[11]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[12]	CHEN L J, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]//Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: [s. n. ], 2014: 1-14.
[13]	CHEN L J, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184
[14]	CHEN L J, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 801-818.
[15]	ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2881-2890.
[16]	ZHAO Y C, LIN F S, LIU S G, et al. Constrained-focal-loss based deep learning for segmentation of spores[J]. IEEE Access, 2019, 7: 165029-165038. DOI:10.1109/ACCESS.2019.2953085
[17]	HUANG J J, ZHU Z, HUANG G. Multi-stage HRNet: multiple stage high-resolution network for human pose estimation[EB/OL]. (2019-10-14)[2020-10-25]. https://arxiv.org/pdf/1910.05901.pdf.
[18]	CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1251-1258.
[19]	HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]//Proceedings of 2020 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press. 2020: 1580-1589.
[20]	HU J, SHEN L, SUN G, et al. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press. 2018: 7132-7141.
[21]	CHEN L, ZHANG H W, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press. 2017: 5659-5667.
[22]	GUPTA S, ARBELAEZ P, MALIK J. Perceptual organization and recognition of indoor scenes from RGB-D images[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2013: 564-571.
[23]	HE K M, GIRSHICK R, DOLLÁR P. Rethinking imageNet pre-training[C]//Proceedings of 2019 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 4918-4927.
[24]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. (2015-07-20)[2020-10-25]. https://arxiv.org/pdf/1412.6980v7.pdf.
[25]	SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2818-2826.