基于改进Deeplab v3+的服装图像分割网络

引用本文

胡新荣, 龚闯, 张自力, 等. 基于改进Deeplab v3+的服装图像分割网络[J]. 计算机工程, 2022, 48(7), 284-291. DOI: 10.19678/j.issn.1000-3428.0062392.

HU Xinrong, GONG Chuang, ZHANG Zili, et al. Clothing Image Segmentation Network Based on Improved Deeplab v3+[J]. Computer Engineering, 2022, 48(7), 284-291. DOI: 10.19678/j.issn.1000-3428.0062392.

基金项目

湖北省高校优秀中青年科技创新团队计划项目(T201807)

作者简介

胡新荣(1973—)，女，教授、博士，主研方向为自然语言处理、图形图像处理、虚拟现实;
龚闯，硕士研究生;
朱强，讲师、博士;
彭涛，副教授、博士;
何儒汉，教授、博士

文章历史

收稿日期：2021-08-18
修回日期：2021-10-21

Contents Abstract Full text Figures/Tables PDF

基于改进Deeplab v3+的服装图像分割网络

胡新荣^1,2,3 , 龚闯^1,2,3 , 张自力^1,2,3 , 朱强^1,2,3 , 彭涛^1,2,3 , 何儒汉^1,2,3

1. 湖北省服装信息化工程技术研究中心, 武汉 430200;
2. 纺织服装智能化湖北省工程研究中心, 武汉 430200;
3. 武汉纺织大学计算机与人工智能学院, 武汉 430200

收稿日期：2021-08-18；修回日期：2021-10-21

基金项目：湖北省高校优秀中青年科技创新团队计划项目(T201807)

作者简介：胡新荣(1973—)，女，教授、博士，主研方向为自然语言处理、图形图像处理、虚拟现实; 龚闯，硕士研究生; 朱强，讲师、博士; 彭涛，副教授、博士; 何儒汉，教授、博士.

E-mail: hxr@wtu.edu.cn

摘要：在服装图像分割领域，现有算法存在服装边缘分割粗糙、分割精度差和服装深层语义特征提取不够充分等问题。将Coordinate Attention机制和语义特征增强模块(SFEM)嵌入到语义分割性能较好的Deeplab v3+网络，设计一种用于服装图像分割领域的CA_SFEM_Deeplab v3+网络。为了加强服装图像有效特征的学习，在Deeplab v3+网络的主干网络resnet101中嵌入Coordinate Attention机制，并将经过带空洞卷积池化金字塔网络的特征图输入到语义特征增强模块中进行特征增强处理，从而提高分割的准确率。实验结果表明，CA_SFEM_Deeplab v3+网络在DeepFashion2数据集上的平均交并比与平均像素准确率分别为0.557、0.671，相较于Deeplab v3+网络分别提高2.1%、2.3%，其所得分割服装轮廓更为精细，具有较好的分割性能。

Clothing Image Segmentation Network Based on Improved Deeplab v3+

HU Xinrong^1,2,3 , GONG Chuang^1,2,3 , ZHANG Zili^1,2,3 , ZHU Qiang^1,2,3 , PENG Tao^1,2,3 , HE Ruhan^1,2,3

1. Engineering Research Center of Hubei Province for Clothing Information, Wuhan 430200, China;
2. Hubei Provincial Engineering Research Center for Intelligent Textile and Fashion, Wuhan 430200, China;
3. School of Computer Science and Artificial Intelligence, Wuhan Textile University, Wuhan 430200, China

Abstract: To solve the problems of rough clothing edge segmentation, unsatisfactory segmentation accuracy, and insufficient deep semantic feature extraction in clothing image segmentation, the Coordinate Attention(CA) mechanism and Semantic Feature Enhancement Module(SFEM) are embedded into the Deeplab v3+ network, whichfeatures good semantic segmentation performance, and a CA_SFEM_Deeplab v3+ network is proposed for clothing image segmentation in this study.To strengthen the learning of effective features in clothing images, the CA mechanism module is embedded into resnet101, which is the backbone network of the Deeplab v3+ network, and the feature map after convolution pooling is performed on a pyramid with holes is input into the SFEM for feature enhancement.Consequently, the segmentation accuracy improved.Experimental results show that the mean Intersection over Union(mIoU) and Mean Pixel Accuracy(MPA) of the CA_SFEM_Deeplabv3 + network are 0.557 and 0.671, respectively, in the DeepFashion2 dataset, which are 2.1% and 2.3% higher than those of the Deeplab v3 + network, respectively.Compared with the Deeplab v3+ network, the proposedCA_SFEM_Deeplab v3+offersa finer segmentation of the clothing contour and better segmentation performance.

开放科学(资源服务)标志码(OSID)：

0 概述

近年来，随着服装设计行业的发展和在线购物的兴起，服装图像的视觉解析变得越来越重要。其中对服装图像分割有利于将服装进行细分和归类。一方面，服装图像的分割细分了不同的服装部件，给设计师带来创作时尚新品的灵感。另一方面，消费者面对服装图像的精细分割，不仅可以获取更好的穿着偏好，而且可以进一步了解服装信息，提升购物体验感。

服装分割方法主要利用手工设计的特征和预估的人体姿态预测像素级标注。文献[1]提出一种应用于服装领域的分割框架，但该方法需要在图像的像素标注上耗费巨大的人力物力和时间成本；文献[2]提出一种弱监督的方法，虽然该方法省时省力，仅需使用基于服装图像颜色进行标注的标签和人体姿态估计，但该方法仍然有过于依赖人体姿态的弊端；文献[3]提出一种用于针对服装复杂纹理图像的服装解析改进方法，但该方法对服装复杂不规则的相似颜色纹理解析较差。

随着深度学习领域的快速发展，深度卷积神经网络(Deep Convolutional Neural Networks，DCNN)表现出强大的特征提取和表征能力。基于全卷积网络(Fully Convolutional Networks，FCN)^[4]端到端经典语义分割模型的出现，虽然取得了很大的成功，但由于网络结构固定，FCN也显露出了诸多弊端，例如：没有考虑全局上下文信息，将特征图上采样还原成原图大小的图像会造成像素定位不准确。文献[5]提出用于生物医学图像分割领域的U-Net网络，不过在做多分类的任务时，U-Net卷积网络不仅分割的边缘轮廓较差，而且容易造成显存溢出。文献[6]提出将FCN、SegNet和边缘检测结合的集成学习方法，该方法在分割高分辨率的遥感图像时既减少了分割误差，又提高了分割精度。在处理外观较为相似的物体时，PSPNet^[7]网络使用了空间金字塔池化，对不同区域的上下文进行聚合，提升了网络利用全局上下文信息的能力。此外，SegNet^[8]、RefineNet^[9]等语义分割网络均采用编解码结构捕获细节的信息，提高了分割精度。文献[10]提出的语义分割网络利用服装语义分析预测图结合学习到的人体关节信息，能更好地定位服装分割区域，解决了过度分割过程中依赖手工设计特征和依赖人体姿态等问题。该方法分割性能较高，但对深层特征图的语义信息提取不够充分，且会导致空间信息的丢失，该方法在对现实生活中的复杂服装图像或者包含繁琐干扰性极强的背景图像进行分割时，分割的效果仍然不够理想。

目前注意力机制广泛应用于深度学习领域，特别是在图像处理方面发展迅速。文献[11]设计了DANet网络，通过引入自注意力机制，并融合局部语义特征和全局依赖，提高了分割精度。文献[12]提出SENet网络，简单地压缩每个二维特征图以有效地构建通道之间的相互依赖关系，CBAM^[13]进一步推进了该方法，通过大尺寸内核的卷积引入空间信息编码。

为了应对较为复杂的服装分割任务，本文提出一种基于改进Deeplab v3+的服装图像分割网络。采用语义分割性能较好的Deeplab v3+网络^[14]，并引入注意力机制，利用Coordinate Attention机制捕获得位置信息和通道关系，从而更有针对性地获学习目标区域的特点，获取更好的精细图像特征。在此基础上，为提取高层特征图的语义信息，引入语义特征增强模块，通过对不同大小的特征图应用non-local注意块来处理不同大小的服装图像，并将每个non-local注意块的输出进行融合，增强更深层的语义特征。

1 服装分割网络

本文的服装分割网络使用深度学习语义分割领域性能较好的Deeplab v3+网络及其相关改进网络。下文依次介绍服装分割过程图、Deeplab v3+网络和改进Deeplab v3+的网络。

1.1 服装分割流程

本文的服装分割方法主要是基于改进的Deeplab v3+网络。首先获取服装数据集，处理服装数据集的标签，得到处理完成的服装数据集。然后将服装数据集作为输入送入到服装分割网络中进行训练，当网络损失收敛到一定程度，且在验证集的准确率趋于饱和时停止训练，得到最终服装分割网络。最后输入服装图像到训练好的服装分割网络进行预测，得到不同种类的服装预测分割图像。具体的服装分割流程如图 1所示。

	Download: JPG larger image
图 1 服装分割流程 Fig. 1 Clothing segmentation procedure

1.2 Deeplab v3+网络

Deeplab v3+是由谷歌公司开发的一种使用空间金字塔模块和编解码器结构的语义分割网络。Deeplab v3+的核心思想是利用端对端的训练方式，该网络的编码器结构由骨干网络resnet101和ASPP^[14]模块组成，resnet101作为骨干网络，提取图像生成的高级语义特征图，后面连接ASPP模块，含有多个空洞卷积扩张率，用于将resnet101生成的高级特征图进行多尺度采样，得到多尺度的特征图，将得到的特征图在通道维度上进行组合，最后送入到卷积核大小为1$ \times $1的卷积核，以此降低通道维度。解码模块将编码模块得到的降维特征图进行4倍上采样与resnet101中间的原图1/4大小的高层特征图融合，再进行双线性插值上采样。编码模块的特征图获取的是图像语义信息，resnet101中间下采样获取图像的细节信息。Deeplab v3+的网络结构如图 2所示。将Deeplab v3+网络用于服装分割领域，可以发现该网络在对服装进行分割时，存在对服装的轮廓分割略显粗糙，遇到复杂背景分割错误等问题。

	Download: JPG larger image
图 2 Deeplab v3+网络结构 Fig. 2 Deeplab v3+ network structure

1.3 改进的Deeplab v3+网络结构

近几年出现的注意力机制广泛地应用于深度学习的诸多领域^[15-16]。注意力机制的作用可简单地解释为：告诉模型“什么”和“在哪里”出现，已经被广泛研究^[17-18]，并被用来提高现在深层神经网络的性能^{[12, 19-21]}。注意力机制^[22-23]已经被证明在各种计算机视觉任务中有帮助。因此，本文将Coordinate Attention^[24]引入到Deeplab v3+网络中，有效地捕获位置信息和通道信息之间的关系，以此来提高服装分割的精确度。在Deeplab v3+原网络中训练服装分割数据集，通过resnet101下采样提取到特征图，仅为输入网络图像1/16大小的特征图，考虑到高层卷积提取的特征图较小，得到的特征比较抽象，本文将resnet101提取到较小的高层特征图经过语义特征增强模块，有效地获取更加丰富的语义信息。

下文将分别介绍Coordinate Attention机制、语义特征增强模块(SFEM)^[25]和CA_SFEM_Deeplab v3+网络结构。

1.3.1 Coordinate Attention机制

Coordinate Attention是一种具有轻量级属性的注意力方法，它能有效地捕获位置信息和通道信息的关系。Coordinate Attention是一个计算单元，旨在增强学习特征的表达能力，它可以取任意中间特征张量X=[x₁，x₂，…，x_c]$ \in $$ \mathbb{R} $^C×H×W作为输入，并且输出与X大小相同的具有增强表示的变换张量Y=[y₁，y₂，…，y_c]。Coordinate Attention通过精确的位置信息对通道关系和长期依赖性进行编码，具体操作分为Coordinate信息嵌入和Coordinate Attention生成两个步骤。Coordinate Attention结构如图 3所示。

	Download: JPG larger image
图 3 Coordinate Attention结构 Fig. 3 Coordinate Attention structure

1) Coordinate信息嵌入全局池化方法通常用于通道注意力编码空间信息的全局编码，如SE(Sequeze and Excitation)block^[12]挤压步骤，给定输入X，第c个通道的压缩步骤可以表示为如式(1)所示，由于它将全局信息压缩到通道描述符中，导致难以保存位置信息。为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互，按照式(1)分解全局池化，转化为一对一维特征编码操作：

$ {z}_{c}=\frac{1}{H\times W}\sum\limits_{j=1}^{W}{x}_{c}\left(i, j\right) $

(1)

其中：z_c表示第c通道的输出；x_c(i，j)表示第c通道的高度坐标i和宽度坐标j位置特征图的数值；H和W分别为特征图的高度和宽度。

具体地，给定输入X，首先使用尺寸为(H，1)和(1，W)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码。因此，第c通道的高度为h的输出可以表示为：

$ {z}_{c}^{h}\left(h\right)=\frac{1}{W}\sum\limits_{0\le j\le W}{x}_{c}(h, j) $

(2)

其中$ ：{z}_{c}^{h}\left(h\right) $表示第c通道的高度为h的输出；$ {x}_{c}(h, j) $表示第c通道的高度为h、宽度坐标为j的特征图的数值；W表示特征图的宽度。

第c通道的宽度为w的输出可以写成：

$ {z}_{c}^{w}\left(w\right)=\frac{1}{H}\sum\limits_{0\le i\le H}{x}_{c}(i, w) $

(3)

其中$ ：{z}_{c}^{w}\left(w\right) $表示第c通道的高度为w的输出；$ {x}_{c}(i, w) $表示第c通道的宽度为w、高度坐标为i的特征图的数值；H表示特征图的高度。

上述两种变换分别沿两个空间方向聚合特征，得到一对方向感知的特征图。这与在通道注意力方法中产生单一的特征向量的SE block非常不同。这两种转换也允许注意力模块捕捉到沿着一个空间方向的长期依赖关系，并保存沿着另一个空间方向的精确位置信息，这有助于网络更准确地定位感兴趣的目标。

2) Coordinate Attention生成如上所述，已经可以很好地获得全局感受野并编码精确的位置信息。为了利用由此产生的特征，给出了以下两个变换，称为Coordinate Attention生成。通过信息嵌入中的变换后，由式(4)和式(5)产生的聚合特征图进行了拼接(concatenate)操作，使用1×1卷积变换函数F₁对其进行变换操作：

$ \boldsymbol{f}=\delta \left({F}_{1}\right([{z}^{h}, {z}^{w}]) $

(4)

其中：[·，·]是沿空间维度的拼接操作；δ为非线性激活函数；f∈$ \mathbb{R} $^C/r×(H+W)是对空间信息在水平方向和垂直方向进行编码的中间特征图，r是用来控制SE、SE block大小的缩减率，然后沿着空间维度将f分解为2个单独的张量f^h∈$ \mathbb{R} $^C/r×H和f^w∈$ \mathbb{R} $^C/r×W。利用另外2个1×1卷积变换F_h和F_w分别将f^h和f^w变换为具有相同通道数的张量输入到X，得到：

$ {g}^{h}=\sigma \left({F}_{h}\right({\boldsymbol{f}}^{h}\left)\right) $

(5)

$ {g}^{w}=\sigma \left({F}_{w}\right({\boldsymbol{f}}^{w}\left)\right) $

(6)

其中：σ是sigmoid激活函数。为了降低模型的复杂性和计算开销，通常使用适当的缩减比r来缩小f的通道数，然后对输出g^h和g^w进行扩展，分别作为注意力权重。最后Coordinate Attention块的输出Y=[y₁，y₂，…，y_c]可以得到：

$ {y}_{c}(i, j)={x}_{c}(i, j)\times {g}_{c}^{h}\left(i\right)\times {g}_{c}^{w}(j) $

(7)

1.3.2 语义特征增强模块

CNN网络深层包含语义特征，这些特征对检测和分割目标最重要。为了充分利用语义特性，受金字塔池^[26-277]启发，本文引入了语义特性增强模块(SFEM)，SFEM结构如图 4所示。

	Download: JPG larger image
图 4 SFEM结构 Fig. 4 SFEM structure

如图 4(a)所示，SFEM由3个平行分支的non-locol块组成，它将编码器特征图的输出作为输入，对特定大小的小块分别运用non-local注意力，而不是自适应平均池化。第一个分支将图像分成4个大小相同的小块(W/2×H/2)，对每个块分别进行non-local空间关注，然后将其折叠起来，如图 4(b)所示。类似地，第二个分支产生16个大小(W/4×H/4)的小块，并对每个块执行与第一个分支相同的操作。在本文的实验中，将编码器的输出特征图的大小设置为32×32。因此，第一个分支包含4个大小为16×16的小块，第二个分支包含16个大小为8×8的小块，最后一个分支对大小为32×32的整个特征图执行non-local^[28]操作。这3个分支的输出串联之后，再送入到处理挤压和激励块(SE块)，用于处理最重要的通道，将SE块^[12]的结果发送到所有解码器层。为了匹配每个解码器层的大小，对SFEM的输出进行了上采样。

如图 4(b)所示，以SFEM结构中第一条分支为例，描述了图像应用non-local注意力的详细版本，首先将图像分割成多个小块，然后对每个小块单独应用non-local注意力，最后将其折叠回整个图像。

1.3.3 CA_SFEM_Deeplab v3+网络结构

在Deeplab v3+原网络中训练服装数据集，虽然可以分割出各类服装和背景，但效果一般。本文考虑在主干网络resnet101中引入1.3.1节介绍的Coordinate Attention机制，沿一个空间方向捕获远程依赖关系，同时沿着另一个空间方向保留精确的位置信息。最后将生成的特征图分别编码为一对方向感知和位置敏感的attention map，可以将其互补地应用于输入特征图，以增强关注对象的表示。本文考虑将经过ASPP之后的特征图，送入语义特征增强模块(SFEM)进一步提取，不仅能够增强高层特征的语义信息，而且可以保证不丢失空间信息。CA_SFEM_Deeplab v3+网络结构具体描述如下：将嵌入Coordinate Attention机制的主干网络resnet101提取的高层特征图输入到ASPP结构，对主干网络提取的特征图以不同采样率的空洞卷积并行采样，以多个比例捕获图像的上下文得到多种特征图，将这些特征图融合送入1×1卷积之后得到256通道的特征图，此后将该256通道的特征图输入到两条不同的分支分别处理。第一条分支：256通道的特征图先进行4倍上采样，之后输入到Nonlocal中，得到第一条分支的特征图；第二条分支：将256通道的特征图输入到特征增强模块(SFEM)进一步提取特征，将SFEM输出的特征图进行4倍上采样，得到第二条分支的特征图。此后将第一条、第二条分支的特征图和resnet101中间的原图1/4大小高层特征图融合，将融合的特征图进行降采样和卷积，最后将输出的特征图进行4倍上采样得到预测分割图片。CA_SFEM_Deeplab v3+的网络结构如图 5所示。

	Download: JPG larger image
图 5 CA_SFEM_Deeplab v3+网络结构 Fig. 5 CA_SFEM_Deeplab v3+ network structure

2 实验与结果分析 2.1 数据集

本文实验的数据集来源于DeepFashion2^[29]，DeepFashion2是一种大规模的基准数据集，具有全面的任务和时尚图像理解的标注。DeepFashion2包含49.1万张图像，具有13种流行的服饰类别，在这个数据集上定义了全面的任务，包括服饰检测和识别、标记和姿态估计、分割、验证和检索。所有这些任务都有丰富的标注支持。DeepFashion2拥有最丰富的任务定义和较大数量的标签，它的标注至少是DeepFashion^[30]的3.5倍、ModaNet^[31]的6.7倍和FashionAI^[32]的8倍。基于以上这些特点，DeepFashion2非常适合作为本文实验服装分割的数据集。将标签json文件转为单通道分割png标签图，为了方便可视化，本文将单通道的标签图转为RGB彩色标签图(彩图效果见《计算机工程》官网HTML版)，如图 6所示。

	Download: JPG larger image
图 6 DeepFashion2数据集样本 Fig. 6 DeepFashion2 dataset sample

由于DeepFashion2数据集十分庞大，考虑到本文实验的硬件限制和训练时间成本，故选取DeepFashion2中77 848张图片用于训练，10 492张图片用于评估，10 568张图片用于测试。

2.2 语义分割实验评价指标

本文采用的量化指标分别是类别平均像素准确率(Mean Pixel Accuracy，MPA)和平均交并比(mean Intersection over Union，mIoU)。

MPA表示分别计算每个类别被正确分类的像素数的比例，计算公式见式(8)。作为性能的评价指标，mIoU是语义分割实验中常用的度量指标，交并比是计算真实集合和预测集合的交集与并集之比。在每个类上计算交并比，求和平均值，得到平均交并比，计算公式见式(9)。其中：k+1表示类别数(包括k个目标类和1个背景类)；p_ij表示本属于i类却预测为j类的像素点总数。具体地，p_ii表示真正例，即模型预测为正例，实际为正例，p_ij表示假正例，即模型预测为正例，实际为反例，p_ji表示假反例，即模型预测为反例，实际为正例。

$ {M}_{\mathrm{M}\mathrm{P}\mathrm{A}}=\frac{1}{k+1}\sum\limits_{i=0}^{k}\frac{{p}_{ii}}{\sum\limits_{j=0}^{k}{p}_{ij}} $

(8)

$ {m}_{\mathrm{m}\mathrm{I}\mathrm{o}\mathrm{U}}=\frac{1}{k+1}\sum\limits_{i=0}^{k}\frac{{p}_{ii}}{\sum\limits_{j=0}^{k}{p}_{ij}+\sum\limits_{j=0}^{k}{p}_{ji}-{p}_{ii}} $

(9)

2.3 结果分析

针对本文提出的方法进行实验研究，实验环境配置如下：操作系统为Ubuntu16.04；显卡为NVIDIA GeForce RTX2080Ti(11 GB)；处理器为Intel^® Core^TM i9-9900X CPU；学习框架为Pytorch。

相关实验基于Ubuntu16.04操作系统进行，CPU为Intel i9-9900x，GPU为4张NVIDIA GeForce RTX2080Ti的深度学习服务器，实验涉及的代码是用pytorch实现。

2.3.1 训练策略

为了使模型快速收敛，并且适用于本实验的数据集DeepFashion2，本文采用了如下的训练策略：对主干网络resnet101载入ImageNet数据集上预训练的权重，初始化主干网络resnet101的权重，加快训练速度，首先前60个epoch采用poly学习率调整策略进行训练，主干网络设置初始学习率为0.000 7，网络的其余部分参数设置初始学习率为0.007，这样模型可以快速趋近于收敛，最后采用较小的固定学习率进行训练至模型收敛状态。本文实验中将图像剪裁至512×512大小进行训练。

2.3.2 网络训练结果

本文实验网络采用Deeplab v3+、嵌入Coordinate Attention模块(CA_Deeplab v3+)和嵌入Coordinate Attention、SFEM模块(CA_SFEM_Deeplab v3+)。训练的实验网络在验证集上得出的mIoU结果曲线如图 7所示，3个实验网络的mIoU随迭代的次数增加逐渐趋于稳定。由图 7可以看出，CA_Deeplab v3+性能略微优于Deeplab v3+，而CA_SFEM_Deeplab v3+在每一个迭代轮次均远优于Deeplab v3+和CA_Deeplab v3+。这是由于模型不仅通过融入Coordinate Attention模块增强保留空间信息的能力，而且通过嵌入SFEM模块增强语义特征信息。

	Download: JPG larger image
图 7 不同网络在验证集上mIoU结果曲线 Fig. 7 mIoU result curves of different networks on validationset

2.3.3 分割性能对比

在对比实验中，数据集采用DeepFashion2，包含13种服装类别及1个背景类。本文实验对比了Deeplab v3+、CA_Deeplab v3+和CA_SFEM_Deeplab v3+对服装分割的影响。由表 1可以看出，首先仅在主干网络resnet101首尾添加了注意力机制Coordinate Attention模块的CA_Deeplab v3+，相比Deeplab v3+在MPA指标上提升0.7%，结合图 7的增长趋势，将主干网络resnet101中间的各个block添加Coordinate Attention会有更好的提升效果。考虑到本实验为主干网络resnet101载入预训练权重，同时兼顾到训练的效率，本文将不再破坏主干网络的结构，仅在resnet101的首尾添加Coordinate Attention。其次在Coordinate Attention模块基础上添加特征增强SFEM模块的CA_SFEM_Deeplab v3+，MPA、mIoU定量指标有了明显提升，与Deeplab v3+相比分别提升了2.3%、2.1%。这是因为本文提出的CA_SFEM_Deeplab v3+网络嵌入了Coordinate Attention和SFEM模块，更准确地提取了特征信息，使得分割的精度较高。

下载CSV 表 1 添加不同模块的性能比较 Table 1 Performance comparison by adding different models

为了更好地展现本文方法性能提升的直观效果，本文将网络分割出来的掩码对原图进行处理，将背景类别置为黑色，仅保留原始服装图像的服装分割图，因此直观显示出模型分割得到有用的服装信息。图 8所示分别为服装原图、标签图和3个模型分割服装图像(彩色效果见《计算机工程》官网HTML版)。

	Download: JPG larger image
图 8 不同模型在DeepFashion2数据集上的分割效果 Fig. 8 Segmentation effects of different models in DeepFashion2 datasets

从图 8可以看出：在第一排服装分割图矩形框标注的区域，CA_SFEM_Deeplab v3+网络在长袖边和裤子结合处像素点误分类最少；在第二排服装分割图矩形框标注的区域，嵌入Coordinate Attention的CA_Deeplab v3+网络在长袖像素点处相较于Deeplab v3+网络误分类更少，而CA_SFEM_Deeplab v3+网络在长袖像素点处不存在误分类的像素点；在第三排服装分割图矩形框标注的区域，CA_SFEM_Deeplab v3+网络在连衣裙袖口的边界处分割最平滑，分割效果最好；在第四排服装分割图矩形框标注的区域，在左边裤脚的轮廓处，CA_SFEM_Deeplab v3+网络将手部边界同裤腿边界分离的效果最好，分割的正确率最高，分割的结果最为贴近标签图。观察所有分割结果对比图，CA_SFEM_Deeplab v3+对服装分割更为精细，对服装边缘分割更为流畅，使得服装分割更为接近服装的真实轮廓。综上所述，本文CA_SFEM_Deeplab v3+网络对分割服装位置的精准性最优，对服装特征提取也更为充分，分割性能有了明显提高。

为了证明本文网络的分割有效性，选取了目前有代表性的主流语义分割网络PSP-Net^[7]、Deeplab v3+^[14]和FastFCN^[33]和本文提出的CA_SFEM_Deeplab v3+网络进行对比实验。实验的数据集采用DeepFashion2。根据本文提出的两个量化指标，结合表 2可以得出，Deeplab v3+网络与PSP-Net网络相比分割性能有了一定的提高，而本文提出的CA_SFEM_Deeplab v3+网络在MPA和mIoU定量指标上数值分别为0.671和0.557，相较于PSP-Net网络分别提升了8.3%和8.6%，相较于Deeplab v3+网络分别提升了2.3%和2.1%，相较于FastFCN网络分别提升了0.9%和1%。实验数据结果表明，本文提出的CA_SFEM_Deeplab v3+网络相较于其他网络在服装数据集DeepFashion2上更具有优势。

下载CSV 表 2 不同分割网络性能比较 Table 2 Performance comparison of different segmentation networks

3 结束语

本文提出一种用于服装分割任务的CA_SFEM_Deeplab v3+网络，该网络模型在主干网络的首尾分别嵌入了注意力机制模块，主干网络输出的特征图首先经过ASPP结构处理，随后通过SFEM模块对特征图进行语义特征增强处理，然后将特征图进行融合，经过上采样，最终得到服装分割的预测图。实验结果证明，相对于Deeplab v3+网络，CA_SFEM_Deeplab v3+网络具有更好的分割精度，能够实现对服装的准确分割。本文网络虽提升了分割精度，但嵌入注意力机制和SFEM模块增加了参数量，降低了分割效率。此外，其在解码模块中仅使用了融合1/4大小的低层特征图和编码模块输出的高层特征图，而单层次提取目标特征易导致小目标丢失或大目标特征提取冗余。后续将精简分割模型，进一步提高模型的准确率和分割效率。

参考文献

[1]	YAMAGUCHI K, KIAPOUR M H, ORTIZ L E, et al. Parsing clothing in fashion photographs[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2012: 3570-3577.
[2]	LIU S, FENG J S, DOMOKOS C, et al. Fashion parsing with weak color-category labels[J]. IEEE Transactions on Multimedia, 2014, 16(1): 253-265. DOI:10.1109/TMM.2013.2285526
[3]	JI J, YANG R Y. An improved clothing parsing method emphasizing the clothing with complex texture[C]//Proceedings of Conference on Advances in Multimedia Information Processing. Berlin, German: Springer, 2017: 487-496.
[4]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 3431-3440.
[5]	RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Washington D. C., USA: IEEE Press, 2015: 234-241.
[6]	MARMANIS D, SCHINDLER K, WEGNER J D, et al. Classification with an edge: improving semantic image segmentation with boundary detection[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 135: 158-172. DOI:10.1016/j.isprsjprs.2017.11.009
[7]	ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6230-6239.
[8]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[9]	LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 5168-5177.
[10]	白美丽, 万韬阮, 汤汶, 等. 一种改进的用于服装解析的自监督网络学习方法[J]. 纺织高校基础科学学报, 2019(4): 385-392, 410. BAI M L, WAN T R, TANG W, et al. An improved self-supervised neural network learning method for clothing parsing[J]. Basic Sciences Journal of Textile Universities, 2019(4): 385-392, 410. (in Chinese)
[11]	FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3141-3149.
[12]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
[13]	WOO S, PARK J, LEE Y J, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, German: Springer, 2018: 3-19.
[14]	CHEN L C. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Proceedings of European Conference on Computer Vision. Berlin, German: Springer, 2018: 801-818.
[15]	XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[C]//Proceedings of International Conference on Machine Learning. New York, USA: ACM Press, 2015: 2048-2057.
[16]	VOLODYMYR M, HEESS N, GRAVES A. Recurrent models of visual attention[C]//Proceedings of Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014: 2204-2212.
[17]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, German: Springer, 2018: 3-19.
[18]	CAO Y, XU J R, LIN S, et al. GCNet: non-local networks meet squeeze-excitation networks and beyond[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 1971-1980.
[19]	LIU J J, HOU Q B, CHENG M M, et al. Improving convolutional networks with self-calibrated convolutions[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 10093-10102.
[20]	FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3141-3149.
[21]	HOU Q B, ZHANG L, CHENG M M, et al. Strip pooling: rethinking spatial pooling for scene parsing[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 4002-4011.
[22]	TSOTSOS J K. Analyzing vision at the complexity level[J]. Behavioral and Brain Sciences, 1990, 13(3): 423-445. DOI:10.1017/S0140525X00079577
[23]	黄文明, 卫万成, 张健, 等. 基于注意力机制与评论文本深度模型的推荐方法[J]. 计算机工程, 2019, 45(9): 176-182. HUANG W M, WEI W C, ZHANG J, et al. Recommendation method based on attention mechanism and review text deep model[J]. Computer Engineering, 2019, 45(9): 176-182. (in Chinese)
[24]	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 13708-13717.
[25]	PATEL K, BUR A M, WANG G H. Enhanced U-net: a feature enhancement network for polyp segmentation[C]//Proceedings of the 18th Conference on Robots and Vision. Washington D. C., USA: IEEE Press, 2021: 181-188.
[26]	HE X, YANG S B, LI G B, et al. Non-local context encoder: robust biomedical image segmentation against adversarial attacks[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2019: 8417-8424.
[27]	LIU J J, HOU Q B, CHENG M M, et al. A simple pooling-based design for real-time salient object detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3912-3921.
[28]	WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7794-7803.
[29]	GE Y Y, ZHANG R M, WANG X G, et al. DeepFashion2: a versatile benchmark for detection, pose estimation, segmentation and re-identification of clothing images[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 5332-5340.
[30]	LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 1096-1104.
[31]	ZHENG S, YANG F, KIAPOUR M H, et al. ModaNet: a large-scale street fashion dataset with polygon annotations[EB/OL]. [2021-07-10]. https://arxiv.org/abs/1807.01394.
[32]	Fashionaidataset[EB/OL]. [2021-07-10]. http://fashionai.alibaba.com/datasets/.
[33]	WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: rethinking dilated convolution in the backbone for semantic segmentation[EB/OL]. [2021-07-10]. https://arxiv.org/abs/1903.11816.