多尺度特征自适应融合的轻量化织物瑕疵检测

引用本文

杨毅, 桑庆兵. 多尺度特征自适应融合的轻量化织物瑕疵检测[J]. 计算机工程, 2022, 48(12), 288-295. DOI: 10.19678/j.issn.1000-3428.0063507.

YANG Yi, SANG Qingbing. Lightweight-Fabric Defect Detection Based on Adaptive Fusion of Multiscale Features[J]. Computer Engineering, 2022, 48(12), 288-295. DOI: 10.19678/j.issn.1000-3428.0063507.

基金项目

国家自然科学基金面上项目（52172324）；陕西省交通厅重点项目（20-38T）；西安市未央区科技计划项目（202121）；长安大学实验教学改革研究项目（20211811）

作者简介

杨毅（1996—），男，硕士研究生，主研方向为计算机视觉;
桑庆兵，副教授

文章历史

收稿日期：2021-12-13
修回日期：2022-02-13

Contents Abstract Full text Figures/Tables PDF

多尺度特征自适应融合的轻量化织物瑕疵检测

杨毅 , 桑庆兵

江南大学人工智能与计算机学院, 江苏无锡 214122

收稿日期：2021-12-13；修回日期：2022-02-13

基金项目：国家自然科学基金面上项目（52172324）；陕西省交通厅重点项目（20-38T）；西安市未央区科技计划项目（202121）；长安大学实验教学改革研究项目（20211811）

作者简介：杨毅（1996—），男，硕士研究生，主研方向为计算机视觉; 桑庆兵，副教授.

E-mail：lmwen@chd.edu.cn

摘要：织物瑕疵检测是纺织行业保证产品质量的重要环节，针对织物瑕疵检测中存在小目标瑕疵检测困难、不同种类瑕疵长宽比差异大、对实时性要求高等问题，提出一种新的轻量化织物瑕疵检测算法。以YOLOv4网络为基础，使用轻量化网络MobileNetv2为主干网络，有效减少模型参数总量与运算量，以满足实时性需求。在MobileNetv2的逆残差结构中加入CoordAttention注意力模块，将空间精确位置信息嵌入到通道注意力中，增强网络聚焦小目标特征的能力。使用自适应空间特征融合（ASFF）网络改进路径聚合网络(PANet)，使模型通过学习获得多尺度特征图的融合权重，从而充分利用浅层特征与深层特征，提高算法对小目标瑕疵的检测精度。采用K-means++算法确定先验框尺寸，并用Focal Loss函数修改模型损失函数，降低正、负样本不平衡对检测结果的影响，解决不同种类瑕疵长宽比差异大及类别不平衡的问题。实验结果表明，相较于YOLOv4算法，所提算法的平均精度均值提高了2.3个百分点，检测速度提升了12 frame/s，能较好地应用于织物瑕疵检测。

Lightweight-Fabric Defect Detection Based on Adaptive Fusion of Multiscale Features

YANG Yi , SANG Qingbing

School of Artificial Intelligence and Computer, Jiangnan University, Wuxi, Jiangsu 214122, China

Abstract: Fabric defect detection is an essential process in the textile industry for ensuring product quality.A algorithm for detecting lightweight fabric defects based on multiscale feature adaptive fusion is proposed to minimize small-target defect detection difficulties in fabric defect detection and the significant differences in the aspect ratios of different defects and high requirements for real-time performance.Based on the YOLOv4 network, lightweight network MobileNetv2 is used as the backbone network to effectively reduce the total number of model parameters and the cost of calculations to satisfy real-time requirements.In the inverse residual structure of MobileNetv2, a new attention mechanism is added.CoordAttention module, which embeds the spatially accurate position information necessary for detecting small-target defects into the channel attention, is used to enhance the ability of the network to focus on small-target features.Second, the Adaptive Spatial Feature Fusion(ASFF) network is used to improve Path Aggregation Network(PANet) to enable the model to obtain the fusion weights of multiscale feature maps through learning, fully utilize shallow and deep features, and further improve the detection accuracy of small-target defects.For different defect types and problems with significant aspect ratio differences and unbalanced categories, the K-means++ algorithm is used to determine the prior frame size, and the Focal Loss function is used to modify the model loss function to reduce the impact of the positive and negative sample imbalance on the detection result.The experimental results show that compared with YOLOv4, the mean Average Precision(mAP) of the proposed algorithm increases by 2.3 percentage points, and the detection speed increases by 12 frame/s.The proposed approach can be effectively applied to fabric defect detection.

开放科学(资源服务)标志码(OSID)：

0 概述

织物质量检测一直以来都是纺织产业生产加工中的重要环节，织物瑕疵的出现会直接影响企业的利润。随着企业生产效率不断提升，传统人工检测的方法已不能适应大批量自动化生产检测的要求^[1]。因此，采用自动疵点检测技术已成为提高织物质量、降低人工成本的必然趋势^[2]，但是机器自动检测织物瑕疵的效率和准确性仍面临较大挑战。

传统织物瑕疵检测方法主要分为结构法、统计法、频谱法、模型法、基于学习的方法等^[3]。MIRMAHDAVI等^[4]将无瑕疵样本输入高斯混合模型训练，通过实验设定欧氏距离阈值进行瑕疵检测。文献[5]利用织物纹理的周期性，通过匹配缺陷位置的相对偏移量和傅里叶位移定理曲线，分割出织物瑕疵部分。然而，传统算法存在缺陷分割性能差、噪声敏感、漏检率高等问题。随着计算机算力的快速提升，深度学习被广泛应用于织物视觉计算与处理领域。LIU等^[6]提出一种基于CGAN^[7]的多判别器模型，研究潜在匹配规则和服装属性之间关系，ZHAO等^[8]开发了一个基于双向长短期记忆Bi-LTSM^[9]模型的端到端服装搭配学习框架，ZHANG等^[10]提出使用GAN^[11]从人体穿着服装图像生成具有真实纹理的平铺服装图像。在织物瑕疵检测任务中，深度学习方法具有较强的特征表征能力。文献[12]采用深度学习方法，通过改进ResNet50^[13]网络提取特征，使用特征金字塔网络过滤冗余特征，实现对织物瑕疵的检测。以上检测方法解决了部分织物瑕疵检测问题，但目前织物检测存在缺陷种类多，尤其是小目标缺陷较多，对实时性要求高的问题，给深度学习方法的应用带来一定困难。

为满足织物瑕疵数据检测任务实时性需求，本文将YOLOv4^[14]网络的主干网络替换为MobileNetv2^[15]，并使用CoordAttention^[16]模块对MobileNetv2的逆残差结构进行改进，增强其对小目标瑕疵的特征提取能力。采用自适应特征融合（Adaptively Spatial Feature Fusion，ASFF）^[17]网络改进路径聚合网络（Path Aggregation Network，PANet）^[18]结构，提高小目标缺陷检测精度。针对不同种类瑕疵长宽比差异大、原始先验框尺寸不适用的问题，使用K-means++^[19]算法进行瑕疵尺寸聚类，确定锚框尺寸，并采用Focal Loss^[20]函数降低正、负样本不平衡对检测效果的影响。

1 YOLOv4与MobileNetv2结构

目标检测算法根据有无区域建议主要分为两类：一类是无区域建议算法，通过一个卷积神经网络直接对图像各个位置上的候选框进行预测和分类，例如YOLOv4^[14]与SSD^[21]；另一类是基于区域建议的算法，由区域提议和检测2个步骤组成，相较于无区域建议算法，其精度较高但速度慢，代表网络有Faster R-CNN^[22]等。

YOLOV4是无区域建议目标检测算法的代表之一，其结构如图 1所示。其主干网络CSPDarknet-53在YOLOv3^[23]网络的Darknet53基础上引进了CSPNet^[24]模块结构，相较于Darknet53网络，模型预测的准确率和推理速度均有所提高。颈部网络包括空间金字塔池化（Spatial Pyramid Pooling，SPP）^[25]和PANet两个部分，SPP通过使用不同大小的滑动核，有效增加了网络感受野，并将局部与全局的特征进行融合，增加了特征的丰富性。PANet相较于FPN^[26]网络增加了自下而上的增强路径，通过保留空间信息以增强实例分割过程。头部网络采用YOLOv3网络检测头，分别提取主干特征网络最后3层的图像特征，生成边界框和类别预测。

	Download: JPG larger image
图 1 YOLOv4网络结构 Fig. 1 Structure of YOLOv4 network

YOLOv4原始主干网络CSPDarknet-53虽然能有效提取深度特征信息，但结构复杂且参数量多，导致难以应用于计算资源较差、实时性要求高的织物瑕疵检测任务中。

MobileNetv2是一种轻量化的特征提取网络，其核心为深度可分离卷积和具有线性瓶颈的逆残差结构，具体如下：

1）深度可分离卷积。相较于普通卷积，深度可分离卷积能有效减少模型的参数量和计算量，其流程如图 2所示。

	Download: JPG larger image
图 2 深度可分离卷积流程 Fig. 2 Procedure of depth separable convolution

对于输入为$ {F}_{H}\times {F}_{W}\times M $的特征图，$ {F}_{H} $、$ {F}_{W} $分别为特征图的高和宽，M为通道数，对特征图进行卷积操作，卷积核大小为$ K\times K $，卷积核数量为N，输出特征图大小为$ {D}_{H}\times {D}_{W}\times N $，在对特征图进行标准卷积的过程中，计算量$ {C}_{1} $和参数量$ {P}_{1} $的表达式如下所示：

$ {C}_{1} = K\times K\times M\times N\times {F}_{H}\times {F}_{W} $

(1)

$ {P}_{1} = K\times K\times M\times N $

(2)

对特征图进行深度可分离卷积运算，计算量$ {C}_{2} $和参数量$ {P}_{2} $的表达式分别如下所示：

$ {C}_{2}=K\times K\times M\times {F}_{H}\times {F}_{W}+M\times N\times {F}_{H}\times {F}_{W} $

(3)

$ {P}_{2}=K\times K\times M\times N+K\times K\times N $

(4)

深度可分卷积与标准卷积计算量之比如式（5）所示：

$ \frac{{C}_{2}}{{C}_{1}}=\frac{1}{N}+\frac{1}{{K}^{2}} $

(5)

若将深度可分离卷积的卷积核大小设为3×3，步长设置为1，按式（5）进行计算，其计算量下降为普通卷积的1/9，模型检测速度得到大幅提高。

2）具有线性瓶颈的逆残差结构。普通残差块先通过1×1卷积将特征图通道数降维，经过卷积提取特征后再扩张通道数。逆残差结构与其相反，由于输入通道数的增加有利于深度可分离卷积提取特征，所以先对特征图通道数进行升维，以提取更多特征，再压缩通道数。同时，为了消除Relu函数对被压缩特征的影响，在1×1卷积降维后使用Linear函数代替Relu函数。

表 1所示为MobileNetv2网络的结构，可以看到MobileNetv2网络由多个具有线性瓶颈的逆残差结构组成。

下载CSV 表 1 MobileNetv2网络结构 Table 1 Structure of MobileNetv2 network

2 模型结构与优化 2.1 MobileNetv2逆残差结构优化

在轻量级网络上的研究表明，通道注意力会给模型带来较显著的性能提升。为提高模型对瑕疵特征提取能力，本文在MobileNetv2逆残差块中加入新型注意力机制CoordAttention模块，如图 3所示，通过将位置信息嵌入到通道注意力中，使网络能够更好地获取空间方向的特征信息，使小目标检测定位更加精确，同时也能避免产生大量的计算开销。

	Download: JPG larger image
图 3 加入CoordAttention模块的逆残差结构 Fig. 3 Inverse residual structure with CoordAttention module

CoordAttention的运算过程由坐标信息嵌入和坐标注意力生成两步组成，具体过程如下所示：

1）坐标信息嵌入。相对于全局池化压缩全局空间信息，导致位置信息难以保存，CoordAttention模块使用一对一特征编码操作替换全局池化，并分别沿2个空间方向聚合特征，得到一对具有空间信息的特征图，从而有利于网络更准确地定位感兴趣的目标。

2）坐标注意力生成。将生成的特征图进行拼接，然后使用1$ \times $1卷积生成具有水平和垂直方向空间信息的特征图，如式（6）所示：

$ \boldsymbol{f}=\delta \left(F\right([{\boldsymbol{z}}^{h}, {\boldsymbol{z}}^{w}]\left)\right) $

(6)

其中：$ [\cdot , \cdot ] $为沿空间维数的concatenate操作；F为1$ \times $1卷积变换函数；$ \delta $为非线性激活函数；$ {\boldsymbol{z}}^{h} $、$ {\boldsymbol{z}}^{w} $分别为水平与竖直方向特征图。得到同时具有水平、竖直方向空间信息的特征图之后，按空间维度将$ \boldsymbol{f} $分解为两个独立的张量，并使用1$ \times $1卷积与sigmoid激活函数对张量分别进行处理，将结果$ {\boldsymbol{g}}^{h} $、$ {\boldsymbol{g}}^{w} $分别展开作为水平与竖直方向的注意力权重，其表达式如下所示：

$ {\boldsymbol{g}}^{h}=\sigma \left({F}_{h}\right({\boldsymbol{f}}^{h}\left)\right) $

(7)

$ {\boldsymbol{g}}^{w}=\sigma \left({F}_{w}\right({\boldsymbol{f}}^{w}\left)\right) $

(8)

其中：$ \sigma $是sigmoid激活函数；$ {F}_{\mathrm{h}} $和$ {F}_{w} $为1$ \times $1卷积变换。将权重与输入的特征图相乘，使原始特征图具有注意力权重，增强聚焦特征能力。使用嵌入CoordAttention模块的逆残差替换原网络中的逆残差结构，提升MobileNet网络提取精确位置信息和感兴趣领域的能力，且不过多增加计算开销。相较于SE模块^[27]只考虑通道间信息的编码而忽视位置信息，CBAM模块^[28]仅能捕获局部相关性而无法捕获更大区域的依赖关系，而CoordAttention模块对于特征信息的提取更全面。

2.2 PANet网络的改进

深层特征图具有较强的语义信息，但分辨率低，细节感知能力差，适合大目标检测。浅层特征图感受野小，包含更多位置、信息细节，且几何表征能力强，适合小目标检测。PANet网络结构如图 4所示，YOLOv4使用该结构进行多尺度特征融合，

	Download: JPG larger image
图 4 PANet网络结构 Fig. 4 Structure of PANet network

PANet网络在原有FPN自上而下的特征融合路径（如图 4（a）所示）的基础上，增加自下而上的增强路径（如图 4（b）所示），通过对浅层与深层特征图的反复提取，融合不同尺度特征图的特征信息。但PANet网络的融合方式只是简单地将特征图转换成相同尺度再相加，不能充分利用不同尺度的特征。使用ASFF网络改进PANet结构，通过给不同尺度的特征融合分配自适应的权重参数，实现多尺度特征图的高效融合，改进后的PANet结构如图 5所示。

	Download: JPG larger image
图 5 改进后的PANet网络结构 Fig. 5 Structure of improved PANet network

以ASFF-2的计算过程为例，ASFF-2由特征图Level 1、Level 2和Level 3融合得到，Level 1通过1×1卷积将通道数调整到与Level 2一致，再用插值方式调整尺寸与Level 2一致，得到$ {\boldsymbol{X}}^{1\to 2} $；对Level 3特征图进行stride=2的3×3卷积操作，并调整通道数与Level 2一致，得到$ {\boldsymbol{X}}^{3\to 2} $。Level 2特征层即$ {\boldsymbol{X}}^{2\to 2} $，最后利用卷积核为1×1的卷积操作压缩通道数，沿通道方向拼接，再使用卷积将通道数降为3，对3个通道上的特征图使用softmax函数处理，分别得到$ {\boldsymbol{X}}^{1\to 2} $、$ {\boldsymbol{X}}^{2\to 2} $、$ {\boldsymbol{X}}^{3\to 2} $的融合权重$ {\alpha }_{ij} $、$ {\beta }_{ij} $、$ {\gamma }_{ij}^{} $。ASFF网络的融合过程表达式如式（9）所示：

$ {\boldsymbol{y}}_{ij}^{l}={\alpha }_{ij}^{l}\times {\boldsymbol{X}}_{ij}^{1\to l}+{\beta }_{ij}^{l}\times {\boldsymbol{X}}_{ij}^{2\to l}+{\gamma }_{ij}^{l}\times {\boldsymbol{X}}_{ij}^{3\to l} $

(9)

其中：$ {\boldsymbol{X}}_{ij}^{n} $表示第n层特征图经变换后的特征图，尺寸通道数均相同；$ {\alpha }_{ij} $，$ {\beta }_{ij} $，$ {\gamma }_{ij}^{} $分别表示3个不同尺寸特征图的融合权重，通过softmax函数使得$ \alpha {}_{ij}{}^{l} $+$ \beta {}_{ij}{}^{l} $+$ {\gamma }_{ij}^{l} $=1，$ \alpha {}_{ij}{}^{l} $，$ \beta {}_{ij}{}^{l} $，$ {\gamma }_{ij}^{l} $$ \in \left[\mathrm{0, 1}\right] $；$ {\boldsymbol{y}}_{ij}^{l} $表示融合后的层特征图。

ASFF网络实现了$ {\alpha }_{ij} $、$ {\beta }_{ij} $、$ {\gamma }_{ij}^{} $这3个比例参数的自适应调整，将其作为网络模型的可更新参数，通过误差梯度反向传播更新融合权重，使模型的多尺度特征融合更加充分，能更有效地利用特征，提高模型对小目标瑕疵的检测能力。

2.3 聚类先验框优化

YOLOv4的先验框是在PASCAL VOC数据集中采用K-means算法聚类而来，织物瑕疵数据集中小目标瑕疵较多，粗经、轧痕等瑕疵长宽比较大，因此需要针对织物缺陷数据集聚类出先验框。传统K-means聚类算法结果不稳定且易陷入局部最优，导致聚类先验框与实际目标匹配度低，影响检测精度。本文使用K-means++聚类算法稳定初始化聚类中心选择，具体过程如下：

1）在数据点之间随机选择一个聚类中心；

2）计算每个样本与当前已有聚类中心最短距离D（x），数据点被选取作为聚类中心的概率与D（x）大小正相关，使用轮盘法选出下一个聚类中心；

3）重复步骤2直到选择出k个聚类中心点。

K-means++能够优化初始聚类中心点的选取，从而改善分类结果误差，修改后的anchor box大小分别为（4，15）、（8，10）、（12，48）、（22，52）、（36，55）、（46，52）、（55，396）、（65，118）、（228，38）。

2.4 Focal Loss函数改进

由于织物瑕疵数据中瑕疵区域占整个织物图像的比例很小，若将不含瑕疵的区域当做负样本，含瑕疵的区域为正样本，则不含瑕疵区域的负样本数量远多于含瑕疵的正样本数量。正负样本数量严重失衡可能导致给模型提供的瑕疵特征较少，影响模型收敛，因此采用Focal Loss函数优化分类损失。类别损失、置信度损失和位置损失共同构成YOLOv4的损失函数，其中，原始YOLOv4的类别损失为交叉熵损失函数，其表达式如式（10）所示：

$ L=-\sum\limits_{j=1}^{C}y \log_{a}y\text{'} $

(10)

其中：L表示交叉熵；C表示分类种类数；y为期望输出，表示经过激活函数后的输出。改进后的Focal loss函数表达式如式（11）所示：

$ {L}_{f}=-\alpha {[1-y\mathrm{\text{'}}]}^{\beta }\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}y\mathrm{\text{'}} $

(11)

其中：α为矫正系数，作用是平衡样本数量；β为超参数，一般取2。通过引入α和β两个约束参数，可以在网络训练过程中自动对正负样本不平衡进行调整。

3 实验结果与分析

本次实验操作系统为Windows10，CPU为Intel Core i7-8700K，内存16 GB，GPU为NIVIDA GeForce GTX1080，显存8 GB，选用Pytorch作为深度学习框架，开发工具为Pycharm2019.1。初始学习率设定为0.001，Momentum动量参数设为0.2，IOU阈值设置为0.5，共训练300个epoch。

3.1 实验数据集及评价指标

本次实验所使用的数据集来自阿里天池布匹疵点数据集，为验证本文改进算法在织物瑕疵检测任务，尤其是对小目标瑕疵检测任务中的性能提升，从其中选取实际生产较为常见的6种缺陷，包括结头、三丝、破洞、粗经、纬缩和轧痕图片共2 026张，其中结头、三丝、破洞为小目标瑕疵。采用图像翻转、图像缩放、图像融合等数据增强方式扩充至8 104张，处理训练图片大小为608$ \times $608像素，各类瑕疵图片数量如表 2所示，训练集、测试集和验证集的划分比例为8∶1∶1。

下载CSV 表 2 阿里天池布匹疵点数据集的类别统计结果 Table 2 Statistics results of alibaba tianchi fabric defect dataset category

本文实验的评价指标为平均精度（Average Precision，AP），平均精度均值（mean Average Precision，mAP），帧率（Frame Per Second，FPS），FPS指模型每秒能够检测的图片数量，可以作为检测速度的衡量指标。平均精度指标的表达式如下所示：

$ {A}_{\mathrm{A}\mathrm{P}}={\int }_{0}^{1}p\left(r\right)\mathrm{d}r $

(12)

其中：p为准确率；r为召回率。准确率和召回率的表达式如下所示：

$ p=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}} $

(13)

$ r=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(14)

其中：T_TP、F_FP分别表示正确、错误判断的瑕疵样本个数，F_FN为被错误检测的负样本数量。

平均精度均值的表达式为：

$ {m}_{\mathrm{m}\mathrm{A}\mathrm{P}}=\frac{1}{N}\sum\limits_{i=1}^{N}{{A}_{\mathrm{A}\mathrm{P}}}^{\left(i\right)} $

(15)

3.2 主流算法与本文算法对比

为验证本文算法在织物瑕疵检测任务中的性能，将主流目标检测算法Faster-RCNN^[20]、YOLOv4、YOLOv4-Tiny、YOLOv4-MobileNet与本文改进YOLOv4算法在相同的数据集上进行训练，结果如表 3所示。由表 3可知，Faster-RCNN算法的mAP较高，但检测速度较慢，模型体积大，对算力要求高，难以满足织物瑕疵检测实时性的要求。将本文改进YOLOv4算法与YOLOv4算法相比，mAP提升2.3个百分点，检测速度提升了12 frame/s，且本文模型体积相较于YOLOv4算法大幅减少，能够满足工业生产部署需求。YOLOv4-Tiny算法是轻量级检测算法的代表之一，参数量仅为YOLOv4算法的1/10，检测速度满足实时性需求，但结构简单，无法满足检测精度要求。

下载CSV 表 3 主流算法与本文算法的对比 Table 3 Comparison between mainstream algorithm and improved algorithm in this paper

由表 3还可知，本文算法的mAP相较于YOLOv4-Tiny算法高9.06个百分点。将YOLOv4原特征提取网络CSPDarkNet53替换为MobileNet网络后，检测速度提升了15 frame/s，mAP减少5.58个百分点，原因是特征提取网络层数减少，导致特征提取的效果下降，但模型计算量减小，检测速度有所提高。与仅将YOLOv4主干网络替换为MobileNet的算法对比，本文算法mAP提升了7.88个百分点，这充分说明ASFF算法对PANet网络改进的积极作用。在MobileNet逆残差块中加入CoordAttention模块，在没有增加较多模型体积的前提下，提高了模型的mAP，检测速度仅降低3 frame/s。

通过对比实验数据，本文算法在织物瑕疵检测任务中相较于大型网络检测mAP相近，检测速度更快，模型体积更小。相较于轻量级网络，本文算法瑕疵检测能力更强，mAP更高，更适用于织物瑕疵检测任务。

3.3 消融实验

为验证ASFF算法、CoordAttention注意力模块和Focal Loss损失函数对模型性能的影响，以将主干网络替换为MobileNet的YOLOv4算法作为基准，对加入的模块进行消融实验。实验结果如表 4所示，其中“×”表示不加入，“√”表示加入。

下载CSV 表 4 消融实验结果 Table 4 Results of ablation experiment

由表 4可知，在MobileNet网络的逆残差结构中插入CoordAttention注意力模块后，小目标瑕疵的AP分别提升了3.83、3.75、4.54个百分点，纬缩、粗经、轧痕三种缺陷的AP也所提升，这说明加入CoordAttention注意力模块提高了MobileNet的特征提取能力，可以捕获更精确的位置信息与缺陷特征，对于小目标瑕疵检测效果较好。在此基础上加入使用ASFF网络改进的PANet，相较于原始的PANet，改进后的PANet在结头、三丝、破洞等小目标缺陷上的AP分别提高了3.85、4.03、3.48个百分点，表明相较于原始的PANet网络，使用ASFF网络改进PANet结构，利用多尺度特征图将模型训练学习到的权重进行融合，能大幅提升对小目标瑕疵的检测能力。最后，加入Focal Loss损失函数，能使算法整体mAP和精度提高。

3.4 与原始YOLOv4算法检测效果对比

为验证本文算法相较于原始YOLOv4算法在织物瑕疵检测任务中的优势，选取结头、三丝、破洞图片各一张，进行检测结果对比，YOLOv4与本文算法检测结果对比如图 6所示。图 6中6组检测效果图中，左侧为YOLOv4检测效果，右侧为本文算法的检测效果。从中可以看出，原始YOLOv4算法在结头、三丝等小目标瑕疵检测中存在漏检情况，本文算法有效改善了漏检情况，并且检测置信度值得到了明显提高。这充分说明CoordAttention模块对逆残差结构的改进，增强了模型对于小目标瑕疵的聚焦能力。ASFF网络对PANet的改进，充分融合与利用多尺度特征图的信息，有效增强了对于小目标瑕疵的检测性能。同时，通过K-means++聚类算法聚类先验框使模型检测框更加适用于粗经、轧痕等长宽比较大的瑕疵类型检测。

	Download: JPG larger image
图 6 YOLOv4算法与本文算法检测效果对比 Fig. 6 Comparison of detection effect between YOLOv4 algorithm and algorithm in this paper

4 结束语

本文提出一种基于多尺度特征自适应融合的轻量化织物瑕疵检测算法，通过在MobileNetv2网络的逆残差块中加入CoordAttention注意力模块，并使用该网络作为YOLOv4主干网络，减少参数总量与计算量，增强网络聚焦小目标瑕疵特征能力。使用自适应空间特征融合结构改进PANet网络，提高小目标瑕疵检测精度，采用K-means++算法获得适合的候选框，并使用Focal Loss函数优化分类损失降低正、负样本不平衡对检测结果的影响。实验结果表明，本文算法相较于原始YOLOv4算法的平均精度均值提升了2.3个百分点，帧率提高了12 frame/s，模型体积大幅减少。下一步将通过知识蒸馏和模型剪枝技术，在保证检测精度的基础上降低参数量和计算量，提高模型检测速度，并针对瑕疵特征改进模型，提高算法的检测精度。

参考文献

[1]	KUMAR A. Computer-vision-based fabric defect detection: a survey[J]. IEEE Transactions on Industrial Electronics, 2008, 55(1): 348-363. DOI:10.1109/TIE.1930.896476
[2]	DING S M, LIU Z F, LI C L. AdaBoost learning for fabric defect detection based on HOG and SVM[C]//Proceedings of International Conference on Multimedia Technology. Washington D. C., USA: IEEE Press, 2011: 2903-2906.
[3]	HANBAY K, TALU M F, ÖZGÜVEN Ö F. Fabric defect detection systems and methods—a systematic literature review[J]. Optik, 2016, 127(24): 11960-11973. DOI:10.1016/j.ijleo.2016.09.110
[4]	MIRMAHDAVI S A, AHMADYFARD A, SHAHRAKI A A, et al. A novel modeling of random textures using Fourier transform for defect detection[C]//Proceedings of the 15th International Conference on Computer Modelling and Simulation. Washington D. C., USA: IEEE Press, 2013: 470-475.
[5]	任欢欢, 景军锋, 张缓缓, 等. 应用GIS和FTDT的织物错花缺陷检测研究[J]. 激光与光电子学进展, 2019, 56(13): 94-99. REN H H, JING J F, ZHANG H H, et al. Cross-printing defect detection of printed fabric using GIS and FTDT[J]. Laser&Optoelectronics Progress, 2019, 56(13): 94-99. (in Chinese)
[6]	LIU L L, ZHANG H J, XU X F, et al. Collocating clothes with generative adversarial networks cosupervised by categories and attributes: a multidiscriminator framework[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(9): 3540-3554. DOI:10.1109/TNNLS.2019.2944979
[7]	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Conditional generative adversarial nets[J]. Communications of the ACM, 2020, 63(12): 139-144. DOI:10.1145/3422622
[8]	ZHAO M B, LIU Y, LI X R, et al. An end-to-end framework for clothing collocation based on semantic feature fusion[J]. IEEE MultiMedia, 2020, 27(4): 122-132. DOI:10.1109/MMUL.2020.3024221
[9]	SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(12): 2673-2681. DOI:10.1109/78.650093
[10]	ZHANG H J, WANG X H, LIU L L, et al. WarpClothingOut: a stepwise framework for clothes translation from the human body to tiled images[J]. IEEE MultiMedia, 2020, 27(4): 58-68. DOI:10.1109/MMUL.2020.3014037
[11]	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of Advances in Neural Information Processing Systems. New York, USA: ACM Press, 2014: 2672-2680.
[12]	许玉格, 钟铭, 吴宗泽, 等. 基于深度学习的纹理布匹瑕疵检测方法[J]. 自动化学报, 2020, 45(7): 1-15. XU Y G, ZHONG M, WU Z Z, et al. Detection of detecting textured fabric defects based on deep learning.[J]. Acta Automatica Sinica, 2020, 45(7): 1-15. (in Chinese)
[13]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[14]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-11-03]. https://arxiv.org/abs/2004.10934.
[15]	SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 4510-4520.
[16]	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA. IEEE Press, 2021: 13708-13717.
[17]	LIU S T, HUANG D, WANG Y H. Learning spatial fusion for single-shot object detection[EB/OL]. [2021-11-03]. https://arxiv.org/abs/1911.09516.
[18]	LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8759-8768.
[19]	ARTHUR D, VASSILVITSKII S. K-means++: the advantages of careful seeding[C]//Proceedings of the 18th Annual ACM-SIAM Symposium on Discrete Algorithms. New York, USA: ACM Press, 2007: 1027-1035.
[20]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2999-3007.
[21]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[22]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[23]	吴涛, 王伟斌, 于力, 等. 轻量级YOLOV3的绝缘子缺陷检测方法[J]. 计算机工程, 2019, 45(8): 275-280. WU T, WANG W B, YU L, et al. Insulator defect detection method for lightweight YOLOV3[J]. Computer Engineering, 2019, 45(8): 275-280. (in Chinese)
[24]	WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington D. C., USA: IEEE Press, 2020: 1571-1580.
[25]	HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[26]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[27]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
[28]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.