基于刀具刃口显微图像的附着物去除网络

引用本文

梁智滨, 赵文义, 李灵巧, 等. 基于刀具刃口显微图像的附着物去除网络[J]. 计算机工程, 2022, 48(4), 247-254. DOI: 10.19678/j.issn.1000-3428.0060856.

LIANG Zhibin, ZHAO Wenyi, LI Lingqiao, et al. Attachment Removal Network Based on Micro Image of Tool Edge[J]. Computer Engineering, 2022, 48(4), 247-254. DOI: 10.19678/j.issn.1000-3428.0060856.

基金项目

国家自然科学基金青年科学基金项目（61906050）；广西科技计划项目（AD19245202）

作者简介

梁智滨（1996—），男，硕士研究生，主研方向为测量技术与智能系统;
赵文义，博士研究生;
李灵巧，讲师、博士;
杨辉华，教授、博士、博士生导师

文章历史

收稿日期：2021-02-09
修回日期：2021-05-07

Contents Abstract Full text Figures/Tables PDF

基于刀具刃口显微图像的附着物去除网络

梁智滨¹ , 赵文义² , 李灵巧³ , 杨辉华^1,3

1. 桂林电子科技大学电子工程与自动化学院, 广西桂林 541004;
2. 北京邮电大学人工智能学院, 北京 100876;
3. 桂林电子科技大学计算机与信息安全学院, 广西桂林 541004

收稿日期：2021-02-09；修回日期：2021-05-07

基金项目：国家自然科学基金青年科学基金项目（61906050）；广西科技计划项目（AD19245202）

作者简介：梁智滨（1996—），男，硕士研究生，主研方向为测量技术与智能系统; 赵文义，博士研究生; 李灵巧，讲师、博士; 杨辉华，教授、博士、博士生导师.

E-mail: yhh@bupt.edu.cn

摘要：准确检测并去除刀具边缘粘连的附着物是刀具显微图像豁口检测领域的一个难题，目前仍存在刀具边缘恢复不完整、附着物去除失败等问题。提出一种附着物去除的ARNet网络，采用二值掩膜引导模块区分目标与背景特征，利用去除过程的学习模块提取递归过程中的时序信息，并通过自注意力精准分离模块中的编解码结构和自注意力机制，建立附着物特征在全局特征中的依赖关系，以精准去除附着物，从而整合特征并输出无附着物图像。从实际采集的刀具刃口显微图像中裁剪含附着物区域的图像并构成数据集，在此数据集上的实验结果表明，与PReNet网络相比，该网络的峰值信噪比提高了1.016 dB，交并比IOU提升了3.48%，参数量和计算量分别减少了86.5%、90.9%，能够精确聚焦附着物区域，完整地还原刀具的真实边缘，提高了豁口检测准确率，且增强了刀具豁口高精度检测系统的稳定性和可靠性。

Attachment Removal Network Based on Micro Image of Tool Edge

LIANG Zhibin¹ , ZHAO Wenyi² , LI Lingqiao³ , YANG Huihua^1,3

1. College of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China;
2. College of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China;
3. College of Computer and Information Security, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China

Abstract: Detecting and removing the adhesion on a tool edge accurately is a difficult problem in the field of tool micro-image notch detection.Some problems remain, such as incomplete tool edge restoration and failure of attachment removal.To solve the problems, an Attachment-Removal Network(ARNet) is proposed.The Binary Mask Guidance Module(BMGM) is used to distinguish the target and background features, and the learning module of the removal process is used to extract the timing information in the recursive process.Through the encoder-decoder structure and Self-Attention(SA) mechanism in the Self-Attention Refined Separation Module(SARSM), the dependency of attachment features in the global features is established to remove attachments accurately; thus, the features are integrated, and the attachment-free image is output.The image with the attachment area is cut from the actual collected micro image of the tool edge to form a data set.The results show that, compared with PReNet, the Peak Signal-to-Noise Ratio(PSNR) and Intersection Over Union(IOU) of the proposed method are improved by 1.016 dB and 3.48%, respectively.In addition, 86.5% of the parameters and 90.9% of the calculations are reduced.This method focuses on the attachment area accurately, restores the real edge of the tool completely, improves the accuracy of gap detection, and enhances the stability and reliability of the high-precision detection system for the tool gap.

开放科学（资源服务）标志码（OSID）：

0 概述

分切是电动汽车动力电池生产中重要生产工艺，其刀具质量尤其是刃口豁口的大小和数量决定了分切产生毛刺的深度和数量。因磨削不合格、安装及使用等原因，分切刀具会产生大小、形状各不相同的豁口。极片切割工艺要求采用μm级的高精度标准，而使用超过豁口阈值（如长度或深度为5 μm）的分切刀具进行切割时，生产的电池因极片存在较大的毛刺，有极高的短路风险。业内目前普遍采用人工裸眼在光学显微镜上观察的方法获得刀具豁口图像，检测一把常规刀具约需50 min，视觉损伤大且工作繁重。文献[1]提出一种刀具豁口的高精度自动检测系统，检测单把刀具约需10 min，并成功应用于B公司。由于刀具有油易于粘附，使用、转运和现场检测环境洁净度较差，在刃口处易粘连金属附着物、毛发、棉絮等形态各异的附着物。附着物一方面影响了显微成像时自动对焦和清晰成像，另一方面形成刀具伪边缘，导致显微图像拼接^[2]失败，增加豁口误检率和漏检率，严重影响系统检测精度。因此，准确检测并去除附着物是刀具豁口高精度自动检测的难题。

国内外在附着物检测、异物检测、缺陷检测等领域已经取得了一定的研究进展。在传统机器视觉领域中，文献[1]提出一种基于边界敏感的豁口缺陷检测算法，该算法在一定程度上解决了豁口缺陷的精确测量问题，有效性仅限于无附着物的豁口缺陷，对于含附着物的豁口，仍存在检测结果不精确、无法检测等问题。LI等^[3]利用擒纵轮的轮廓作为先验知识，结合附着物边缘曲率变化较大的特点，分离了附着物和工件，从而修复了目标轮廓。GUO等^[4]把含异物的机场跑道分解成高频和低频部分，高频部分采用小波变换的尺度边缘检测，低频部分采用形态学边缘检测，然后融合高低频两部分得到异物检测结果。ZHANG等^[5]设计了液体药品异物检测系统，根据异物运动轨迹连续的特点，利用序列图像检测异物。烟叶中参杂有异物纹理、颜色等信息不同的特征，采用Laws和SVM算法分别进行两次分类，可有效提出烟草中的异物^[6]。ISKANDAR等^[7]提出CEST颜色腐蚀分割算法，对胡椒浆果样品中参杂的异物进行检测，其材料在颜色特征上区分度较大。以上方法基于附着物与背景间的纹理、灰度值、形状、颜色等存在较为明显的特征，然而本文研究的刀具附着物利用上述特征不能与刀具进行有效区分。

在深度学习领域，LIANG等^[8]改进Faster RCNN目标检测算法，对高压设备缺陷区域进行定位。JING等^[9]改进YOLOv3的棉花异性纤维检测网络，利用数据增广和多尺度特征提高了检测精度，但目标检测任务不能精准地去除附着物。CAO等^[10]采用可形变卷积模块，通过计算额外偏移量，比普通卷积拥有更大的感受野，但同时也增加了计算量。在软注意力机制中，LI等^[11]提出了低剂量CT去噪网络，把自注意力与3D卷积相结合，达到了更好的去噪结果。LIU等^[12]将自注意力与残差模块相结合，重构出更多的高频信息，提高了超分辨率人脸重建质量。ZHANG等^[13]提出自我注意生成对抗网络，有效构建了跨图像区域的多层次依赖关系。在硬注意力机制方面，BA等^[14]提出多目标识别网络，只针对数字像素区域提取特征，使非像素区域的梯度为0，导致梯度不能继续传递，从而增加了训练难度。尽管相关异物检测、定位和去除网络研究均取得了一定成果，但应用于本文问题，仍存在不足：均没有对网络提取的特征加以区分，缺乏对目标的针对性学习，导致计算资源浪费在背景等无关特征上；深层的网络中包含大量的冗余参数，更容易出现过拟合现象，而且耗费较大的计算量和储存空间，降低了网络的运行效率。

针对现有研究方法无法有效提取复杂附着物特征，导致附着物存在误去除和刀具边缘扭曲的问题，本文提出一种结合自注意力的附着物去除网络（Attachments Removing Network，ARNet）。通过二值掩膜特征提取模块辅助区分光源与刀具区域，引入去除过程学习模块（Removal Process Learning Module，RPLM）提取附着物去除过程中的时序信息，并利用自注意力精确分离模块提取注意力分数加权后的附着物特征，强化不同形态的附着物特征提取能力。此外，在网络训练过程引入边缘损失函数，从而约束网络对边缘的修复能力。同时，引入深度可分离卷积减少网络中的冗余参数，加快网络训练进程，以达到工业现场对速度的要求。

1 本文方法 1.1 整体网络结构

本文所提刀具附着物去除网络ARNet的结构如图 1所示，本文参考了PReNet^[15]网络的设计思路，在特征提取模块中引入自注意力机制（Self-Attention，SA）^[16]加强特征提取能力。同时，在残差结构中引入深度可分离卷积^[17]，减少自注意力机制增加的计算量，从而设计出效率更高、参数量和计算量更少的ARNet。该网络包含二值掩膜引导模块（Binary Mask Guided Module，BMGM）、去除过程学习模块、自注意力精准分离模块（Self Attention Refined Separation Module，SARSM）和特征整合模块。此外，根据刀具图像的背景特征，调整了网络的递归次数，其中递归T次后的输出图像公式如下：

$ {\boldsymbol{Y}}_{T}=\left\{\begin{array}{l}F\left({\boldsymbol{X}}_{\mathrm{O}}, {\boldsymbol{X}}_{\mathrm{O}}\right), T=1\\ F\left({\boldsymbol{X}}_{\mathrm{O}}, {\boldsymbol{Y}}_{T-1}\right), 2\le T\le n\end{array}\right. $

(1)

	Download: JPG larger image
图 1 附着物去除网络的结构 Fig. 1 Structure of attachments removing network

其中：$ {\boldsymbol{X}}_{\mathrm{O}} $为输入的附着物图像；$ F\left({\boldsymbol{X}}_{1}, {\boldsymbol{X}}_{2}\right) $为附着物图像到无附着物图像的非线性映射操作；$ {\boldsymbol{Y}}_{T} $为递归T次后的附着物去除图像；n为总递归次数。当T=1时，$ F\left({\boldsymbol{X}}_{1}, {\boldsymbol{X}}_{2}\right) $输入为2张相同附着物的原图$ {\boldsymbol{X}}_{\mathrm{O}} $；当T=n时，$ F\left({\boldsymbol{X}}_{1}, {\boldsymbol{X}}_{2}\right) $输入为$ {\boldsymbol{X}}_{\mathrm{O}} $和$ {\boldsymbol{Y}}_{T-1} $。

1.2 二值掩膜引导模块

刀具刃口图像中的附着物种类有金属屑、毛发、棉絮等，其中毛发表面较为光滑，存在反光现象，导致毛发区域不完整，难以提取其完整的形状特征；而棉絮的透光性好，成像后易造成伪影且其灰度值较低，经过若干次卷积后，权重响应越来越低甚至为0，去除效果差。为解决上述问题，本文提出二值掩膜引导模块，利用Ostu二值化算法，生成刀具图像掩膜，从而引导网络依据附着物形状特征，更完整地去除附着物。其中Ostu二值化是一种自适应的阈值确定算法，通过计算类间方差$ {\sigma }_{\mathrm{C}}^{2}\left(T\right) $的最大值得到最佳的分割阈值，计算公式如式（2）所示：

$ {\sigma }_{\mathrm{C}}^{2}\left(T\right)={\omega }_{0}\left(T\right)\left[{\mu }_{0}\right(T)-{\mu }_{T}{]}^{2}+{\omega }_{1}(T\left)\right[{\mu }_{1}\left(T\right)-{\mu }_{T}{]}^{2} $

(2)

其中：$ {\omega }_{0}\left(T\right) $和$ {\omega }_{1}\left(T\right) $分别表示阈值为T时图像中附着物与刀具像素的概率和白色光源为背景像素的概率；$ {\mu }_{T} $为图像灰度的均值；$ {\mu }_{0}\left(T\right) $和$ {\mu }_{1}\left(T\right) $分别表示附着物与刀具像素区域的均值和光源背景区域的均值。

在刀具刃口图像中，计算得到目标和背景的最佳分割阈值后，得到二值化掩膜，如图 1中输入部分所示。在各递归过程开始前，结合前一次递归去除结果、二值化掩膜引导特征和附着物原图，合并构成9通道的特征图并作为网络的输入，通过$ 3\times 3 $的卷积提取二值掩膜引导下的浅层特征，利用ReLU激活函数进行激活。

1.3 去除过程学习模块

在附着物网络递归过程中，附着物经过多次去除直至完整去除，本文提出去除过程学习模块，该模块借鉴了LSTM^[18]的思想，增强网络在周期维度上的特征提取能力，有效提取附着物递归去除过程中的时序信息。LSTM改进了原始的递归神经网络，通过对遗忘门、输入门、候选细胞态和输出门的控制，决定流动特征的取舍或遗忘，从而有效地防止网络训练过程中的梯度爆炸和丢失现象，并提取时序信息。在去除过程学习模块中，通过改进的卷积运算和激活函数实现门单元的控制，其中改进的卷积运算采用深度可分离卷积，在有效提取时序信息的同时加快了特征的提取速度。

1.4 自注意力精准分离模块

刀具附着物分布在刀具和白色光源的交界处，且由于刀具和附着物区域缺少纹理特征，极为相似，难以对两者进行有效区分。如果采用普通的残差模块提取深层特征，则缺乏针对刀具边界区域的学习，在附着物粘连的边缘处容易出现扭曲现象。针对上述问题，本文提出自注意力精准分离模块，该模块借鉴了编解码器（Encoder-Decoder）结构的思想，利用编码器提取输入的刀具附着物图像中的语义部分，把附着物区域与刀具和光源区域有效地划分，并利用自注意力机制分解附着物区域的特征，令解码器把刀具和光源区域特征还原。其中，自注意力机制可以作为图像响应的向导，在输入的特征序列中，分别计算特征在任意位置的响应，从而获得全局信息，动态调节特征图谱中的网络权值，达到聚焦于附着物区域的效果，从而更好地分离图像中的刀具部分和附着物部分。

本文所提SARSM模块的结构如图 2所示，首先编码器部分通过2次步长为2的深度可分离卷积后，把尺寸为$ 100\times 100 $像素的特征图下降到$ 25\times 25 $像素，然后通过如图 2所示的SA自注意力模块，具体步骤为：

	Download: JPG larger image
图 2 自注意力精准分离模块的结构 Fig. 2 Structure of self attention refined separation module

1）特征$ \boldsymbol{Q} $与特征$ \boldsymbol{K} $构建对应位置的依赖关系；

2）输入的特征图谱$ \boldsymbol{Q} $以转置相乘的方式和$ \boldsymbol{K} $共同构成全局依赖关系字典，再经过权值系数$ \frac{1}{\sqrt{{d}_{k}}} $调整后，由Softmax函数激活，构建尺寸大小为$ 625\times 625 $像素注意力分数矩阵；

3）在全局依赖关系字典中，得到被查询特征$ \boldsymbol{V} $上的某位置的真实响应，从而得到增强后的注意力特征。

其中SA模块的输出公式为：

$ \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\right)=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\boldsymbol{Q}\times {\boldsymbol{K}}^{\mathrm{T}}}{\sqrt{{d}_{k}}}\right)\times \boldsymbol{V} $

(3)

最后，解码部分利用编码和自注意力加强后的特征由卷积和2倍上采样逐步提升通道尺寸至100$ \times $100像素，从而实现附着物与刀具边缘的精准分离。

1.5 特征整合模块

特征整合模块将上一级的深层特征进行整合，通过3$ \times $3像素的卷积，逐通道进行卷积，把维度从32下降到3。其图像维度与输入附着物图像保持一致，且图像尺寸保持不变，最后输出附着物去除后的3通道图像。特征整合的计算公式如式（4）所示：

$ {\boldsymbol{Y}}_{T}={\boldsymbol{W}}_{\mathrm{o}}\mathrm{*}\boldsymbol{R}\left(x\right)+{b}_{\mathrm{o}} $

(4)

其中：$ {\boldsymbol{Y}}_{T} $为递归第T次的附着物去除图像；$ {\boldsymbol{W}}_{\mathrm{o}} $为$ 3\times 3 $的卷积核；$ \boldsymbol{R}\left(x\right) $表示网络学习到的无附着物的深层特征；$ {b}_{\mathrm{o}} $为输出的偏置。

1.6 网络损失函数

均方误差（Mean Squared Error，MSE）是训练网络常用的损失函数，但由于平方惩罚容易丢失边缘等高频信息而产生模糊的视觉效果，因此，本文采用结构相似性指数（Structural Similarity，SSIM）作为主要的损失函数，SSIM相比于MSE在网络训练初期能学习到图像的结构信息，减少因附着物误去除产生的噪点，且能提高收敛速度。其中结构相似性损失函数$ {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}} $的计算公式如下：

$ {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}=-\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}\left({\boldsymbol{X}}_{T}, {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}\right) $

(5)

其中：$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $和$ {\boldsymbol{X}}_{T} $分别表示无附着物图像和预测的递归去除T次后的无附着物图像。根据式（5）可以求得$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $和$ {\boldsymbol{X}}_{T} $图像的结构相似度。由于该指数范围为[0, 1]，且该值越接近1，表示两幅图越相近，因此把结构相似度的结果取负数作为结构相似度损失函数$ {L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}} $。

本文的刀具图像中高频分量主要为刀具的边缘部分，如图 3所示，图 3（a）、图 3（c）为附着物图像和去除附着物后图像，图 3（b）、图 3（d）为对应的取拉普拉斯变换后的边缘图像。

	Download: JPG larger image
图 3 拉普拉斯变换结果 Fig. 3 Laplace transform results

为了在去除附着物的同时进一步恢复边缘细节信息，本文提出附加的边缘损失函数，从而约束$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $和$ {\boldsymbol{X}}_{T} $之间的高频分量。边缘损失函数定义为：

$ {L}_{\mathrm{e}\mathrm{d}\mathrm{g}\mathrm{e}}=-\left|L\left({\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}\right)-L\left({\boldsymbol{X}}_{\mathrm{G}}\right)\right| $

(6)

其中：$ L\left({\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}\right) $和$ L\left({\boldsymbol{X}}_{\mathrm{G}}\right) $分别表示通过拉普拉斯算子从无附着物图像$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $和预测的递归T次后的无附着物图像$ {\boldsymbol{X}}_{T} $中提取的边缘图。

将边缘图像相减后取绝对值，并以相反数的形式求得附加的边缘损失。总的损失函数$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}} $定义为：

$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}={L}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}+\lambda \times {L}_{\mathrm{e}\mathrm{d}\mathrm{g}\mathrm{e}} $

(7)

其中；$ \lambda $权重参数平衡了边缘损失，在本实验中设置为0.000 3。

2 实验结果与分析 2.1 实验数据集及评价指标

实验使用放大倍数为10的Carl Zeiss蔡司物镜，靶面尺寸为1.1英寸的Basler工业相机，构成精度为0.345 μm/像素的光学系统。使用采集外径约为110 mm，内径约为90 mm的某型号动力电池分切刀具。实验从312套刀具图像中（每套300张，每张图像的尺寸均为4 096×2 160像素），收集了567张附着物图像，其中包含训练集510张图像，测试集57张图像，该数据集命名为TA567，样本数据示例如图 4所示。对含有附着物部分的图像进行随机裁剪，生成尺寸为100×100像素含附着物和对应的无附着物图像，共3 478对，其中包含训练集3 130对图像，测试集348对图像。

	Download: JPG larger image
图 4 刀具附着物数据集TA567的样本示例 Fig. 4 Samples example of tool attachments TA567 data set

本文使用选择峰值信噪比（PSNR）、SSIM和交并比（IOU）这3种图像质量评价方法对附着物去除效果进行比较。其中，PSNR通过计算生成图像与原始图像之间的像素差异来衡量图像的重建质量，PSNR以dB为计算单位，数值越大表示重建质量越好，其计算公式如式（8）所示：

$ {P}_{\mathrm{P}\mathrm{S}\mathrm{N}\mathrm{R}}=10\times \mathrm{l}\mathrm{g}\left(\frac{255\times 255}{\mathrm{M}\mathrm{S}\mathrm{E}}\right) $

(8)

SSIM是一种考虑人眼视觉感知的图像质量评价方法，从图像的亮度、对比度和结构3个方面进行评价，用于衡量生成图像与原图的相似度。结构相似度的取值范围为0~1，结果越接近1，表示两幅图越相近，计算方式如公式（9）所示：

$ {S}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}\left({\boldsymbol{X}}_{T}, {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}\right)=\frac{\left(2{\mu }_{{X}_{T}}{\mu }_{{X}_{GT}}+{C}_{1}\right)\left(2{\sigma }_{{X}_{T}{X}_{GT}}+{C}_{2}\right)}{\left({\mu }_{{X}_{T}}^{2}+{\mu }_{{X}_{GT}}^{2}+{C}_{1}\right)\left({\sigma }_{{X}_{T}}^{2}+{\sigma }_{{X}_{GT}}^{2}+{C}_{2}\right)} $

(9)

其中：$ {\mu }_{{\boldsymbol{X}}_{T}} $和$ {\sigma }_{{\boldsymbol{X}}_{T}}^{2} $分别为递归循环T次后的输入图像$ \boldsymbol{X} $的均值和方差；$ {\mu }_{{\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}} $和$ {\sigma }_{{\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}}^{2} $分别是附着物标准去除图像$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $的均值和方差；$ {\sigma }_{{\boldsymbol{X}}_{T}{\boldsymbol{X}}_{\mathrm{G}\mathrm{T}}} $为递归循环T次后的输入图像$ \boldsymbol{X} $和附着物标准去除图像$ {\boldsymbol{X}}_{\mathrm{G}\mathrm{T}} $的协方差；$ {C}_{1} $和$ {C}_{2} $为常数，分别取值为0.01和0.03用于避免计算中出现分母为0的情况。

IOU用于测量预测区域与标注区域之间的相关度，本文采用附着物去除区域的最小外接矩形与附着物区域的最小外接矩形计算IOU。交并比的取值范围为0~1，结果越接近1，表示相关度越高。

2.2 实验环境与参数配置

本文实验环境平台采用Intel 8700 6核12线程CPU，操作系统为Ubuntu16.04，Python版本采用3.6，以Pytorch0.4.1作为深度学习框架，使用NVIDIA TITANX 11G显卡对网络进行加速训练。网络训练采用Adam算法优化策略，初始学习率为0.001，总共训练100个epoch，在第30、50、80个epoch时，调整学习率到原来的20%。小批量数据样本Batch Size为2，最大迭代次数为153 100。

2.3 客观定量结果

在不同T取值下，ARNet网络与PReNet网络的对比实验结果如表 1所示。实验结果表明，随着递归次数T的增加，各网络的3个评价指标均呈上升趋势，在T=3时递增减缓，并在T=4时趋于平稳，这表明各网络在T=4时，网络性能趋于稳定。从表 1可看出，当T取不同值时，本文提出的ARNet网络均比PReNet网络评价指标更好，表明ARNet网络特征提取能力更强，在附着物去除效果上更优。同时，ARNet网络的参数量和模型大小分别为0.023 M和89.8 KB，而PReNet网络的参数量和模型大小分别为0.169 M和665.9 KB，相比之下，ARNet网络的参数量更少且模型更小（降低为PReNet的86.5%），说明ARNet网络在去除过程学习模块和精确分离模块中引入的深度可分离卷积和编解码结构能提取到关键的特征信息，在本文数据集上兼顾了速度和精度。当T=4时，结果显示本文提出的ARNet网络在PSNR、SSIM和IOU这3项指标上，比PReNet网络分别提高了0.63%、1.016 dB和3.48%，且计算量减少了90.9%，其中计算量采用FLOPs浮点运算数来衡量。

下载CSV 表 1 递归周期实验结果 Table 1 Experimental results of different recursion periods

定量的评价指标结果如表 2所示，本文提出的ARNet网络分割效果最好。本文以PReNet网络为基线网络，对本文提出的BMGM、RPLM和SARSM这3个模块进行了消融实验。在PReNet的基础上，二值掩膜引导模块（PReNet + BMGM）引入二值化后的掩膜特征后，能在多次递归过程中引导去除的部位，从而提高去除效果。去除过程学习模块（PReNet+RPLM）比引入的BMGM模块在3个评价指标上提升更大，说明去除过程学习模块在多次递归结构下，能学习到去除部位的位置信息，而BMGM模块以网络输入特征为切入点，丰富了特征信息，却在一定程度上缺少了掩膜中附着物的位置信息。去除部分和自注意力精准分离模块（PReNet+SARSM）在评价指标上提升最大，说明编解码机构能提炼出网络中的有效特征。结合自注意力机制，注意力分数矩阵在像素级上进行特征的加权强化，对附着物去除起到了良好的促进作用。同时，本文提出的加权边缘损失$ {L}_{\mathrm{e}\mathrm{d}\mathrm{g}\mathrm{e}} $能进一步在网络训练中增加边缘区域的约束，使网络更关注边缘细节修复，达到优化去除效果的目的。

下载CSV 表 2 不同网络的附着物去除性能对比 Table 2 Comparison of attachment removal performance of different networks

2.4 主观评价结果

如图 5所示，本节将选取3.3节递归实验中网络精度趋于稳定的ARNet（T=4），并与DDN^[19]，JORDER^[20]、RESCAN^[21]和PReNet^[15]网络进行对比以验证本文网络的有效性。图 5从上到下依次为含附着物的刀具图像、Ground-Truth附着物区域、DDN网络、JORDER网络、RESCAN网络、PReNet网络和本文网络的附着物去除结果。可以看出本文网络对刀具边缘的修复效果较好，能准确地分离出刀具区域和附着物区域，并且没有出现误去除附着物的现象。在其他网络的实验结果中，附着物和刀具的衔接部分出现了不规则的突起，而本文网络恢复的豁口边缘更平滑。此外，本文网络针对不同种类的附着物均能保持较高的精确度，鲁棒性良好。

	Download: JPG larger image
图 5 附着物去除实验的结果 Fig. 5 Result of the attachments removing experiment

2.5 豁口检测实验

本节选取上述主观和客观结果最好的ARNet和PReNet网络进行豁口检测效果的对比实验。实验从TA567数据集中随机选取8个豁口样本，分别用上述2种网络去除附着物，并在豁口检测系统中分析豁口的长度、深度和面积参数，实验结果如表 3所示，其中GT表示无附着物。对于豁口的长度参数，本文网络比PReNet网络更接近无附着物的豁口长度；在豁口深度比较中，网络在豁口1和豁口3上具有相同的结果，分别为5.5 μm和12.4 μm。其中网络在豁口1的深度结果大于真实值5.2 μm，相差0.3 μm，均误差在允许范围内。在豁口2和豁口6结果中，ARNet网络精准还原豁口深度，误差为0；在面积参数中，得益于豁口长度和深度还原精度较高，本文网络还原的面积更接近真实值。实验结果表明，本文网络去除附着物后，豁口检测结果更优。

下载CSV 表 3 无附着物与各网络去除附着物后的豁口检测结果分析 Table 3 Gap detection results analysis of no attachments and after removing the attachments of each network

如图 6所示为豁口1~4的检测效果图（彩色效果见《计算机工程》官网HTML版）。图 6中的L、D和A分别表示豁口的长度、深度和面积。图图 6（a）、图 6（b）和图 6（d）的豁口在去除附着物前，由于附着物的遮挡，只检测出部分的豁口区域。如图 6（b）、图 6（j）和图 6（n）所示，经过PReNet网络和ARNet网络去除附着物后，豁口面积从203.4 μm²分别恢复到274.4 μm²和343.1 μm²，豁口区域恢复了34.9%和68.7%。图 6（c）中因附着物遮挡过多导致豁口漏检，经过网络处理后，图 6（k）和图图 6（o）漏检的豁口被完整检出，降低了豁口检测系统的漏检率。由实验结果可知，ARNet和PReNet网络均能在一定程度上去除附着物。

	Download: JPG larger image
图 6 豁口检测实验的结果示例 Fig. 6 Example of results of gap detection experiment

如图 6（i）~图 6（l）所示，附着物与刀具边缘连接部分不平整。而图 6（m）~图 6（p）中上述连接部分较为平整，恢复后的刀具边缘过渡平滑。由实验结果可知，ARNet网络中的自注意力机制提升了附着物与刀具边缘连接处的还原精度，相比于PReNet网络，ARNet网络去除附着物的效果更优。为统计上述实验中豁口检测结果的误差率，需对长度、深度和面积的误差进行加权。如表 4所示，统计了附着物去除前（Origin）和无附着物（GT）的豁口检测结果，计算出两者的误差。实验数据显示，附着物的存在对豁口的面积影响最大，其次是附着物的长度和深度。

下载CSV 表 4 去除附着物前后的豁口检测结果 Table 4 Gap detection results before and after removal of attachments

豁口面积过大是电池极片产生毛刺的最重要因素，而豁口深度和豁口长度对产生毛刺相对敏感。因此，在计算检测总误差率时，根据豁口几何参数对产生毛刺的敏感程度，设定面积、深度和长度的相应权重分别为0.5、0.3和0.2。豁口样本的总检测误差率如图 7所示，总检测误差率由长度、深度和面积分别加权求和得到。在豁口编号为4时，PReNet网络在T=4时出现误检，附着物去除后的检测结果比无附着物的检测结果更差。本文网络在8个豁口样本的误差曲线最低，表明本文网络ARNet在T=4时，附着物去除效果更优。

	Download: JPG larger image
图 7 各网络去除附着物前后的豁口检测总误差率 Fig. 7 Total error rate of gap detection before and after removal of attachments in each network

3 结束语

本文提出一种结合自注意力机制的附着物去除网络，采用二值掩膜引导模块区分目标区域和背景区域，通过学习模块提取去除位置的信息，并利用自注意力精准分离模块，在编解码过程中使用自注意力机制强化附着物特征，以完整地分离开附着物与刀具区域，得到刀具轮廓平滑的无附着物图像。实验结果表明，本文网络完整地还原了刀具边缘，兼顾了较低的计算量和较高的附着物去除精度，提高了豁口检测的准确率，同时增强了刀具豁口高精度检测系统的稳定性和可靠性，可应用于工业检测设备中。下一步将从多尺度、卷积方式（如引入可形变卷积）等方面优化网络，解决小面积附着物对豁口检测造成的不良影响。

参考文献

[1]	颜振翔. 刀具豁口高精度自动检测装置关键技术研究及实现[D]. 桂林: 桂林电子科技大学, 2019. YAN Z X. Research and implementation of key technoloay for high precision automatic detecting device for tool flaw[D]. Guilin, Guangxi : Guilin University of Electronic Technology, 2019. (in Chinese)
[2]	颜振翔, 王寒迎, 石齐双, 等. 基于区域蛙跳搜索与轮廓匹配的显微图像拼接[J]. 激光与光电子学进展, 2019, 56(15): 65-72. YAN Z X, WANG H Y, SHI Q S, et al. Microscopic image stitching based on regional frog leaping search algorithm and image contour matching[J]. Laser and Optoelectronics Progress, 2019, 56(15): 65-72. (in Chinese)
[3]	栗琳, 王仲, 蔡振兴, 等. 基于目标轮廓的附着物定位与剔除方法[J]. 光电工程, 2012, 39(5): 45-51. LI L, WANG Z, CAI Z X, et al. A method of location and elimination of foreign matters based on navigation contour[J]. Opto-Electronic Engineering, 2012, 39(5): 45-51. (in Chinese)
[4]	GUO X J, YANG X Y, YU Z J. Foreign object debris detection on the runway based on wavelet method[J]. Applied Mechanics and Materials, 2013, 427(3): 1658-1661.
[5]	张辉, 王耀南, 周博文. 基于机器视觉的液体药品异物检测系统研究[J]. 仪器仪表学报, 2009, 30(3): 548-553. ZHANG H, WANG Y N, ZHOU B W. Research on foreign substance detection system for medicinal solution based on machine vision[J]. Chinese Journal of Scientific Instrument, 2009, 30(3): 548-553. (in Chinese)
[6]	MI C, CHEN K, ZHANG Z W. Research on tobacco foreign body detection device based on machine vision[J]. Transactions of the Institute of Measurement and Control, 2020, 42(2): 2857-2871.
[7]	ISKANDAR D N F A, LING N J, FAUZI A H. Foreign matter identification in piper nigrum samples[C]//Proceedings of the 7th International Colloquium on Signal Processing and its Applications. Washington D.C., USA: IEEE Press, 2011: 1197-1204. https://ieeexplore.ieee.org/document/5759857
[8]	LIANG H G, ZUO C, WEI W M. Detection and evaluation method of transmission line defects based on deep learning[J]. IEEE Access, 2020, 8: 38448-38458. DOI:10.1109/ACCESS.2020.2974798
[9]	JING J, ZHUO D, ZHANG H, et al. Fabric defect detection using the improved YOLOv3 model[J]. Journal of Engineered Fibers and Fabrics, 2020, 15(1): 1-10.
[10]	CAO Z Y, LI X R, ZHAO L Y. Object detection in VHR image using transfer learning with deformable convolution[C]//Proceedings of 2019 IEEE International Geoscience and Remote Sensing Symposium. Washington D.C., USA: IEEE Press, 2019: 326-329.
[11]	LI M, HSU W, XIE X D, et al. SACNN: self-attention convolutional neural network for low-dose CT denoising with self-supervised perceptual loss network[J]. IEEE Transactions on Medical Imaging, 2020, 7: 2289-2301.
[12]	LIU Q M, JIA R S, ZHAO C Y, et al. Face super-resolution reconstruction based on self-attention residual network[J]. IEEE Access, 2020, 8: 4110-4121. DOI:10.1109/ACCESS.2019.2962790
[13]	ZHANG H, GOODFELLOW I, METAXAS D, et al. Self-attention generative adversarial network[EB/OL]. [2021-01-03]. https://arxiv.org/abs/1805.08318.
[14]	BA J L, MNIH V, KAVUKCUOGLU K. Multiple object recognition with visual attention[EB/OL]. [2021-01-03]. https://arxiv.org/abs/1412.
[15]	REN D W, ZUO W M, HU Q H, et al. Progressive image deraining networks: a better and simpler baseline[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 1926-1932. https://ieeexplore.ieee.org/document/8953349
[16]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Washington D.C., USA: IEEE Press, 2017: 5998-6008. https://dl.acm.org/doi/10.5555/3295222.3295349
[17]	SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 1793-1800. https://ieeexplore.ieee.org/document/8578572
[18]	DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition anddescription[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39: 677-691. DOI:10.1109/TPAMI.2016.2599174
[19]	FU X Y, HUANG J B, ZENG D L, et al. Removing rain from single images via a deep detail network[C]//Proceedings of 2017 IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1715-1723. https://ieeexplore.ieee.org/document/8099669
[20]	YANG W H, ROBBY T, FENG J S, et al. Deep joint rain detection and removal from a single image[C]//Proceedings of 2017 IEEE International Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1357-1366. https://ieeexplore.ieee.org/document/8099666
[21]	LI X, WU J L, LIN Z C, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 262-277. https://link.springer.com/chapter/10.1007/978-3-030-01234-2_16