基于U-Net的对抗样本防御模型

引用本文

赖妍菱, 石峻峰, 陈继鑫, 等. 基于U-Net的对抗样本防御模型[J]. 计算机工程, 2021, 47(12), 163-170. DOI: 10.19678/j.issn.1000-3428.0060571.

LAI Yanling, SHI Junfeng, CHEN Jixin, et al. Adversarial Example Defense Model Based on U-Net[J]. Computer Engineering, 2021, 47(12), 163-170. DOI: 10.19678/j.issn.1000-3428.0060571.

基金项目

四川省重大科技专项“新时代互联网+人工智能个性定制化智能教育研发与应用”（18ZDZX）

作者简介

赖妍菱(1997-), 女, 硕士研究生, 主研方向为对抗样本防御;
石峻峰, 学士;
陈继鑫, 硕士研究生;
白汉利, 高级工程师、硕士;
唐晓澜, 硕士研究生;
邓碧颖, 硕士研究生;
郑德生, 副研究员、博士

文章历史

收稿日期：2021-01-12
修回日期：2021-04-25

Contents Abstract Full text Figures/Tables PDF

基于U-Net的对抗样本防御模型

赖妍菱¹ , 石峻峰¹ , 陈继鑫¹ , 白汉利² , 唐晓澜¹ , 邓碧颖¹ , 郑德生¹

1. 西南石油大学计算机科学学院, 成都 610500;
2. 中国空气动力研究与发展中心, 四川绵阳 621000

收稿日期：2021-01-12；修回日期：2021-04-25

基金项目：四川省重大科技专项“新时代互联网+人工智能个性定制化智能教育研发与应用”（18ZDZX）

作者简介：赖妍菱(1997-), 女, 硕士研究生, 主研方向为对抗样本防御; 石峻峰, 学士; 陈继鑫, 硕士研究生; 白汉利, 高级工程师、硕士; 唐晓澜, 硕士研究生; 邓碧颖, 硕士研究生; 郑德生, 副研究员、博士.

E-mail: zheng_de_sheng@126.com

摘要：对抗攻击是指对图像添加微小的扰动使深度神经网络以高置信度输出错误分类。提出一种对抗样本防御模型SE-ResU-Net，基于图像语义分割网络U-Net架构，引入残差模块和挤压激励模块，通过压缩和重建方式进行特征提取和图像还原，破坏对抗样本中的扰动结构。实验结果表明，SE-ResU-Net模型能对MI-FGSM、PGD、DeepFool、C&W攻击的对抗样本实施有效防御，在CIFAR10和Fashion-MNIST数据集上的防御成功率最高达到87.0%和93.2%，且具有较好的泛化性能。

Adversarial Example Defense Model Based on U-Net

LAI Yanling¹ , SHI Junfeng¹ , CHEN Jixin¹ , BAI Hanli² , TANG Xiaolan¹ , DENG Biying¹ , ZHENG Desheng¹

1. School of Computer Science, Southwest Petroleum University, Chengdu 610500, China;
2. China Aerodynamics Research and Development Center, Mianyang, Sichuan 621000, China

Abstract: Adversarial attack refers to adding a small disturbance to the image to make the deep neural network output the wrong classification with high confidence.An adversarial sample defense model named SE-ResU-Net is proposed, based on the image semantic segmentation network U-Net architecture, the residual module and the extrusion excitation module are introduced, and feature extraction and image restoration are performed through compression and reconstruction methods, destroying the perturbation structure in the adversarial sample.Experimental results show that SE-ResU-Net can effectively defend against MI-FGSM, PGD, DeepFool, and C & W attack adversarial samples.The defense success rate on CIFAR10 and Fashion-MNIST datasets is up to 87.0% and 93.2%, and has good generalization performance.

开放科学（资源服务）标志码（OSID）：

0 概述

机器学习是一门多领域交叉学科，专门研究计算机模拟或实现人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构使之不断改善自身性能^[1]。深度学习作为机器学习的重要分支，是学习样本数据的内在规律和表示层次的算法，在学习过程中获得的信息对文字、图像、声音等数据的解释有很大帮助，目前已被广泛应用于现实世界，但容易受到对抗攻击^[2-3]。对抗攻击是指攻击者对输入样本添加微小的扰动^[4]，这种扰动人眼难以区分，但是对于机器而言，模型会为添加扰动后的输入样本给出一个高置信度的错误输出，添加扰动后的输入样本称为对抗样本^[5]。

近年来，关于对抗样本防御的研究主要包括增强模型鲁棒性和数据预处理两方面^[6]。增强模型鲁棒性的方法有很多，现有研究证明对抗训练和蒸馏能有效防御对抗攻击^[7]。对抗训练是用特定某一种攻击的对抗样本来训练模型，训练后得到的模型对于该攻击的对抗样本具有防御能力。对抗训练框架借鉴了标准经验风险最小化方法，目标是尽量减少对抗样本的风险^[8]。蒸馏在不改变网络结构的情况下，为提高自身的鲁棒性，以训练数据的分类概率向量的形式提取知识，将分类概率向量作为新的标签训练出一个与原模型结构相同、蒸馏温度相同的新模型。实验结果表明，新模型可以提高对图像中微小扰动的恢复能力^[9]。数据预处理防御对抗样本是在数据输入分类模型之前，提前将数据进行处理，消除图像的扰动^[10]。数据预处理的方法主要有JPEG压缩、PixelDefend和HGD。JPEG压缩能够去除图像的高频信号分量，该操作相当于选择性模糊图像，有助于消除扰动^[11-12]。PixelDefend使用CNN将对抗样本投射回数据流形，然后将其反馈到原始分类器，无须训练数据^[13]。HGD是端到端的除噪网络，采用去噪模块来消除扰动^[14]。

本文提出一种对抗样本除噪模型SE-ResU-Net，基于编解码网络结构，通过编码网络对图像进行压缩去除图像中的噪声，这些噪声可看作是对抗样本中的扰动。利用解码网络对图像进行重建，将压缩后的图像重建为与干净样本接近的清晰图像，并且能够被分类模型正确分类。

1 相关工作 1.1 对抗攻击

在图像分类中，常见的对抗攻击方法有FGSM、MI-FGSM、PGD、DeepFool和C & W。

FGSM攻击是通过使成本函数$ J(\boldsymbol{\theta }, \boldsymbol{x}, \boldsymbol{y}) $变大来达到攻击的目的，是对抗样本领域的主要攻击方法。设$ \boldsymbol{\theta } $为模型参数，$ \boldsymbol{x} $为模型输入，$ \boldsymbol{y} $为$ \boldsymbol{x} $的正确标签分类，$ J(\boldsymbol{\theta }, \boldsymbol{x}, \boldsymbol{y}) $为训练神经网络的成本函数，$ \varepsilon $为扰动系数。将成本函数在$ \boldsymbol{\theta } $的当前值附近线性化，使用FGSM攻击得到最优的最大范数约束扰动。对抗样本$ {\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}} $生成方法定义如下^[15]：

$ {\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}}=\boldsymbol{x}+\varepsilon \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({\nabla }_{\boldsymbol{x}}J(\boldsymbol{\theta }, \boldsymbol{x}, \boldsymbol{y})\right) $

(1)

MI-FGSM攻击通过在攻击过程中融入动量，解决了FGSM攻击容易陷入局部最优的问题。MI-FGSM攻击定义如下^[16]：

$ {g}_{t+1}=\mu \cdot {g}_{t}+\frac{{\nabla }_{\boldsymbol{x}}J({\boldsymbol{x}}_{t}^{\mathrm{*}}, \boldsymbol{y})}{{‖{\nabla }_{\boldsymbol{x}}J({\boldsymbol{x}}_{t}^{\mathrm{*}}, \boldsymbol{y})‖}_{1}} $

(2)

$ {\boldsymbol{x}}_{t+1}^{\mathrm{a}\mathrm{d}\mathrm{v}}={\boldsymbol{x}}_{t}^{\mathrm{a}\mathrm{d}\mathrm{v}}+\varepsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({g}_{t+1}\right) $

(3)

其中：$ {g}_{t} $使用式（2）中定义的衰减因子$ \mu $收集前$ t $次迭代的梯度来稳定梯度更新方向，避免陷入局部最大值。

PGD攻击是一种攻击性很强的一阶攻击，因此很多防御对抗攻击研究采用PGD攻击进行实验。常见的关于$ p $范数攻击的设置是通过$ {B}_{\varepsilon }\left(\boldsymbol{x}\right)=\boldsymbol{x}+\delta :{‖\delta ‖}_{p}\le \varepsilon $找到一个对抗样本$ {\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}} $，这是原始图像$ \boldsymbol{x} $周围的ε半径球。PGD攻击会反复使用以下更新规则，以在$ {B}_{\varepsilon }\left(\boldsymbol{x}\right) $中找到一个对抗样本^[17]：

$ {\boldsymbol{x}}_{k+1}^{\mathrm{a}\mathrm{d}\mathrm{v}}=\underset{{}_{{B}_{\varepsilon }\boldsymbol{x}}}{\mathrm{p}\mathrm{r}\mathrm{o}\mathrm{j}}\left({\boldsymbol{x}}_{k}^{\mathrm{a}\mathrm{d}\mathrm{v}}+\eta \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({\nabla }_{{\boldsymbol{x}}_{k}^{\mathrm{a}\mathrm{d}\mathrm{v}}}L\left(f\left({\boldsymbol{x}}_{k}^{\mathrm{a}\mathrm{d}\mathrm{v}}\right), \boldsymbol{y}\right)\right)\right) $

(4)

其中：$ \underset{{}_{{B}_{\varepsilon }\boldsymbol{x}}}{\mathrm{p}\mathrm{r}\mathrm{o}\mathrm{j}}\left({\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}}\right)\triangleq \underset{{}_{{\boldsymbol{x}}'\in {B}_{\varepsilon }\boldsymbol{x}}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{‖{\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}}-{\boldsymbol{x}}'‖}_{p} $；$ \eta $为步长；$ L\left(f\left(\boldsymbol{x}\right), \boldsymbol{y}\right) $为成本函数。实际上，PGD攻击是多次迭代的FGSM算法，将FGSM攻击生成的对抗样本进行范围约束比较，如果该对抗样本$ {\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}} $在$ {B}_{\varepsilon }\left(\boldsymbol{x}\right) $范围内，那么第$ k+1 $次对抗样本就等于FGSM生成的样本。但是，如果该对抗样本$ {\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}} $在$ {B}_{\varepsilon }\left(\boldsymbol{x}\right) $的范围之外，那么第$ k+1 $次对抗样本将被变更为满足$ {‖{\boldsymbol{x}}^{\mathrm{a}\mathrm{d}\mathrm{v}}-{\boldsymbol{x}}'‖}_{p} $最小时的$ {\boldsymbol{x}}' $值，$ {\boldsymbol{x}}' $在$ {B}_{\varepsilon }\left(\boldsymbol{x}\right) $的范围内。

DeepFool攻击通过将输入样本投影到最接近的分割超平面来找到导致错误分类的最小扰动，解决了FGSM攻击中参数选择困难问题。最小扰动是输入样本与分类器上的正交投影之间的距离，属于求解目标函数最小值的问题，可以通过迭代的方式进行求解^[18]。

C & W攻击是基于优化的攻击，目的是最小化由扰动和分类到攻击类别的概率两部分的目标函数值，定义如下：

$ {\boldsymbol{r}}_{n}=\frac{1}{2}\left(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{\omega }}_{n}\right)+1\right)-{\boldsymbol{X}}_{n} $

(5)

$ \underset{{}_{{\boldsymbol{\omega }}_{n}}}{\mathrm{m}\mathrm{i}\mathrm{n}}‖{\boldsymbol{r}}_{n}‖+c\cdot f\left(\frac{1}{2}\left(\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\right({\boldsymbol{\omega }}_{n})+1)\right) $

(6)

其中：$ f\left({\boldsymbol{x}}'\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left(\mathrm{m}\mathrm{a}\mathrm{x}\left\{Z\right({\boldsymbol{x}}'{)}_{i}:i\ne t\}-Z({\boldsymbol{x}}'{)}_{t}, -k\right) $；$ {\boldsymbol{r}}_{n} $是干净样本和对抗样本之差，攻击类别记为$ t $；$ Z{\left(\boldsymbol{x}\right)}_{t} $是输入样本$ \boldsymbol{x} $通过分类模型但未经softmax层计算得出的输出向量。将对应类别不同于$ t $的最大值记为$ \mathrm{m}\mathrm{a}\mathrm{x}\left\{Z\right({\boldsymbol{x}}'{)}_{i}:i\ne t\} $。

C & W攻击目标为：1）最小化干净样本和对抗样本之差，就是使扰动变得微小，将$ {\boldsymbol{r}}_{n} $中计算的对抗样本值映射到$ \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} $空间，是为了优化对抗样本分布；2）使对抗样本被误分类到攻击类别$ t $的概率尽可能高，也就是使分类为$ t $的置信度$ k $尽可能大^[19]。C & W攻击通过调节置信度使得生成的扰动非常小，可破解很多防御模型。

1.2 防御模型

文献[12, 20]提出FeatureSqueezing和Spatial Smoothing模型进行对抗样本防御。FeatureSqueezing的原理是减少输入图片中的冗余特征，通过降低图片中每个像素的深度来破坏对抗样本中的扰动。FeatureSqueezing对图片进行压缩，但不会影响分类器对图片的判断，因为图片的主要特征未被破坏。SpatialSmoothing使用局部平滑来消除对抗样本中的扰动，由于图片中相邻像素点之间其实是关联的，局部平滑不会影响图片的总体特征。

文献[21]提出使用端到端的图像压缩模型ComDefend来防御对抗样本。ComDefend由ComCNN和RecCNN两个模块组成，ComCNN将输入压缩，去除冗余信息，使对抗样本变回干净样本，RecCNN在ComCNN输出的基础上重建清晰图像。ComDefend无须训练对抗样本，只需训练干净样本，并且防御后得到的图像能降低模型分类错误率并且图像清晰。

2 对抗样本防御模型 2.1 基础模型 2.1.1 U-Net模型

U-Net是一种图像语义分割网络^[22-23]，如图 1所示，U-Net结构由两个对称部分组成：1）左半部分网络是下采样过程，与普通卷积网络相同，主要使用3×3的卷积层和2×2的池化层，能够将输入图片进行特征压缩和降维；2）右半部分网络是上采样过程，主要使用3×3的卷积层和2×2的反卷积层，达到图像还原的目的，最终使用两个1×1的卷积层得到期望的特征通道数^[24-25]。图 1共进行4次下采样操作和4次上采样操作。每次下采样会将特征通道数增加到之前的2倍，长宽尺寸减半，如第1次下采样将特征通道数64加倍为128，尺寸由568减半到284。每次上采样会将特征通道数减半，长宽尺寸加倍，如最后一次上采样将特征通道数128减半为64，尺寸由196加倍为392。

	Download: JPG larger image
图 1 U-Net模型结构 Fig. 1 U-Net model structure

2.1.2 ResNet模型

梯度消失、梯度爆炸和神经网络退化会阻碍深层神经网络模型训练，直接导致深层神经网络模型无法收敛，ResNet可有效解决这些问题^[26-27]。ResNet通过构建残差块的形式来添加相应的恒等映射$ \boldsymbol{y}=\boldsymbol{x} $，达到优化深层神经网络模型性能的目的。残差块结构有两层神经网络，输入为$ \boldsymbol{x} $，激活函数为$ \mathrm{R}\mathrm{e}\mathrm{l}\mathrm{u}\left(\boldsymbol{x}\right) $。假设第2个权值层weight layer输出为$ F\left(\boldsymbol{x}\right) $，那么对于残差块而言，输入$ \boldsymbol{x} $会经过如图 2所示的右边这条连接线与$ F\left(\boldsymbol{x}\right) $相加，需要注意的是$ \boldsymbol{x} $和$ F\left(\boldsymbol{x}\right) $的结构要保持一致。经过Relu函数输出得到最后的结果，假设为$ H\left(\boldsymbol{x}\right) $，$ H\left(\boldsymbol{x}\right)=F\left(\boldsymbol{x}\right)+\boldsymbol{x} $，那么$ F\left(\boldsymbol{x}\right)=H\left(\boldsymbol{x}\right)-\boldsymbol{x} $为该残差块的残差。在深层神经网络中若有很多冗余层，则在训练过程中不能学习到很多知识。假设残差块中的weight layer可看作模型中的冗余层，则该模块中存在$ H\left(\boldsymbol{x}\right)=\boldsymbol{x} $的恒等映射，那么$ F\left(\boldsymbol{x}\right)=0 $，在此情况下学习会变得容易很多。

	Download: JPG larger image
图 2 ResBlock结构 Fig. 2 ResBlock structure

2.1.3 SENet模型

SENet是ImageNet 2017竞赛图像分类任务的冠军模型，可较容易地扩展到已有网络结构中^[28-29]。卷积的主要目的是提高感受野，即空间上融合更多特征或提取多维度的空间信息。SENet的创新点在于关注特征通道之间的关系，使得模型可以自动学习到不同通道特征的重要程度。SENet模型如图 3所示，共进行Squeeze、Excitation和Reweight 3个操作。

	Download: JPG larger image
图 3 SENet模型结构 Fig. 3 SENet model structure

首先，通过任意变换$ {F}_{\mathrm{t}\mathrm{r}} $将$ H'\times W'\times C' $空间维度的输入转化为$ H\times W\times C $。然后，Squeeze经过一系列卷积变换进行特征压缩，将每个二维特征通道均转换为一个实数，这个实数具有全局的感受野，并且输入的特征通道数和输出维度相匹配，这一过程用$ {F}_{\mathrm{s}\mathrm{q}}(\cdot ) $表示。其次，Excitation通过参数$ w $学习特征通道之间的相关性，确定每个通道的权重值，这一过程用$ {F}_{\mathrm{e}\mathrm{x}}(\cdot , W) $表示。最后，Reweight将权重值加权到各通道的特征上，对各个特征通道上的特征进行权重分配，确保重点关注信息量大的特征并忽略不重要的特征，这一过程用$ {F}_{\mathrm{s}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{e}}(\cdot , \cdot ) $表示。

2.2 SE-ResU-Net模型

对抗样本防御流程如图 4所示，由于对抗样本的扰动很小，因此无法被分类模型检测，SE-ResU-Net在对抗样本输入分类模型之前就能消除其扰动，把对抗样本转化为干净样本。如图 5所示，SE-ResU-Net在整体框架上参考U-Net的跳跃连接结构，即每个卷积层都与对应反卷积层跳跃连接。SE-ResU-Net左半部分网络经过卷积块ConvBlock经过卷积和池化层MaxPool2D进行池化来对图片进行压缩，并且卷积使用same模式，不会造成图片像素的损失。右半部分网络经过残差块ResBlock进行残差和上采样Upsample2D来对图片进行重建。在整个网络中，与U-Net保持一致，使用3×3的卷积层、2×2的池化层和2×2的反卷积层。SE-ResU-Net使用的卷积块ConvBlock结构如图 6所示，残差块ResBlock结构如图 7所示。

	Download: JPG larger image
图 4 对抗样本防御流程 Fig. 4 Defense procedure of adversarial examples

	Download: JPG larger image
图 5 SE-ResU-Net模型结构 Fig. 5 SE-ResU-Net model structure

	Download: JPG larger image
图 6 SE-ResU-Net模型中的ConvBlock结构 Fig. 6 ConvBlock structure in SE-ResU-Net model

	Download: JPG larger image
图 7 SE-ResU-Net模型中的ResBlock结构 Fig. 7 ResBlock structure in SE-ResU-Net model

SE-ResU-Net的创新点是在U-Net的基础上，解码网络部分将卷积组替换为残差块，同时将网络中的BN层替换为LN层，并且使用Elu激活函数。BN层在深度学习中表现较好，因此在大多数网络中均使用BN结构，但在该任务中并不适用，BN的作用是使各层网络满足独立同分布，使得网络训练变得更加方便，但这也意味着会改变激活值的数据分布。在对抗样本防御时，对于防御网络的输入和输出要求具有相似的数据分布，使用BN不利于图像重建。除此之外，SE-ResU-Net还引入轻量级注意力机制的挤压激励网络结构SEBlock，使模型忽略了有干扰的无用特征，从而增强了对分类有用特征的注意力。

选用扰动系数$ \varepsilon $为8/255的50 000张CIFAR10图像和60 000张Fashion-MNIST图像的MI-FGSM对抗样本来训练防御网络，以得到两个数据集各自对应的防御网络模型训练结果。研究发现，在训练防御网络时，损失函数不管是使用平均绝对误差（Mean Absolute Error，MAE）还是内容损失都能达到去除对抗样本中扰动的目的，但也存在一定的不足。最小化MAE会使输出图像和原图尽可能接近，但并不能完全消除扰动对分类网络的干扰，即图像和原图虽然极为相似，但所表达的语义信息是不相同的。最小化内容损失会使网络学会还原图片的语义信息，但并不能保证图像还原质量，图像质量不佳同样会影响分类网络的准确率。因此，在训练网络时，损失函数选择MAE和内容损失的混合形式，取得了较好的效果。

MAE是模型预测值$ f\left(x\right) $与真实值$ y $距离的平均值，计算公式如下：

$ {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{\sum \limits_{n=1}^{n}\left|f\right({x}_{i})-{y}_{i}|}{n} $

(7)

MAE在大部分情况下梯度都是相等的，对于模型输入，梯度是稳定不变的，不会导致梯度爆炸问题，但MAE梯度的值较大，模型收敛速度较慢。

通过从VGG19网络中提取的特征通道之间的欧几里得距离来定义内容损失函数^[30]：

$ {l}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}}{=\frac{1}{{W}_{i, j}{H}_{i, j}}\sum \limits_{x=1}^{{W}_{i, j}}\sum \limits_{y=1}^{{H}_{i, j}}\left({\varphi }_{i, j}\right({I}^{{}^{\mathrm{H}\mathrm{R}}}{)}_{x, y}-{\varphi }_{i, j}\left({G}_{{\theta }_{G}}\right({I}^{\mathrm{L}\mathrm{R}}{\left)\right)}_{x, y})}^{2} $

(8)

其中：$ {\varphi }_{i, j} $表示VGG19网络中第$ i $个最大池化层之前的第$ j $个卷积获得的特征通道；$ {I}^{\mathrm{L}\mathrm{R}} $表示重建图像；$ {I}^{{}^{\mathrm{H}\mathrm{R}}} $表示参考图像；$ {W}_{i, j} $和$ {H}_{i, j} $描述了VGG网络中各个特征通道的尺寸大小。

SE-ResU-Net的损失函数定义如下：

$ l=\alpha {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}+{l}_{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}} $

(9)

其中：超参数α表示平衡因子，用来调节MAE和内容损失的比重。因为这两个损失函数优化目标不同，MAE是为了重建图片，使输出图片与原图片在空间上接近，内容损失是为了保留语义，使输出图片与原图片在内容上接近。

3 实验与结果分析 3.1 实验设置

实验使用CIFAR10和Fashion-MNIST数据集。CIFAR10是一个用于识别常见对象的小型数据集，共包括10种RGB彩色图片，有50 000张训练图片和10 000张测试图片。Fashion-MNIST是一个用于识别商品的小型数据集，共包括10种灰度图片，有60 000张训练图片和10 000张测试图片，在实验中将Fashion-MNIST数据集图片处理为32像素×32像素的图片尺寸。

实验中CIFAR10数据集使用的分类模型为SEResNet18，该分类模型在CIFAR10数据集上达到了91.8%的分类准确率。Fashion-MNIST数据集使用的分类模型为SEResNet24，该分类模型在Fashion-MNIST数据集上达到了95.3%的分类准确率。

实验选取MI-FGSM、PGD、DeepFool、C & W来攻击分类模型，扰动系数$ \varepsilon $为2/255、4/255和8/255，使用10 000张CIFAR10数据集和10 000张Fashion-MNIST数据集的测试图片来生成MI-FGSM、PGD、DeepFool和C & W的对抗样本。由于C & W对抗样本的生成速度较慢，因此选择1 000张测试图片来生成C & W对抗样本。

3.2 实验结果 3.2.1 不同训练策略对比

由于训练过程中损失函数不同，SE-ResU-Net将产生不同的防御效果，因此使用不同的损失函数来训练SE-ResU-Net，在实验中共进行80次迭代训练。实验采用4种不同的损失函数组合，MAE（80）表示在SE-ResU-Net中使用MAE进行80次迭代训练，内容损失（80）表示使用内容损失进行80次迭代训练，MAE（50）+混合（30）表示先进行50次MAE的迭代训练，再进行30次MAE和内容损失的混合迭代训练，混合（80）表示进行80次MAE和内容损失的混合迭代训练。表 1、表 2和表 3分别给出了在CIFAR10数据集上SE-ResU-Net对各种对抗攻击的防御成功率，扰动系数$ \varepsilon $分别为2/255、4/255和8/255，其中最优指标值用加粗字体标示。

下载CSV 表 1 CIFAR10数据集上不同损失函数组合的防御成功率（ε=2/255） Table 1 Defense success rate of different loss function combinations on CIFAR10 dataset(ε=2/255)

下载CSV 表 2 CIFAR10数据集上不同损失函数组合的防御成功率（ε=4/255） Table 2 Defense success rate of different loss function combinations on CIFAR10 dataset(ε=4/255)

下载CSV 表 3 CIFAR10数据集上不同损失函数组合的防御成功率（ε=8/255） Table 3 Defense success rate of different loss function combinations on CIFAR10 dataset(ε=8/255)

实验结果表明，混合（80）对不同攻击方法及扰动系数均有较好的防御效果。在CIFAR10数据集干净样本分类准确率达到91.8%的情况下，最优训练策略为混合（80），该策略在MI-FGSM、PGD、DeepFool攻击方法上最高达到81.7%、82.5%、84.7%的防御成功率，在C & W攻击方法上达到87.0%的防御成功率。

3.2.2 不同防御模型对比

为更好地衡量SE-ResU-Net模型的防御效果，将其与相同扰动系数$ \varepsilon $下的其他防御模型进行比较。由于80次MAE和内容损失的混合迭代训练防御效果最好，因此实验使用80次MAE和内容损失的混合迭代训练的SE-ResU-Net与其他模型比较。表 4、表 5和表 6分别给出了在CIFAR10数据集上各种防御模型对于扰动系数$ \varepsilon $为2/255、4/255和8/255的各种对抗攻击的防御成功率。

下载CSV 表 4 CIFAR10数据集上不同防御模型的防御成功率（ε=2/255） Table 4 Defense success rate of different defense models on CIFAR10 dataset(ε=2/255)

下载CSV 表 5 CIFAR10数据集上不同防御模型的防御成功率（ε=4/255） Table 5 Defense success rate of different defense models on CIFAR10 dataset(ε=4/255)

下载CSV 表 6 CIFAR10数据集上不同防御模型的防御成功率（ε=8/255） Table 6 Defense success rate of different defense models on CIFAR10 dataset(ε=8/255)

表 7、表 8和表 9分别给出了在Fashion-MNIST数据集上各种防御模型对于扰动系数$ \varepsilon $为2/255、4/255和8/255的各种对抗攻击的防御成功率。

下载CSV 表 7 Fashion-MNIST数据集上不同防御模型的防御成功率（ε=2/255） Table 7 Defense success rate of different defense models on Fashion-MNIST dataset(ε=2/255)

下载CSV 表 8 Fashion-MNIST数据集上不同防御模型的防御成功率（ε=4/255） Table 8 Defense success rate of different defense models on Fashion-MNIST dataset(ε=4/255)

下载CSV 表 9 Fashion-MNIST数据集上不同防御模型的防御成功率（ε=8/255） Table 9 Defense success rate of different defense models on Fashion-MNIST dataset(ε=8/255)

实验结果表明，在将干净样本通过SE-ResU-Net后，分类准确率没有降低太多，CIFAR10数据集保持在86.2%，Fashion-MNIST数据集保持在93.1%。对于不同的扰动系数$ \varepsilon $，通过SE-ResU-Net后，CIFAR10数据集上的MI-FGSM对抗样本防御成功率分别提高了50.1、61.1、64.0个百分点，PGD对抗样本防御成功率分别提高了51.5、76.6、76.6个百分点，DeepFool对抗样本防御成功率分别提高了78.8、78.6、78.5个百分点，C & W对抗样本的防御成功率提高了81.9个百分点。对于Fashion-MNIST数据集，MI-FGSM对抗样本防御成功率分别提高了47.9、70.5、77.9个百分点，PGD对抗样本防御成功率分别提高了70.6、88.3、88.1个百分点，DeepFool对抗样本防御成功率分别提高了78.5、89.2、89.1个百分点，C & W对抗样本的防御成功率提高了89.5个百分点。与其他防御模型相比，对于实验中不同对抗攻击方法及扰动系数，SE-ResU-Net的防御成功率均高于其他模型。

3.3 防御效果展示

如图 8所示，CIFAR10和Fashion-MNIST数据集中的第1~3列分别显示了干净样本图像、对抗样本图像和通过SE-ResU-Net防御后的图像。由此可见，实验中生成的对抗样本是有效的，并且SE-ResU-Net能够保证对抗样本图像的还原质量。

	Download: JPG larger image
图 8 防御效果展示图 Fig. 8 Defense effect display diagram

4 结束语

针对深度神经网络模型受到的对抗攻击问题，本文从数据预处理角度出发，提出神经网络除噪模型SE-ResU-Net，采用先压缩后重建的编解码网络结构，使用扰动系数$ \varepsilon $=8/255的MI-FGSM对抗攻击方法生成的对抗样本作为训练集。在CIFAR10和Fashion-MNIST数据集上进行防御实验，结果验证了SE-ResU-Net对MI-FGSM、PGD、DeepFool和C & W攻击具有较好的防御效果和一定的泛化能力。后续将优化除噪网络模型SE-ResU-Net结构，进一步提高防御成功率。

参考文献

[1]	JORDAN M I, MITCHELL T M. Machine learning: trends, perspectives, and prospects[J]. Science, 2015, 349(6245): 255-260. DOI:10.1126/science.aaa8415
[2]	陈晓楠, 胡建敏, 张本俊, 等. 基于模型间迁移性的黑盒对抗攻击起点提升方法[J]. 计算机工程, 2021, 47(8): 162-169. CHEN X N, HU J M, ZHANG B J, et al. Black-box adversarial attack starting point improvement method based on migration between models[J]. Computer Engineering, 2021, 47(8): 162-169. (in Chinese)
[3]	LI X Y, ZHU Q S, ZHU M Z, et al. Machine learning study of the relationship between the geometric and entropy discord[J]. Europhysics Letters, 2019, 127(2): 20009. DOI:10.1209/0295-5075/127/20009
[4]	QU Z G, CHEN S Y, WANG X J. A secure controlled quantum image steganography algorithm[J]. Quantum Information Processing, 2020, 19(10): 1-25. DOI:10.1007/s11128-020-02882-4
[5]	AKHTAR N, MIAN A. Threat of adversarial attacks on deep learning in computer vision: a survey[J]. IEEE Access, 2018, 6: 14410-14430. DOI:10.1109/ACCESS.2018.2807385
[6]	姜妍, 张立国. 面向深度学习模型的对抗攻击与防御方法综述[J]. 计算机工程, 2021, 47(1): 1-11. JIANG Y, ZHANG L G. Survey of adversarial attacks and defense methods for deep learning model[J]. Computer Engineering, 2021, 47(1): 1-11. (in Chinese)
[7]	ZHENG D S, RAN Z Y, LIU Z F, et al. An efficient bar code image recognition algorithm for sorting system[J]. Computers, Materials & Continua, 2020, 64(3): 1885-1895.
[8]	TRAMÈR F, KURAKIN A, PAPERNOT N, et al. Ensemble adversarial training: attacks and defenses[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1705.07204.
[9]	PAPERNOT N, MCDANIEL P, WU X, et al. Distillation as a defense to adversarial perturbations against deep neural networks[C]//Proceedings of 2016 IEEE Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2016: 582-597.
[10]	LI X Y, ZHU Q S, HUANG Y M, et al. Research on the freezing phenomenon of quantum correlation by machine learning[J]. Computers, Materials & Continua, 2020, 65(3): 2143-2151.
[11]	DAS N, SHANBHOGUE M, CHEN S T, et al. Keeping the bad guys out: protecting and vaccinating deep learning with JPEG compression[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1705.02900.
[12]	NICOLAE M I, SINN M, TRAN M N, et al. Adversarial robustness toolbox v0.2.2[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1807.01069v1.
[13]	SONG Y, KIM T, NOWOZIN S, et al. PixelDefend: leveraging generative models to understand and defend against adversarial examples[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1710.10766.
[14]	XIE C H, WU Y X, MAATEN L V D, et al. Feature denoising for improving adversarial robustness[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 501-509.
[15]	GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1412.6572.
[16]	DONG Y P, LIAO F Z, PANG T, et al. Boosting adversarial attacks with momentum[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 9185-9193.
[17]	TASHIRO Y, SONG Y, ERMON S. Output diversified initialization for adversarial attacks[EB/OL]. [2020-12-08]. https://arxiv.org/abs/2003.06878v1#.
[18]	MOOSAVI-DEZFOOLI S M, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2574-2582.
[19]	CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//Proceedings of 2017 IEEE Symposium on Security and Privacy. Washington D.C., USA: IEEE Press, 2017: 39-57.
[20]	XU W L, EVANS D, QI Y J. FeatureSqueezing: detecting adversarial examples in deep neural networks[C]//Proceedings of 2018 Network and Distributed System Security Symposium. Washington D.C., USA: IEEE Press, 2018: 1-10.
[21]	JIA X J, WEI X X, CAO X C, et al. ComDefend: an efficient image compression model to defend adversarial examples[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 6077-6085.
[22]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[23]	WENG Y, ZHOU T B, LI Y J, et al. NAS-Unet: neural architecture search for medical image segmentation[J]. IEEE Access, 2019, 7: 44247-44257. DOI:10.1109/ACCESS.2019.2908991
[24]	ZENG Z T, XIE W H, ZHANG Y Z, et al. RIC-Unet: an improved neural network based on Unet for nuclei segmentation in histology images[J]. IEEE Access, 2019, 7: 21420-21428. DOI:10.1109/ACCESS.2019.2896920
[25]	JIN Q G, MENG Z P, SUN C M, et al. RA-UNet: a hybrid deep attention-aware network to extract liver and tumor in CT scans[J]. Frontiers in Bioengineering and Biotechnology, 2020, 8: 605132. DOI:10.3389/fbioe.2020.605132
[26]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[27]	TARG S, ALMEIDA D, LYMAN K. Resnet in Resnet: generalizing residual architectures[EB/OL]. [2020-12-08]. https://arxiv.org/abs/1603.08029.
[28]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141.
[29]	YAN W S, HUA Y Q. Deep residual SENet for foliage recognition[M]. Berlin, Germany: Springer, 2020.
[30]	LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 105-114.