«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (11): 150-157  DOI: 10.19678/j.issn.1000-3428.0059405
0

引用本文  

黄静琪, 贾西平, 陈道鑫, 等. 基于双对抗机制的图像攻击算法[J]. 计算机工程, 2021, 47(11), 150-157. DOI: 10.19678/j.issn.1000-3428.0059405.
HUANG Jingqi, JIA Xiping, CHEN Daoxin, et al. Image Attack Algorithm Based on Bi-Adversary Mechanism[J]. Computer Engineering, 2021, 47(11), 150-157. DOI: 10.19678/j.issn.1000-3428.0059405.

基金项目

国家自然科学基金(61872096);广东省普通高校重点科研项目(2019KZDXM063);广东省教育厅青年创新人才项目(2016KQNCX092)

通信作者

柏柯嘉(通信作者), 副教授、博士

作者简介

黄静琪(1996-), 女, 硕士研究生, 主研方向为模式识别、智能系统;
贾西平, 副教授、博士;
陈道鑫, 学士;
廖秀秀, 讲师、博士

文章历史

收稿日期:2020-09-01
修回日期:2020-11-26
基于双对抗机制的图像攻击算法
黄静琪 , 贾西平 , 陈道鑫 , 柏柯嘉 , 廖秀秀     
广东技术师范大学 计算机科学学院, 广州 510665
摘要:图像攻击是指通过对图像添加小幅扰动使深度神经网络产生误分类。针对现有图像攻击算法在变分自编码器(VAE)防御下攻击性能不稳定的问题,在AdvGAN算法的基础上,提出基于对抗机制的AntiVAEGAN算法获取对VAE防御的稳定攻击效果。为应对AntiVAEGAN算法防御能力提升时攻击性能不稳定的问题,结合生成器与鉴别器、生成器与VAE的双对抗机制提出改进的图像攻击算法VAEAdvGAN。在MNIST和GTSRB数据集上的实验结果表明,在无防御的情况下,AntiVAEGAN和VAEAdvGAN算法几乎能达到与AdvGAN算法相同的图像分类准确率和攻击成功率,而在VAE防御的情况下,VAEAdvGAN相比AdvGAN和AntiVAEGAN算法整体攻击效果更优。
关键词生成对抗网络    图像攻击    对抗样本    变分自编码器防御    防御模型    
Image Attack Algorithm Based on Bi-Adversary Mechanism
HUANG Jingqi , JIA Xiping , CHEN Daoxin , BAI Kejia , LIAO Xiuxiu     
School of Computer Science, Guangdong Polytechnic Normal University, Guangzhou 510665, China
Abstract: Image attack can disable a deep neural network in image classification by adding a small amount of interference to the input image.However, most of the existing image attack algorithms are relatively fragile against Variational Auto-Encoder(VAE) defense.Based on the AdvGAN algorithm, an algorithm named AntiVAEGAN is proposed, which employs the adversary mechanism to penetrate VAE defenses persistent, but AntiVAEGAN suffers from a loss of attack performance when improving the defense performance.To address the problem, this paper proposes an improved image attack algorithm, VAEAdvGAN, by combining both the generator-discriminator defense mechanism and the generator-VAE defense mechanism.Experimental results on the MNIST dataset and GTSRB dataset show that without defense, AntiVAEGAN and VAEAdvGAN can achieve almost the same classification accuracy and attack success rate as AdvGAN.In the case of VAE defense, VAEAdvGAN exhibits better overall attack effect than AdvGAN and AntiVAEGAN.
Key words: Generative Adversarial Network(GAN)    image attack    adversarial sample    Variational Auto-Encoder(VAE) defense    defense model    

开放科学(资源服务)标志码(OSID):

0 概述

深度学习是学习样本数据的内在规律和表示层次的算法,在学习过程中获得的信息对文字、图像和声音等数据的解释具有很大的帮助[1]。由于深度学习系统的训练过程和训练模型一般是封闭的,而训练数据集和预测数据需要与用户交互,因此容易受到未知恶意样本攻击[2]。如果在训练数据集中出现恶意样本,则称之为投毒攻击;如果在预测数据中出现恶意样本,则称之为对抗攻击[3]。对抗攻击利用对抗样本扰乱分类器的分类,使模型预测错误,从而破坏模型可用性。对抗样本是在原始样本中添加扰动而产生的,通过人类肉眼观看和原始样本基本没有区别。对抗攻击的难点在于攻击成功率和扰动之间的平衡。一般地,扰动越大,攻击成功率越高,但是攻击样本与原始样本的视觉差异越明显,反之亦然。

GOODFELLOW等[4]提出快速梯度标志攻击(Fast Gradient Sign Method,FGSM)方法,通过在梯度方向上添加增量来产生扰动,然后对原始图像添加扰动生成对抗样本,使网络产生误分类。SU等[5]提出基于差分进化生成单像素的对抗性扰动,目的是通过改变输入图像的一个像素值,达到在最小攻击信息的条件下对更多类型的网络进行欺骗。MOOSAVI-DEZFOOLI等[6]设计对于任意给定的DNN分类器都可实现图像攻击的扰动,生成的扰动仅与模型本身相关,具有较小的范数,在不改变图像本身结构的情况下,能使分类器以较大概率分类错误,从而实现对于DNN的攻击,同时这些扰动对人类肉眼而言几乎不可察觉。SZEGEDY等[7]将神经网络做出误分类的最小扰动求解方程转化成凸优化过程,寻找最小损失函数的添加项,使得对图像添加小量的人类察觉不到的扰动,便可达到误导神经网络分类的效果。XIAO等[8]等提出一种通过学习来逼近原始实例的分布和生成对抗实例的AdvGAN算法。一旦生成器训练完成,该算法就可以有效地使用所有原始实例来产生对抗性干扰实例,从而潜在地促进防御的对抗性训练。AdvGAN攻击算法在公共MNIST攻击挑战中获得第一名,加速了对抗样本的产生,生成的样本更加自然[9],并且受到了研究人员的广泛关注。

针对图像攻击,可以构建鲁棒的分类器或者防御模型,使其在输入攻击图像时也能实现分类正确。防御模型基本原理分为两种:一种是从分类器本身出发进行防御,即训练更加鲁棒的分类器;另一种是对输入的攻击图像做一定的预处理后再传给分类器,目的是尽可能减少攻击噪声。DZIUGAITE等[10]通过图像压缩技术去除图像攻击所添加的抽象扰动,将图像复原为没有扰动的图像,从而达到防御效果。通过实验发现,该方法在少量扰动的情况下,防御效果较好,但随着扰动的增加,难以解决神经网络的安全风险问题。LUO等[11]提出一种基于中央凹机制的防御方法来防御生成的对抗扰动。ROSS等[12]使用输入梯度正则化训练模型,使其具有平滑的输入梯度和较少的极值,同时对预测分布与真实分布之间散度的敏感性进行适当惩罚,这样小的对抗扰动就不会对输出具有显著影响,提高了对抗攻击鲁棒性。LI等[13]用变分自编码器(Variational Auto-Encoder,VAE)训练模型,通过对实例压缩来提取符合分布的数据特征,然后根据数据特征进行解压缩还原成实例。在压缩和解压缩过程中,VAE能够过滤许多扰动信息,实现对攻击的防御。DUBEY等[14]假设对抗性扰动使图像远离图像流形,通过对包含大量图像的海量数据库的最近邻搜索,建立一种针对对抗图像的成功防御机制,使图像近似投射回图像流形。LIU等[15]提出一种基于感知哈希的防御方法,通过比较图像的相似性来破坏扰动产生过程,从而达到防御目的。基于卷积稀疏编码,SUN等[16]在输入图像和神经网络的第一层之间引入稀疏变换层,并构造一个分层的准自然图像空间。该空间逼近自然图像空间,同时消除了对抗性扰动。吴立人等[17]在基于动量的梯度迭代攻击算法[18]的基础上,加入动量因子,使攻击在损失函数的梯度方向上快速迭代,稳定更新,有效地避免了局部最优。

现有图像攻击算法多数较为脆弱,只要对攻击图像做适当处理,就能使攻击模型的攻击性能大幅下降,导致图像攻击失效[19]。本文在AdvGAN算法的基础上,针对现有图像攻击在VAE防御下攻击不稳定的问题,提出AntiVAEGAN算法,以生成对抗网络的训练方式,训练得到一种抵抗VAE防御的AntiVAEGAN模型。在AntiVAEGAN算法的基础上,进一步提出改进的对抗攻击算法VAEAdvGAN,以解决防御能力提升时攻击不稳定的问题。

1 抵抗VAE防御的对抗攻击算法AntiVAEGAN 1.1 AntiVAEGAN算法原理

AntiVAEGAN算法结构如图 1所示,主要由以下部分组成:

Download:
图 1 AntiVAEGAN算法结构 Fig. 1 Structure of AntiVAEGAN algorithm

1) 生成器GG的主要作用是根据输入原始实例x,生成一个扰动G(x),添加到实例x上,组成攻击图像x′(x′=x+G(x))。

2) 鉴别器DD的主要作用是判别输入的数据是生成的攻击图像还是原始图像,将x + G(x)和x输入到鉴别器进行判别训练。鉴别器有助于促进生成器生成与原始图像无法区分的攻击图像。

3) 被攻击的图像分类模型CC代表实验中被攻击的图像分类模型。

4) VAE防御模型Origin_vae。Origin_vae的主要作用是对输入数据进行特征提纯处理。输入数据经过Origin_vae模型编码和解码处理后会过滤掉大部分扰动,留下原始图像特征。引入Origin_vae有助于促进生成器生成具备反VAE防御的攻击实例。

5) 图像分类模型VAE_Classifier。输入数据经过Origin_vae处理后,输入到图像分类模型Classifier,从而达到防御效果。

6) 计算扰动均值的Mean_perturb。Mean_perturb用于计算生成扰动G(x)的均值并度量生成攻击图像的隐蔽性。

鉴别器D的目标是区分原始实例x和生成实例$ \widehat{x} $

$ \widehat{x}=x+G\left(x\right) $ (1)

原始实例x是真实数据集下的一个样本,区分原始实例和生成实例有助于生成器生成与原始实例接近的攻击实例。

假设D(x)和D($ \widehat{x} $)分别表示鉴别器鉴别原始数据和生成数据的预测值,PtPf分别表示数据判别为真和假的标签,则二分类交叉熵损失函数表示如下:

$ {L}_{\mathrm{B}\mathrm{C}\mathrm{E}}(y, \widehat{y})=-\frac{1}{n}\mathop \sum \limits_{i=1}^{n}({\widehat{y}}_{k}\mathrm{l}\mathrm{n}{y}_{k}+(1-{\widehat{y}}_{k}\left)\mathrm{l}\mathrm{n}\right(1-{\widehat{y}}_{k}\left)\right) $ (2)

对抗神经网络的损失函数可用式(3)和式(4)表示,它们的作用分别是反向传播优化鉴别器和生成器。

$ {L}_{\mathrm{D}}={L}_{\mathrm{B}\mathrm{C}\mathrm{E}}\left(D\right(x), {P}_{\mathrm{t}})+{L}_{\mathrm{B}\mathrm{C}\mathrm{E}}\left(D\right(\widehat{x}), {P}_{\mathrm{f}}) $ (3)
$ {L}_{\mathrm{G}}={L}_{\mathrm{B}\mathrm{C}\mathrm{E}}\left(D\right(\widehat{x}), {P}_{\mathrm{t}}) $ (4)

x + G(x)输入图像分类模型Classifier后,用r表示Classifier正确分类的概率,o表示除r之外其他类中最大的概率。欺骗图像分类模型Classifier的损失函数表示如下:

$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}}=\mathop \sum \limits\mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{d}}) $ (5)

其中:$ {L}_{\mathrm{d}}=r-o $$ \mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{d}}) > 0 $表示攻击失败,$ \mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{d}}) $ =0表示攻击成功。因此,$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}} $有助于生成器生成能够欺骗图像分类模型的扰动图像。

x+G(x)输入Origin_vae后,将其输出作为图像分类模型Classifier的输入,vvae_r表示图像分类模型Classifier输出的概率分布中正确分类的概率,vvae_o表示除vaer以外其他类中最大的概率。Origin_vae模型的损失函数表示如下:

$ {L}_{\mathrm{v}\mathrm{a}\mathrm{e}}=\mathop \sum \limits\mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{v}\mathrm{a}\mathrm{e}\_\mathrm{d}})=\mathop \sum \limits\mathrm{m}\mathrm{a}\mathrm{x}({v}_{\mathrm{v}\mathrm{a}\mathrm{e}\_\mathrm{r}}-{v}_{\mathrm{v}\mathrm{a}\mathrm{e}\_\mathrm{o}}) $ (6)

其中:$ \mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{v}\mathrm{a}\mathrm{e}\_\mathrm{d}}) $ > 0表示攻击失败,$ \mathrm{m}\mathrm{a}\mathrm{x}(0, {L}_{\mathrm{v}\mathrm{a}\mathrm{e}\_\mathrm{d}}) $ =0表示攻击成功。因此,$ {L}_{\mathrm{v}\mathrm{a}\mathrm{e}} $有助于生成器生成能够抵抗防御的扰动图像。

G(x)扰动的均值损失函数表示如下:

$ {L}_{\mathrm{p}}=\frac{1}{n}\mathop \sum \limits_{i=1}^{n}G\left({x}_{i}\right) $ (7)

假设LG代表$ {L}_{\mathrm{a}\mathrm{d}\mathrm{v}} $$ {L}_{\mathrm{v}\mathrm{a}\mathrm{e}} $$ {L}_{\mathrm{p}} $线性汇总的损失函数,αβλ表示权重,使用LG损失函数进行反向传播,优化生成器。LG损失函表示如下:

$ {L}_{\mathrm{G}}=\alpha {L}_{\mathrm{a}\mathrm{d}\mathrm{v}}+\beta {L}_{\mathrm{v}\mathrm{a}\mathrm{e}}+\lambda {L}_{\mathrm{p}} $ (8)
1.2 AntiVAEGAN算法流程

AntiVAEGAN算法流程如图 2所示,其中,j表示第j轮迭代,i表示第i张图像,m表示数据集中用于训练的图像总数;n表示模型训练的最大迭代次数。具体步骤如下:

Download:
图 2 AntiVAEGAN算法流程 Fig. 2 Procedure of AntiVAEGAN algorithm

步骤 1  通过对原始图像进行大小调整和中心裁剪,得到统一大小的训练图像。

步骤 2  建立生成网络,将训练图像输入生成网络,生成攻击图像。

步骤 3  建立判别网络,与生成网络形成Generator-Discriminator对抗训练。将训练图像和攻击图像输入判别网络进行判别,将判别损失结果用于优化生成网络和判别网络。

步骤 4  建立图像分类模型Classifier,建立Classifier与Origin_vae防御模型的组合图像分类模型VAE_Classifier,将生成网络生成攻击图像分别输入这两个模型,将攻击损失结果用于优化生成网络。

步骤 5  将以上步骤进行多次迭代,利用Generator-Discriminator对抗训练方法训练生成网络,训练得到AntiVAEGAN攻击模型。

步骤 6  在攻击模型中输入测试数据集,将生成的攻击数据集分别攻击图像分类模型和添加防御模型的图像分类模型,统计实验数据。

1.3 AntiVAEGAN算法评价

利用攻击数据集中的样本对图像分类模型进行攻击,统计图像分类模型正确分类的样本数目,进而计算图像分类准确率和攻击成功率。

图像分类准确率指模型正确分类的样本数占攻击数据集样本总数的比例maccuracy,计算公式如下:

$ {{m}_{\text{accuracy}}}={}^{{{m}_{\text{num}}}}\!\!\diagup\!\!{}_{{{d}_{\text{num}}}}\; $ (9)

其中:$ {m}_{\mathrm{n}\mathrm{u}\mathrm{m}} $表示模型正确分类数;$ {d}_{\mathrm{n}\mathrm{u}\mathrm{m}} $表示攻击数据集样本总数。

攻击成功率指模型错误分类的样本数占攻击数据集样本总数的比例asuccess_rate,计算公式如下:

$ {a}_{\mathrm{s}\mathrm{u}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{s}\mathrm{s}\_\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{e}}=1-{m}_{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{u}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{y}} $ (10)
2 改进的对抗攻击算法VAEAdvGAN 2.1 VAEAdvGAN算法原理

VAEAdvGAN算法借鉴GAN对抗训练结构,衍生出另一个对抗模型——生成器和VAE防御模型的对抗模型,以Generator-Discriminator与Generator-VAE双对抗结构进行训练,从而对抗提升防御模型的防御能力与攻击模型的攻击能力。VAEAdvGAN算法结构如图 3所示。VAEAdvGAN算法在AntiVAEGAN算法的基础上,添加了Further_vae防御模型,用于与生成器对抗训练,动态提升Further_vae的防御能力。

Download:
图 3 VAEAdvGAN算法结构 Fig. 3 Structure of AVEAdvGAN algorithm

对抗训练Generator-VAE的损失函数表示如下:

$ \begin{array}{*{20}{l}} {{L_{{\rm{GAN}} - {\rm{VAE}}}} = \alpha {M_{{\rm{MSELoss}}}}(\hat z,z) + }\\ {\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\beta {{({\rm{exp}}({\rm{ln}}{v_{{\rm{var}}}}) - 1 - {\rm{ln}}{v_{{\rm{var}}}})}^2} + \lambda m_{{\rm{mu}}}^2} \end{array} $ (11)

其中:$ \widehat{z} $表示Further_vae防御后的数据;z表示原始数据;$ \mathrm{l}\mathrm{n}{v}_{\mathrm{v}\mathrm{a}\mathrm{r}} $表示Further_vae网络的潜在对数方差;$ {m}_{\mathrm{m}\mathrm{u}}^{} $表示Further_vae网络的潜在均值;$ {M}_{\mathrm{M}\mathrm{S}\mathrm{E}\mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}(\widehat{z}, z)=\frac{1}{n}\mathop \sum \limits_{i=1}^{n}({\widehat{z}}_{i}-{z}_{i}{)}^{2} $表示均方误差。

2.2 VAEAdvGAN算法流程

VAEAdvGAN算法流程如图 4所示,具体步骤如下:

Download:
图 4 VAEAdvGAN算法流程 Fig. 4 Procedure of VAEAdvGAN algorithm

步骤 1  通过对原始图像进行大小调整和中心裁剪,得到统一大小的训练图像。

步骤 2  建立生成网络与防御网络Further_vae,使用AntiVAEGAN攻击模型和Origin_vae防御模型分别对生成网络和防御网络进行初始化。

步骤 3  将训练图像输入生成网络,生成攻击图像。

步骤 4  建立判别网络,对训练图像和攻击图像进行判别,与生成网络形成对抗训练,将判别损失结果用于优化生成网络和判别网络。

步骤 5  将训练图像和攻击图像输入Further_vae防御网络,与生成网络形成对抗训练,将防御损失用于优化防御网络。

步骤 6  建立图像分类模型Classifier以及Classifier与Further_vae防御模型的组合图像分类模型Fur_VAE_Classifier,将生成网络生成的攻击图像分别输入这两个模型,将攻击损失结果用于优化生成网络。

步骤 7  通过以上步骤,以生成器与鉴别器、生成器与VAE双对抗训练方法训练生成网络,以生成器与VAE对抗训练方法训练防御网络,训练得到攻击模型VAEAdvGAN和防御模型Further_vae。

步骤 8  在攻击模型中输入测试数据集,将生成的攻击数据集分别攻击图像分类模型和添加防御模型的图像分类模型,统计实验数据。

3 实验结果与分析 3.1 实验环境和数据集

实验硬件环境为64位Linux操作系统、16 GB内存、Intel i7-7800X CPU、3.5 GHz×12主频、GeForce GTX 1080 Ti GPU。系统运行于PyTorch 0.4深度学习框架,使用Python 3.6版本。

实验数据集包括28像素×28像素的黑白MNIST数据集[20]和32像素×32像素的彩色GTSRB数据集[21]。MNIST数据集的训练集有50 000张图像,由250个不同人手写的数字构成,测试集有10 000张图像,使用具有4层卷积层的10分类神经网络作为图像分类模型。GTSRB数据集是一个德国交通标志检测数据集,包含43种交通信号,训练集有39 209张图像,测试集有12 630张图像,使用vgg16[22]作为图像分类模型。

3.2 实验效果对比

图 5图 6分别是使用AntiVAEGAN和VAEAdvGAN攻击模型对MNIST数据集的攻击效果。图 7图 8分别是使用AntiVAEGAN和VAEAdvGAN攻击模型对GTSRB数据集的攻击效果。由上述结果可以看出,原始交通标志图像遭到攻击后,图像中出现了一定的干扰信息,但这些干扰信息基本不影响人眼对标志的判别,但却能成功欺骗分类网络。另外,与AntiVAEGAN算法相比,VAEAdvGAN算法产生的干扰信息看起来更为复杂。

Download:
图 5 AntiVAEGAN对MNIST数据集的攻击效果 Fig. 5 Attack effects of AntiVAEGAN on MNIST dataset
Download:
图 6 VAEAdvGAN对MNIST数据集的攻击效果 Fig. 6 Attack effects of VAEAdvGAN on MNIST dataset
Download:
图 7 AntiVAEGAN对GTSRB数据集的攻击效果 Fig. 7 Attack effects of AntiVAEGAN on GTSRB dataset
Download:
图 8 VAEAdvGAN对GTSRB数据集的攻击效果 Fig. 8 Attack effects of VAEAdvGAN on GTSRB dataset
3.3 分类准确率对比

使用M1表示MNIST数据集的图像分类模型,M2表示M1与Origin_vae防御模型的组合图像分类模型,M3表示M1与Further_VAE结合的图像分类模型。MNIST数据集分别在无攻击、FGSM[4]攻击、AdvGAN攻击、AntiVAEGAN攻击、VAEAdvGAN攻击后的分类准确率对比如表 1所示。由表 1可以看出,M1图像分类模型在FGSM攻击下分类准确率下降到27.96%,而在AdvGAN、AntiVAEGAN和VAEAdvGAN攻击下分类准确率明显下降,从无攻击的99.00%降到不到4.00%,表明FGSM攻击算法效果一般,而其他3种攻击算法效果较好。对M2图像分类模型,无攻击的分类准确率为98.00%,AdvGAN攻击效果不佳,攻击后分类准确率下降不明显,为19.35个百分点,FGSM攻击有一定效果,分类准确率下降了69.68个百分点,AntiVAEGAN和VAEAdvGAN攻击效果非常明显,分类准确率大幅下降。对M3图像分类模型,AdvGAN攻击效果非常差,AntiVAEGAN攻击效果也一般,而VAEAdvGAN和FGSM攻击使得分类准确率下降较多,攻击效果较好。

下载CSV 表 1 MNIST数据集分类准确率对比 Table 1 Comparison of classification accuracy of MNIST dataset 

使用G1表示GTSRB数据集的图像分类模型,G2表示G1与Origin_vae防御模型的组合图像分类模型,G3表示M1与Further_VAE结合的图像分类模型。GTSRB数据集分别在无攻击、FGSM攻击、AdvGAN攻击、AntiVAEGAN攻击、VAEAdvGAN攻击后的分类准确率对比如表 2所示。由表 2可以看出,G1图像分类模型在各种攻击下的分类准确率都明显下降,其中FGSM攻击效果最差,而AntiVAEGAN和VAEAdvGAN攻击效果较好。对G2图像分类模型,无攻击的分类准确率为79.52%,AdvGAN攻击效果最差,VAEAdvGAN和FGSM攻击效果次之,AntiVAEGAN攻击效果最好。对G3图像分类模型,AdvGAN攻击效果很差,AntiVAEGAN攻击效果也一般,而FGSM和VAEAdvGAN攻击使得分类准确率下降最多,攻击效果较好。

下载CSV 表 2 GTSRB数据集分类准确率对比 Table 2 Comparison of classification accuracy of GTSRB dataset 
3.4 攻击成功率对比

MNIST数据集分别在FGSM攻击、AdvGAN攻击、AntiVAEGAN攻击、VAEAdvGAN攻击后的攻击成功率对比如表 3所示。由表 3可以看出,FGSM对M1和M2图像分类模型的攻击成功率都在89%以上,但对M3分类模型的攻击成功率一般,只有42.73%。AdvGAN对M1图像分类模型的攻击成功率为96.94%,但对M2图像分类模型的攻击成功率仅为21.35%,对M3图像分类模型的攻击成功率更低,低至9.12%。这表明AdvGAN的攻击不稳定,在VAE防御模型的防御下,AdvGAN的攻击被大幅抵消。AntiVAEGAN对M1图像分类模型的攻击成功率为96.45%,与AdvGAN的攻击成功率仅相差0.49个百分点,但对M2图像分类模型的攻击成功率高达96.33%,是AdvGAN攻击成功率的4倍多,攻击效果明显更好。AntiVAEGAN对M3图像分类模型的攻击成功率也较差,仅为23.93%,但比AdvGAN的9.12%好。VAEAdvGAN对M1图像分类模型的攻击成功率为96.03%,与AdvGAN和AntiVAEGAN相差不多,对M2图像分类模型的攻击成功率为93.95%,比AntiVAEGAN的攻击成功率低了2.38个百分点,但仍远高于AdvGAN的21.35%,对M3图像分类模型的攻击成功率为58.94%,是AntiVAEGAN的2倍多。

下载CSV 表 3 MNIST数据集攻击成功率对比 Table 3 Comparison of attack success rate of MNIST dataset 

GTSRB数据集分别在FGSM攻击、AdvGAN攻击、AntiVAEGAN攻击、VAEAdvGAN攻击后的攻击成功率对比如表 4所示。由表 4可以看出,对G1图像分类模型,FGSM、AdvGAN、AntiVAEGAN、VAEAdvGAN的攻击成功率分别为89.51%、92.54%、94.35%、94.84%,AntiVAEGAN和VAEAdvGAN的攻击成功率高于AdvGAN,更高于FGSM。对G2和G3图像分类模型,FGSM和AdvGAN的攻击成功率都明显低于AntiVAEGAN和VAEAdvGAN,AntiVAEGAN的攻击成功率更高。对G3图像分类模型,AdvGAN攻击成功率最低,FGSM和AntiVAEGAN的攻击成功率差不多,VAEAdvGAN的攻击成功率最高。

下载CSV 表 4 GTSRB数据集攻击成功率对比 Table 4 Comparison of attack success rate on GTSRB dataset 

综合以上实验数据可以看出,在无防御的情况下(如M1和G1图像分类模型),AntiVAEGAN和VAEAdvGAN几乎能达到和AdvGAN、FGSM一样的攻击效果。在VAE防御下,AdvGAN攻击成功率大幅下降,但AntiVAEGAN攻击仍然相对稳定,攻击效果比AdvGAN更好。这说明AntiVAEGAN能成功攻击具有VAE防御的分类器,攻击成功率较高,攻击性能更稳定,鲁棒性更强。Further_vae防御模型通过对抗训练,提升了防御能力,随着Further_vae模型防御能力的提升,对抗促进了VAEAdvGAN攻击模型攻击能力的进一步提升。因此,VAEAdvGAN攻击效果比AdvGAN更好,且在大部分情况下优于AntiVAEGAN。

4 结束语

本文为解决现有图像攻击算法在VAE防御下攻击效果不稳定的问题,提出AntiVAEGAN算法,利用生成对抗网络训练的方式训练得到一种抵抗VAE防御的AntiVAEGAN模型。针对防御模型防御能力提升时攻击效果不稳定的问题,进一步提出VAEAdvGAN算法,以生成器与鉴别器、生成器与VAE双对抗训练的方式训练得到VAEAdvGAN模型。在不同数据集上的实验结果表明,本文提出的图像攻击算法提高了图像攻击的鲁棒性和成功率。但由于图像攻击算法生成的扰动不够隐蔽,后续将对此做进一步优化,在保证算法攻击成功率与鲁棒性的同时,尽可能提升攻击隐蔽性。

参考文献
[1]
BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828. DOI:10.1109/TPAMI.2013.50
[2]
AKHTAR N, MIAN A. Threat of adversarial attacks on deep learning in computer vision: a survey[J]. IEEE Access, 2018, 6: 14410-14430. DOI:10.1109/ACCESS.2018.2807385
[3]
HE Y Z, HU X B, HE J W, et al. Privacy and security issues in machine learning systems: a survey[J]. Journal of Computer Research and Development, 2019, 56(10): 2049-2070. (in Chinese)
何英哲, 胡兴波, 何锦雯, 等. 机器学习系统的隐私和安全问题综述[J]. 计算机研究与发展, 2019, 56(10): 2049-2070. DOI:10.7544/issn1000-1239.2019.20190437
[4]
GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1412.6572.
[5]
SU J W, VARGAS D V, SAKURAI K. One pixel attack for fooling deep neural networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841. DOI:10.1109/TEVC.2019.2890858
[6]
MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 86-94.
[7]
SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1312.6199.
[8]
XIAO C W, LI B, ZHU J Y, et al. Generating adversarial examples with adversarial networks[EB/OL]. [2020-08-05]. https://www.researchgate.net/publication/322328780_Generating_adversarial_examples_with_adversarial_networks.
[9]
XU H, MA Y, LIU H C, et al. Adversarial attacks and defenses in images, graphs and text: a review[J]. International Journal of Automation and Computing, 2020, 17(2): 151-178. DOI:10.1007/s11633-019-1211-x
[10]
DZIUGAITE G K, GHAHRAMANI Z, ROY D M. A study of the effect of JPG compression on adversarial images[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1608.00853.
[11]
LUO Y, BOIX X, ROIG G, et al. Foveation-based mechanisms alleviate adversarial examples[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1511.06292v1.
[12]
ROSS A S, DOSHI-VELEZ F. Improving the adversarial robustness and interpretability of deep neural networks by regularizing their input gradients[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1711.09404v1.
[13]
LI X, JI S H. Defense-VAE: A fast and accurate defense against adversarial attacks[C]//Proceedings of 2019 Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Germany: Springer, 2019: 191-207.
[14]
DUBEY A, VAN DER MAATEN L, YALNIZ Z, et al. Defense against adversarial images using Web-scale nearest-neighbor search[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 8767-8776.
[15]
LIU C R, YE D P, SHANG Y Y, et al. Defend against adversarial samples by using perceptual hash[J]. Computers, Materials & Continua, 2020, 62(3): 1365-1386.
[16]
SUN B, TSAI N H, LIU F C, et al. Adversarial defense by stratified convolutional sparse coding[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 11439-11448.
[17]
WU L R, LIU Z H, ZHANG H, et al. PS-MIFGSM: focus image adversarial attack algorithm[J]. Journal of Computer Applications, 2020, 40(5): 1348-1353. (in Chinese)
吴立人, 刘政浩, 张浩, 等. 聚焦图像对抗攻击算法PS-MIFGSM[J]. 计算机应用, 2020, 40(5): 1348-1353.
[18]
DONG Y P, LIAO F Z, PANG T, et al. Boosting adversarial attacks with momentum[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 9185-9193.
[19]
YAN X D, CUI B J, XU Y, et al. A method of information protection for collaborative deep learning under GAN model attack[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2021, 18(3): 871-881. DOI:10.1109/TCBB.2019.2940583
[20]
DENG L. The MNIST database of handwritten digit images for machine learning research[J]. IEEE Signal Processing Magazine, 2012, 29(6): 141-142. DOI:10.1109/MSP.2012.2211477
[21]
STALLKAMP J, SCHLIPSING M, SALMEN J, et al. The German traffic sign recognition benchmark: a multi-class classification competition[C]//Proceedings of 2011 International Joint Conference on Neural Networks. Washington D.C., USA: IEEE Press, 2011: 1453-1460.
[22]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-05]. https://arxiv.org/abs/1409.1556v4.