2. 南京航空航天大学 电子信息工程学院, 南京 211100;
3. 山东省烟台市实验中学, 山东 烟台 265500
2. College of Electronic Information Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China;
3. Yantai Experimental Middle School of Shandong Province, Yantai, Shandong 265500, China
开放科学(资源服务)标志码(OSID):
深度学习是目前应用最广泛的技术之一,在数据挖掘、自然语言处理、计算机视觉、信息检索等领域中占有很重要的地位。但是很多研究表明,神经网络容易被精心设计的微小扰动所影响,通过在正常样本上叠加微小恶意噪声而形成的对抗样本进行对抗攻击导致模型输入错误的结果,进而影响到实际应用系统的安全性。对抗攻击和对抗样本的发现使人工智能领域面临着巨大的安全威胁。
随着对深度学习的深入研究,大量的对抗攻击方法相继被提出,对抗攻击主要可以分为白盒攻击和黑盒攻击2类。白盒攻击是攻击者完全掌握目标模型的内部结构和训练参数值,甚至还包括其特征集合、训练方法和训练数据等来进行的对抗攻击。黑盒攻击是攻击者在不知道目标模型的内部结构、训练参数和相应算法的情况下,通过数据的输入与输出结果来进行分析,设计和构造对抗样本,实施对抗攻击。在实际的运用场景中,黑盒攻击的安全威胁更为严峻。
深度学习模型能够以达到甚至高于人眼的识别度来识别图像,但是对抗攻击和对抗样本的发现,将导致模型识别错误。这些漏洞如果被别有用心的人所掌握,将可能产生严重的安全问题,例如,自动驾驶汽车的识别错误将可能导致严重的交通事故[1],某些犯罪分子可能利用生成的对抗样本逃过人脸识别的检测等[2-3]。
文献[4]证明了将图片进行适当修改后能够使深度学习模型识别错误;文献[5]提出了产生对抗攻击根本原因的猜测——深度神经网络在高纬空间中的线性特性已经足以产生这种攻击行为,并提出了快速梯度符号方法(FGSM),作为经典的攻击手段;文献[6]提出了SIGN-OPT算法,使得黑盒攻击对目标模型的查询次数大幅降低;文献[7]提出了HopSkipJumpAttack2算法,具有很高的查询效率;文献[8]在FGSM算法的基础上,提出基于动量的迭代算法T-MI-FGSM,提高对抗样本的可迁移性和黑盒攻击的成功率;文献[9]提出了UPSET和ANGRI算法,分别使用残差梯度网络构造对抗样本和生成图像特定的扰动,具有很高的欺骗率;文献[10]对计算机视觉中的对抗攻击进行了较为详尽的研究,提出了12种对抗攻击的方法和15种防御的措施;文献[11]分析并汇总了近年来关于深度学习对抗攻击的部分算法并进行了比较与分析。关于生成对抗样本进行对抗攻击的研究很多,这些研究的成果促进了深度学习的进一步发展。
文献[12]提出了基于决策的边界攻击方法,且该方法适合绝大多数的神经网络模型,具有很好的通用性和普适性,文献[7]在在决策基础上对决策边界处的梯度方向进行估计,并提出了控制偏离边界误差的方法,有效提高了基于决策的攻击效率,文献[13]提出了一种新的基于决策的攻击算法,它可以使用少量的查询生成对抗性示例。文献[7, 12-13]都是逐步朝着更优解靠拢,本质上是一样的,但靠拢的方式不同。本文基于决策算法实现无目标攻击和有目标攻击,与上述研究不同,本文提出可以利用模型的迁移性来循环叠加干扰图像,找到新的初始样本,提高基于决策算法的运算起点,降低查询次数。
1 基于决策的黑盒攻击思路对抗攻击可以分为基于梯度的攻击、基于分数的攻击、基于迁移的攻击和基于决策的攻击。在前2种攻击中,基于梯度的攻击多用于白盒攻击,基于分数的攻击多用于黑盒攻击,在很多黑盒攻击中,攻击者可以通过对目标模型的输入来观察分类结果,并可以获得每个类别的分数,攻击者可以根据这个分数来设计对抗样本的生成算法。
文献[14-15]指出对抗样本具有迁移性:相同的对抗样本,可以被不同的分类器错误分类,即基于迁移的攻击。基于迁移的攻击是利用训练数据训练一个可以替代的模型,即对抗样本在不同的模型之间可以进行迁移。
与其他3种攻击相比,基于决策的攻击与实际应用更为相关。与此同时,基于决策的攻击比其他攻击类型更高效、更稳健、更难以被察觉。文献[12]引入一个普适性的对抗攻击算法——边界攻击。边界攻击是属于基于决策攻击的一种,适合对复杂自然数据集的有效攻击,其原理是沿着对抗样本和正常样本之间的决策边界,采用比较简单的拒绝抽样算法,结合简单的建议分布和信赖域方法启发的动态步长调整。边界攻击的核心是从一个较大的干扰出发,逐步降低干扰的程度,这种思路基本上推翻了以往所有的对抗攻击的思路。
基于决策的攻击只需要模型的输入输出类别,并且应用起来要简单得多。本文基于决策攻击来设计算法,仅知道分类的结果,不能得到每个类别的分数,以此来设计黑盒算法生成对抗样本,进行对抗攻击。
在这种情况下,黑盒攻击的一般思路是先使用现成的模型去标记训练数据,选择一幅图片输入到模型中,通过模型反馈的标签来当作监督信号,不断地变换图片,形成一个新的数据集,图片的选择可以用真实的图片,也可以用合成的图片,将这个数据集作为训练集,训练出一个新的模型,新的模型是透明的,在该模型上采用白盒攻击的手段生成对抗样本,有极高的概率能够骗过原先的模型。
选择一幅图像,然后给这个图像加一些噪声,通过不断地变换噪声,使得模型输出的分类结果发生改变,实际上此时图片已经碰到了模型的分类边界。接下来就是不断地尝试,找到一个能让分类结果错误的最小的噪声
上述2种情况都有一个共同的问题,就是需要大量地向目标模型进行查询,查询到可以构建自己的训练集的程度,为能够尽可能地减少查询,本文对传统的边界攻击加以改进与完善,提出一种通过模型之间的迁移性来循环叠加干扰图像确定初始样本,然后采用边界攻击生成对抗样本的算法,目的是为了提高传统边界算法的运算起点,尽可能地减少查询数量,更好地欺骗原模型的分类能力。
已知一个神经网络模型,对其内部结构和参数一无所知,唯一知道模型的作用是进行图片分类的,并且不知这个模型的分类精度。不知道这个模型是一个最简单的神经网络,只能够进行简单的分类任务,还是一个复杂的DNN、CNN或者RNN神经网络,可以完成非常复杂的分类任务。
本文提出的改进黑盒算法中最重要的是初始样本的确定。文献[7, 12-13]都是逐步朝着更优解靠拢,本质上是一样的,关键在于靠拢的方式不同,无目标攻击的初始样本是一个随机扰动图片,目标攻击的初始样本是一个指定的目标分类的图片,如图 1和图 2所示。图的上方是对目标神经网络的查询次数,下方是与原图像之间的均方误差。可以看出,在完全黑盒状态下,如果要完善地构造出有效的对抗样本,则需要查询数千次甚至上万次才能逐步找到一张足够清晰的图片来骗过神经网络。文献[7, 12-13]还有类似的大多数文献都是针对这个逐步查询的过程来进行优化的,从而更快地靠近目标样本,使得整体的查询次数降低。如果可以找到一个更高无目标攻击和有目标攻击的运算起点,不从随机干扰图像和指定类别的额图像出发,将大幅降低对目标神经网络的查询次数。接下来就是确定新的初始样本来提升整体攻击的起点,进而降低整体的查询次数。
![]() |
Download:
|
图 1 无目标攻击过程 Fig. 1 No target attack process |
![]() |
Download:
|
图 2 有目标攻击过程 Fig. 2 Target attack process |
基于决策的黑盒攻击具体分为2步:第1步是通过模型之间的迁移性来多次叠加干扰图像的方法确定初始样本;第2步在初始样本的基础上运用边界攻击的手段来确定合适的对抗样本。这里的通过模型之间的迁移性来进行的攻击并不能算是真正的迁移攻击,迁移攻击利用的是训练数据的信息,而这里采用的是根据部分查询结果来自己收集、扩充和构造数据集,进行对应的二分类训练,分类项为目标图片类和非目标图片类,然后采用FGSM、I-FGSM、MI-FGSM、DI2-FGSM、M-DI2-FGSM等算法来生成对抗样本进行叠加尝试,进而确定合适的初始样本。
快速梯度符号方法(FGSM)是非常经典的一种攻击方法[5],通过计算交叉熵损失的梯度
$ {x}^{\text{'}}=x+\epsilon \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left(\nabla J\left(x, {y}_{T}\right)\right) $ | (1) |
I-FGSM将噪声
$ {x}_{t+1}^{\text{'}}=\mathrm{C}\mathrm{l}\mathrm{i}{\mathrm{p}}_{x, \epsilon }\left\{{x}_{t}^{\text{'}}+\alpha \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left(\nabla J\left({x}_{t}^{\text{'}}, {y}_{T}\right)\right)\right\} $ | (2) |
I-FGSM在白盒场景中的所有当前迭代攻击中具有最高的攻击效果,其主要缺点是迭代步骤的边际效应递减。具体是随着迭代次数
DI2-FGSM在I-FGSM基础上,将动量集成到攻击过程中,稳定更新方向,在一定程度上避免了局部极值:
$ {x}_{t+1}^{\text{'}}=\mathrm{C}\mathrm{l}\mathrm{i}{\mathrm{p}}_{x, \epsilon }\left\{{x}_{t}^{\text{'}}+\alpha \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left(\nabla J\left(T\left({x}_{t}^{\text{'}};p\right), {y}_{T}\right)\right)\right\} $ | (3) |
MI-FGSM引入了一个动量项,使噪声添加方向的调整更加平滑,但边际效应递减对迭代次数的影响仍然存在[8]:
$ \begin{array}{l}{m}_{t+1}=\mu \cdot {m}_{t}+\frac{\nabla J\left({x}_{t}^{\text{'}}, {y}_{T}\right)}{‖\nabla J\left({x}_{t}^{\text{'}}, {y}_{T}\right)‖}\\ {x}_{t+1}^{\text{'}}=\mathrm{C}\mathrm{l}\mathrm{i}{\mathrm{p}}_{x, \epsilon }\left\{{x}_{t}^{\text{'}}+\alpha \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left(\nabla J\left({g}_{t+1}\right)\right)\right\}\end{array} $ | (4) |
M-DI2-FGSM在MI-FGSM基础上,将动量集成到攻击过程中,稳定更新方向,在一定程度上避免了局部极值[17]:
$ \begin{array}{l}{m}_{t+1}=\mu \cdot {m}_{t}+\frac{\nabla J\left(T\left({x}_{t}^{\text{'}};p\right), {y}_{T}\right)}{‖\nabla J\left(T\left({x}_{t}^{\text{'}};p\right), {y}_{T}\right)‖}\\ {x}_{t+1}^{\text{'}}=\mathrm{C}\mathrm{l}\mathrm{i}{\mathrm{p}}_{x, \epsilon }\left\{{x}_{t}^{\text{'}}+\alpha \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left(\nabla J\left({g}_{t+1}\right)\right)\right\}\end{array} $ | (5) |
以上的FGSM系列算法属于白盒攻击算法,需要掌握模型的内部结构和训练参数值,针对的是自己搭建的二分类神经网络,目的是为了获得一个可以接纳的初始样本,提升黑盒攻击的攻击起点,具体算法流程如下:
算法1 初始样本叠加算法
输入 目标图像
输出 对抗样本
初始值
While
将
通过增量训练更新二分类神经网络并导出权重文件
通过FGSM系列算法生成对抗样本
end
得到初始样本后,采用文献[7, 12-13]的边界攻击算法,这3种边界攻击算法本质上是一致的,都是基于决策的黑盒攻击手段,可以通过改变初始样本来减少查询次数,这里以文献[12]的边界攻击算法为例,具体算法流程如下:
算法2 优化初始样本的决策程序算法
输入 目标图像
输出 对抗样本
初始值
While
取一个随机的扰动
if
else
end
end
2.2 无目标攻击流程根据上述设计的算法,进行无目标攻击的相关实验,具体步骤如下:
步骤1 实验样本的准备。选用一个神经网络作为攻击目标(攻击者并不知道神经网络的内部结构、训练参数和相应算法,也不知道是采用何种数据集进行训练的,唯一知道的是此模型是完成图片分类任务的)。这里选择一张目标图片,将其输入到目标神经网络中,别被识别为
步骤2 获得初始对抗样本。在构建的二分类神经网络中,采用M-DI2-FGSM算法计算交叉熵损失的梯度来找出噪声的方向,生成干扰图像
步骤3 对抗样本生成。采用文献[12]中的边界攻击算法,将文献[12]中随机生成的初始样本变更为步骤2得到的简易对抗样本,以此来进行无目标攻击,最终得到清晰度符合要求的对抗样本图片。
综上所述,可以得到整个无目标黑盒攻击流程,如图 3所示。
![]() |
Download:
|
图 3 无目标黑盒攻击整体流程 Fig. 3 Whole procedure of non-target black box attack |
根据上述设计的算法,进行有目标攻击的相关实验,具体方法如下:
对于有目标攻击,若按照上述无目标攻击的流程来进行,理论构建的二分类神经网络应变为三分类神经网络,分别为目标图片
但在实际操作中发现,无目标攻击只需要将对抗样本分为非
![]() |
Download:
|
图 4 2个类别的加权图 Fig. 4 Weighted graphs of two categories |
从图 4可以看出,前7幅加权图片被目标神经网络识别为瓢虫(ladybug),其他图片被目标神经网络识别为金毛猎犬(golden_retriever),选取合适的加权样本后整体流程和无目标攻击一致,只是将随机扰动的初始样本换为加权样本,通过加权样本来获得合适的初始样本。
理论上第1幅到第7幅图片之间的golden_retriever的权值越大,则越容易通过算法1来找到合适的初始样本,使得golden_retriever错误的识别为ladybug,但是golden_retriever的权值越大,初始样本越接近于原始算法直接采用golden_retriever作为初始样本,且对查询次数的降低基本没有任何改善;Ladybug的权值越大,则出现前文提到的准确程度就越低,无法准确地将对抗样本粗略地分到
因此,这里选取第1幅~第7幅图片作为加权样本
最后再通过算法2来进行无目标攻击,最终得到清晰度符合要求的对抗样本图片。
综上所述,可以得到整个有目标黑盒攻击流程,如图 5所示。
![]() |
Download:
|
图 5 有目标黑盒攻击整体流程 Fig. 5 Overall procedure of targeted black box attack |
本文选择目标神经网络为ImageNet数据集对应的ResNet-50网络结构,选择目标图片
采用M-DI2-FGSM算法计算交叉熵损失的梯度来找出目标图片在新的神经网络噪声的方向,生成干扰图像
![]() |
Download:
|
图 6 反复叠加后的对抗样本 Fig. 6 Counter sample after repeated superposition |
![]() |
Download:
|
图 7 更改初始样本后的无目标攻击过程 Fig. 7 Non-target attack process after changing initial sample |
从图 7可以看出,当对抗样本与目标图片之间的均方误差约为2.99e+3时,共对目标神经网络查询了(9 109+100+7)次,肉眼已难以区分对抗样本和目标图片之间的差异,此时目标神经网络仍识别为鲤鱼(crayfish)。对比初始样本为随机干扰图片的无目标攻击过程,当对抗样本与目标图片之间的均方误差约为2.99e+3时,共查询了12 006次。
显然,更改初始样本后无目标黑盒攻击过程中对目标神经网络的查询次数显著降低,大约降低了2 790次,节省了23%的查询次数,同时,经过简单测算,获得初始样本的过程耗时(包括爬取图片、查询图片、扩充数据集、训练和增量训练网络、调用M-DI2-FGSM算法叠加对抗样本)不超过原来的黑盒攻击查询2 790次所耗费的时间。因此,无目标黑盒攻击算法计算所需时间也在可控范围内。
3.2 有目标攻击实例分析对于有目标攻击,同样选择目标神经网络为ImageNet数据集对应的ResNet-50网络结构,选择目标图片
选择指定分类图片
将新的对抗样本输入到边界攻击程序中,作为起始样本来进行下一步处理,具体攻击过程如图 8所示。从图 8可以看出,当对抗样本与目标图片之间的均方误差约为1.08e+3时,共对目标神经网络查询了(20 537+100+19+40+2)次,此时肉眼已难以区分对抗样本和目标图片之间的差异。对比初始样本为随机干扰图片的有目标攻击过程,当对抗样本与目标图片之间的均方误差约为1.08e+3时,共查询了25 058次。
![]() |
Download:
|
图 8 更改初始样本后的有目标攻击过程 Fig. 8 Target attack process after changing initial sample |
显然,更改初始样本后有目标黑盒攻击过程中对目标神经网络的查询次数显著降低,大约降低了4 360次,节省了17%的查询次数,同时,经过简单测算,获得初始样本的过程耗时(包括爬取图片、查询图片、扩充数据集、训练和增量训练网络、加权图像、调用M-DI2-FGSM算法叠加对抗样本)不超过原来的黑盒攻击查询4 360次所耗费的时间,因此,有目标黑盒攻击算法计算所需时间也在可控范围内。
4 结束语本文在基于决策的黑盒攻击算法的基础上,提出一种基于模型间迁移性的黑盒对抗攻击起点提升方法。利用模型的迁移性来循环叠加干扰图像,确定新的初始样本,提高基于决策攻击的起点,降低查询次数。实验结果表明,改进后的算法时间复杂度低,生成对抗样本耗时短,使得对抗攻击更有效、更稳健、更难以被察觉。本文设计的对抗样本可以作为神经网络鲁棒性的评估标准,进一步扩展神经网络对抗防御的思路,提高神经网络模型的稳健性。下一步将针对边界攻击的过程算法进行优化,采用新的方法估计梯度方向,对分类边界进行优化搜索,尽可能减少整体的查询时间,提高攻击效率。
[1] |
BOJARSKI M, DEL TESTA D, DWORAKOWSKI D, et al. End to end learning for self-driving cars[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1604.07316.
|
[2] |
PARKHI O M, SIMONYAN K, VEDALDI A, et al. A compact and discriminative face track descriptor[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE Computer Society, 2014: 1693-1700.
|
[3] |
DONG Y P, SU H, WU B Y, et al. Efficient decision-based black-box adversarial attacks on face recognition[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1904.04433.
|
[4] |
SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[EB/OL]. [2019-06-20]. https://arxiv.org//abs/1312.6199.
|
[5] |
GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and Harnessin adversarial examples[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1412.6572.
|
[6] |
CHENG M H, SINGH S, CHEN P, et al. Sign-OPT: a query-efficient hard-label adversarial attack[EB/OL]. [2020-06-20]. https://arxiv.org//abs/1909.10773.
|
[7] |
CHEN J B, JORDAN M I. Boundary attack++: query-efficient decision-based adversarial attack[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1904.02144.
|
[8] |
DONG Y, LIAO F, PANG T, et al. Boosting adversarial attacks with momentum[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE Press, 2018: 9185-9193.
|
[9] |
SARKAR S, BANSAL A, MAHBUB U, et al. UPSET and ANGRI: breaking high performance image classifiers[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1707.01159.
|
[10] |
AKHTAR N, MIAN A. Threat of adversarial attacks on deep learning in computer vision: a survey[J]. IEEE Access, 2018, 6: 14410-14430. DOI:10.1109/ACCESS.2018.2807385 |
[11] |
ZHANG J N, WANG Y X, LIU B, et al. Survey of adversarial attacks of deep learning[J]. Information Security and Technology, 2019, 10(7): 87-96. (in Chinese) 张嘉楠, 王逸翔, 刘博, 等. 深度学习的对抗攻击方法综述[J]. 网络空间安全, 2019, 10(7): 87-96. |
[12] |
BRENDEL W, RAUBER J. Decision-based adversarial attacks: reliable attacks against black-box machine learning models[EB/OL]. [2020-06-20]. https://arxiv.org//abs/1712.04248.
|
[13] |
LIU Y, MOOSAVI-DEZFOOLI S M, FROSSARD P. A geometry-inspired decision-based attack[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE Press, 2019: 4889-4897.
|
[14] |
PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1602.02697.
|
[15] |
TRAMÈR F, PAPERNOT N, GOODFELLOW I, et al. The space of transferable adversarial examples[EB/OL]. [2020-06-20]. https://arxiv.org//abs/1704.03453.
|
[16] |
KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[EB/OL]. [2020-06-20]. https://arxiv.org//abs/1607.02533.
|
[17] |
XIE C, ZHANG Z, ZHOU Y, et al. Improving transferability of adversarial examples with input diversity[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE Press, 2019: 2730-2739.
|
[18] |
KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial machine learning at scale[EB/OL]. [2020-06-20]. https://arxiv.org//abs/1611.01236.
|
[19] |
ZHENG T, CHEN C, REN K. Distributionally adversarial attack[C]//Proceedings of AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2019: 2253-2260.
|
[20] |
MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. [2020-06-20]. https://arxiv.org/abs/1706.06083.
|