陈子民, 关志涛
深度学习模型在图像分类等领域取得了较好的结果,但是深度学习模型容易受到对抗样本的干扰威胁,攻击者通过对抗样本制作算法,精心设计微小扰动,构造肉眼难以分辨却能引发模型误分类的对抗样本,给图像分类等深度学习应用带来严重的安全隐患。为提升图像分类模型的鲁棒性,利用条件扩散模型,提出一种综合对抗样本检测和对抗样本净化的对抗样本防御方法。在不修改目标模型的基础上,检测并净化对抗样本,提升目标模型鲁棒性。所提方法包括对抗样本检测和对抗样本净化2个模块。对于对抗样本检测,采用不一致性增强,通过训练一个融入目标模型高维特征和图片基本特征的图像修复模型,比较初始输入和修复结果的不一致性,检测对抗样本;对于对抗样本净化,采用端到端的对抗样本净化方式,在去噪模型执行过程中加入图片伪影,实现对抗样本净化。在保证目标模型精度的前提下,在目标模型前增加对抗样本检测和净化模块,根据检测结果,选取相应的净化策略,从而消除对抗样本,提升目标模型的鲁棒性。在CIFAR10数据集和CIFAR100数据集上与5种现有方法进行对比实验,实验结果表明:对于扰动较小的对抗样本,所提方法的检测精度较Argos方法提升了5~9个百分点;相比于ADP方法,所提方法在面对不同种类对抗样本时防御效果更稳定,且在BPDA攻击下,其对抗样本净化效果较ADP方法提升了1.3个百分点。