2. 南京邮电大学 物联网学院, 南京 210023
2. School of Internet of Things, Nanjing University of Posts and Telecommunications, Nanjing 210023, China
开放科学(资源服务)标志码(OSID):
近年来,深度学习技术利用大数据在图像分类、语音识别等领域取得显著成果,这些技术需要大量带标注的高质量数据,但在某些现实场景中,有些类别只有少量数据或少量标注样本数据。少样本学习(Few-Shot Learning,FSL)[1]的目标是设计一个只需少量样例就可以快速认知新任务的模型,但是,基于梯度下降的优化算法在被应用于少样本学习时会失效,可能的原因有[2]:少样本学习问题的训练数据量较小,在模型训练中参数更新次数受到限制,传统基于梯度优化的算法(如ADAM[3]、Adagrad[4]等)无法在这种情况下寻找到最优参数;对于每个数据集,网络参数必须从随机初始化开始,这严重影响了网络优化速度。为缓解上述问题,文献[5]总结了基于模型微调[6]、基于数据增强[7-9]和基于迁移学习[10-12]的三类方法。其中,迁移学习的主要思想是利用旧知识来学习新知识,并将已经学会的知识很快地迁移到一个新的领域中。迁移学习由于只需源领域和目标领域存在一定关联,就能实现知识在不同领域之间的迁移,因此成为目前主流的应用选择之一。
元学习(Meta-Learning)是基于迁移学习的一种解决方案,其目的是“学会学习”(Learning to Learn)[13]。元学习希望从大量相似的小任务中学习一些元知识,并使用这些元知识来指导模型快速适应新任务。一些元学习算法在少样本学习中取得了较好的效果,如FINN等[14]在2017年提出的模型无关元学习(Model-Agnostic Meta-Learning,MAML)算法。MAML算法以神经网络为基础模型,在大量相似任务中进行元学习,以找到对各任务都较为通用的初始化参数,MAML训练出的模型也被称为元模型。当新任务来临时,仅用少量标注训练样本微调元模型,便可让损失函数快速收敛,以使模型适应新的学习任务。MAML不仅可以用来解决少样本分类问题,还可用于强化学习、回归等问题。但是,GOLDBLUM等[15]发现MAML等元学习器的对抗鲁棒性较弱,很容易受到对抗样本的影响,尤其是一些恶意设计的对抗扰动,能够让自动驾驶失效[16],让目标检测或人脸识别系统失灵等[17],如果系统无法应对,会造成极大危害。
YIN等[18]发现将干净样本与对抗样本简单混合后,采用MAML训练元模型时该模型并不能有效工作,于是提出对抗元学习(Adversarial Meta-Learner,ADML)算法。ADML的关键思想是利用干净样本与对抗样本之间的相关性,使任务训练和元更新相互对抗,以改善模型鲁棒性,但是,这种交替训练网络的方式,使得ADML的训练代价昂贵。在另一项工作中,GOLDBLUM等[15]将对抗训练与MAML相结合,提出对抗性查询(Adversarial Querying,AQ)算法,在训练时使用快速梯度符号方法(Fast Gradient Sign Method,FGSM)[19]生成对抗样本,测试时使用投影梯度下降(Projected Gradient Descent Attack,PGD)算法[20]生成对抗样本。然而,AQ仅在有监督下工作,对于如何利用未标注样本则没有进一步研究。
WANG等[21]提出鲁棒增强模型无关元学习(Robustness-promoting MAML,R-MAML)算法,将AQ考虑为R-MAML的一种特殊情况,其半监督版本R-MAML-TRADES将额外的未标注数据引入元学习以提升元模型的对抗鲁棒性。但是,REN等[22]认为将未标注数据引入元学习中,应当考虑两种场景:一是每个任务中的未标注样本与同一任务的已标注样本具有相同的类分布;二是该任务中的部分未标注样本不属于训练集中任何一类,未标注数据包含了在标注训练集中未见过的类。
R-MAML-TRADES在引入未标注样本时,隐式地假设每个未标注样本与当前任务中的已标注样本属于同一组类,即场景A,这种假设在现实场景中难以成立。REN等[22]针对上述两种场景,扩展原型网络(Prototypical Networks)算法[23],提出掩码软聚类(Masked soft K-Means)算法,将未见过类未标注样本作为干扰项剔除,但其没有考虑元学习器的对抗鲁棒问题。
本文针对模型无关元学习算法与半监督对抗元学习存在的不足,提出一种半监督对抗鲁棒模型无关元学习(semi-supervised Adversarially Robust Model-Agnostic Meta-Learning,semi-ARMAML)算法进行模型训练,该模型仅使用少量标注数据训练迭代即可快速适应新任务。具体地,本文提出一种有效的对抗鲁棒正则化元学习方法,在微调过程与元更新过程的目标函数中均引入对抗鲁棒正则项,以提高元学习器的对抗鲁棒性能。在元更新过程的目标函数中引入基于信息熵的任务无偏正则项,从而缓解元模型在训练过程中出现过拟合的问题。在元更新过程的目标函数中还使用未标记的集合来计算对抗鲁棒正则化项,并允许未标注数据包含标注训练集中未见过的类,以获得更为通用且对抗鲁棒的元模型。
1 semi-ARMAML算法本文semi-ARMAML算法的目标是采用半监督学习与对抗训练的方式来训练一个模型,该模型仅使用少量标注数据训练迭代即可快速适应新任务,并且还拥有较高的对抗鲁棒性能,在半监督场景B下同样适用。
1.1 问题定义假设任务
数据集
semi-ARMAML的元训练过程与MAML相似,也采用双层学习过程,即任务微调过程(内循环)与元更新过程(外循环)。内循环得到任务的最优参数
在训练时,使用一组任务
对抗鲁棒性本质上是要求模型对于输入的微小扰动应有一个稳定的输出,这表现为最小化扰动样本和干净样本的预测概率分布之间的差异,因此,semi-ARMAML在任务微调过程和元更新过程中同时引入对抗性鲁棒正则化方法。
本文定义对抗鲁棒正则函数
$ \begin{array}{c}R(\widehat{D}, \theta )={\mathbb{E}}_{x\in D, {x}_{\mathrm{a}\mathrm{d}\mathrm{v}}\in \widehat{D}}\left[g\right(x, {x}_{\mathrm{a}\mathrm{d}\mathrm{v}};\theta \left)\right]\end{array} $ | (1) |
$ \begin{array}{c}g(x, {x}_{\mathrm{a}\mathrm{d}\mathrm{v}};\theta )=\left\{\begin{array}{l}D(y-{f}_{\theta }({x}_{\mathrm{a}\mathrm{d}\mathrm{v}}\left)\right), x\;\;\mathrm{i}\mathrm{s}\;\;\mathrm{ }\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{d}\\ D\left({f}_{\theta }\right(x)-{f}_{\theta }({x}_{\mathrm{a}\mathrm{d}\mathrm{v}}\left)\right), x\;\;\mathrm{i}\mathrm{s}\;\;\mathrm{ }\mathrm{u}\mathrm{n}\mathrm{l}\mathrm{a}\mathrm{b}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{d}\end{array}\right.\end{array} $ | (2) |
其中:
为了防止元模型
$ \begin{array}{c}{\mathrm{ent}}_{\mathrm{m}\mathrm{a}\mathrm{x}‐\mathrm{m}\mathrm{i}\mathrm{n}}={\mathcal{H}}_{{T}_{i}}\left({f}_{{\theta }_{i}^{'}}\right)-{\mathcal{H}}_{{T}_{i}}\left({f}_{\theta }\right)\end{array} $ | (3) |
其中:
在任务微调期间,根据梯度及步长
$ \begin{array}{c}{\theta }_{i}^{\text{'}}=\theta -\alpha {\nabla }_{\theta }\left[{\mathcal{L}}_{{T}_{i}}\left({f}_{\theta }, {D}_{i}^{s}\right)+{\lambda }_{\mathrm{i}\mathrm{n}}R\left({\widehat{D}}_{i}^{s}, {\theta }_{i}^{'}\right)\right]\end{array} $ | (4) |
其中:
在元更新期间,引入半监督学习,由于未标注样本的类别信息未知,semi-ARMAML使用模型
semi-ARMAML根据梯度及元更新步长
$ \begin{array}{c}\theta =\theta -\beta {\nabla }_{\theta }{\mathcal{L}}_{\mathrm{a}\mathrm{l}\mathrm{l}}^{A}\end{array} $ | (5) |
$ \begin{array}{l}{\mathcal{L}}_{\mathrm{a}\mathrm{l}\mathrm{l}}^{A}=\sum\limits _{{T}_{i}~p\left(T\right)}\left[{\mathcal{L}}_{{T}_{i}}\left({f}_{{\theta }_{i}^{'}}, {D}_{i}^{q}\right)+{\lambda }_{\mathrm{o}\mathrm{u}\mathrm{t}1}R\left({\widehat{D}}_{i}^{q}, {\theta }_{i}^{'}\right)+\right.\\ \;\;\;\;\;\;\;\;\;\; \left.{\lambda }_{e}\mathrm{e}\mathrm{n}{\mathrm{t}}_{\mathrm{m}\mathrm{a}\mathrm{x}‐\mathrm{m}\mathrm{i}\mathrm{n}}\right]+{\lambda }_{\mathrm{o}\mathrm{u}\mathrm{t}2}R\left({\widehat{D}}_{\mathrm{B}\mathrm{a}\mathrm{t}\mathrm{c}\mathrm{h}}^{\mathrm{u}\mathrm{l}}, \theta \right)\end{array} $ | (6) |
其中:
由于
semi-ARMAML期望模型
算法1 semi-ARMAML算法
输入 任务分布
输出 模型初始化参数
1.随机初始化模型参数θ;
2.FOR
3. 从
4. 从
5. FOR
6. FOR
7. 使用fθ'i生成对抗样本集
8. 通过式(4)计算θ'i;
9. END FOR
10. 使用fθ'i生成对抗样本集
11. END FOR
12. 使用fθ生成对抗样本集
13. 通过式(5)更新θ;
14.END FOR
15.返回模型参数θ。
2 实验结果与分析 2.1 实验设置实验选用MiniImageNet和CIFAR-FS数据集测试算法性能,MiniImageNet是ImageNet的一个精缩版本,2个图像数据集的概况如表 1所示。
![]() |
下载CSV 表 1 数据集信息 Table 1 Datasets information |
本文分别为2个数据集从100个类中预留16个类数据作为未见过类数据。在MiniImageNet数据集实验中,从ImageNet数据集中为每个训练类挑选600个未标注数据,并将图片调整为84×84×3大小;在CIFAR-FS数据集实验中,从STL-10数据集中为每个训练类挑选600个未标注数据,将图片调整为32×32×3大小。在任务微调过程中,设置梯度更新次数
如不特别说明,
本文测试semi-ARMAML的以下特性:
1)可以同时有效识别对抗样本和干净样本。
2)在半监督场景下,能够进一步提升模型的对抗鲁棒性,而在未标注样本中混入未见过类数据时,分类性能不会受到较大影响。
为评价模型性能,分别测试标准正确率(Standard Accuracy,SA)和鲁棒正确率(Robustness Accuracy,RA)。SA表示在干净样本数据集上的模型性能,RA表示在对抗样本数据集上的模型对抗鲁棒性能。
2.3 对抗鲁棒正则项对算法性能的影响首先分析鲁棒正则项对算法性能是否产生正面影响。在表 2中:out表示仅在元更新时加入正则项,训练任务的微调过程与新任务适应过程都不加入正则项,即
![]() |
下载CSV 表 2 对抗鲁棒正则项对算法性能的影响 Table 2 Influence of adversarial robust regularization term on algorithm performance |
从表 2可以看出,尽管在微调阶段加入正则项会增加一定的计算代价,但是除了5-way 1-shot的RA性能没有提高外,其余实验的SA与RA均有一定程度的提高,因为在任务适应阶段加入对抗正则项有助于找到更为鲁棒的模型参数
为了进行算法性能比较,将MAML、ADML和R-MAML-TRADES作为对比算法。MAML、ADML只能采用已标注样本进行有监督训练,为了便于比较,semi-ARMAML中设置
不同元学习算法的实验结果如表 3、表 4所示,实验超参数设置如表 5所示。表 3、表 4显示MAML在2个数据集上几乎没有对抗鲁棒性,但是在干净样本下正确率最高,其他算法的SA均有所下降,对抗鲁棒性相比MAML有明显提升。对比对抗元学习的几种算法,semi-ARMAML在RA上的性能均为最高,而SA由于对抗训练而不可避免地有所降低。在所有的有监督方法中,semi-ARMAML(supervised)的RA均优于其他有监督算法,这主要是由于引入了任务无偏的熵正则项,使得新任务与训练任务之间的关联度降低,提高了模型对新任务的泛化性。在半监督场景下,由于未标注样本的引入,尤其在CIFAR-FS数据集上,本文算法有效提高了模型的对抗鲁棒性能。尽管R-MAML-TRADES的SA相比其他对抗元学习算法有一定优势,但是RA并不占优。semi-ARMAML支持未标注样本与当前任务标注样本不一致的情况,适应性更广,其RA均优于其他算法,这说明对未标注样本信息的利用可增强模型的对抗鲁棒性。
![]() |
下载CSV 表 3 MiniImageNet数据集上SA/RA性能对比分析 Table 3 Comparative analysis of SA/RA performance on MiniImageNet dataset |
![]() |
下载CSV 表 4 CIFAR-FS数据集上SA/RA性能对比分析 Table 4 Comparative analysis of SA/RA performance on CIFAR-FS dataset |
![]() |
下载CSV 表 5 不同数据集下semi-ARMAML的超参数设置 Table 5 Hyper parameter setting of semi-ARMAML under different datasets |
综上,使用semi-ARMAML训练得到的初始化参数
表 6所示为系数
![]() |
下载CSV 表 6 正则项系数对算法性能的影响分析 Table 6 Analysis of the influence of regularization coefficients on algorithm performance |
在2.4节的实验中,为保证公平,实验数据集均使用见过类的未标注数据集,本节进一步研究未见过类对算法性能的影响。
表 7展示了未见过类样本数量对模型性能的影响。未标注样本
![]() |
下载CSV 表 7 未见过类样本数量对算法性能的影响分析 Table 7 Analysis of the influence of number of unseen class samples on algorithm performance |
表 8基于CIFAR-FS数据集对比不同算法的时间代价,ADML、R-MAML-TRADES和本文semi-ARMAML这3种算法是双层优化过程,且为保证公平,使用相同的对抗样本生成算法。
![]() |
下载CSV 表 8 CIFAR-FS数据集上的时间代价 Table 8 Time cost on CIFAR-FS dataset |
在表 8中:Time表示500轮的训练时间,ADML使用干净样本与对抗样本交替训练网络,训练时间代价最高,R-MAML-TRADES和semi-ARMAML算法整体时间代价相差不大,本文算法略优;Fin steps表示在元测试时使模型
本文针对半监督对抗元学习问题,提出一种对抗鲁棒模型无关元学习方法。该方法在元训练过程中同时使用标注样本与未标注样本进行训练,即使不知道未标注样本的类别信息,也能在大量相似任务中训练元模型,使其能够快速适应新任务。同时,在损失函数中加入对抗鲁棒正则项与任务无偏熵正则项,提升模型的对抗鲁棒性,缓解元模型在训练任务时的过拟合问题。在2个基准数据集上的实验结果表明,相较其他对抗元学习方法,该方法在干净样本上的正确率仅有微小降低,但获得了更高的对抗鲁棒性能,且对含未标注样本的真实场景适应性更好。下一步将在学习过程中探究如何利用未标注样本中占比更大的未见过类样本,进一步提高模型的泛化性与对抗鲁棒性。
[1] |
代磊超, 冯林, 杨玉亭, 等. 一种鲁棒性的少样本学习方法[J]. 小型微型计算机系统, 2021, 42(2): 340-347. DAI L C, FENG L, YANG Y T, et al. Robust few-shot learning method[J]. Journal of Chinese Computer Systems, 2021, 42(2): 340-347. (in Chinese) DOI:10.3969/j.issn.1000-1220.2021.02.020 |
[2] |
RAVI S, LAROCHELLE H. Optimization as a model for few-shot learning[EB/OL]. [2021-10-05]. https://openreview.net/pdf?id=rJY0-Kcll.
|
[3] |
KINGMA D, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1412.6980.pdf.
|
[4] |
DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[EB/OL]. [2021-10-05]. https://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf.
|
[5] |
赵凯琳, 靳小龙, 王元卓. 小样本学习研究综述[J]. 软件学报, 2021, 32(2): 349-369. ZHAO K L, JIN X L, WANG Y Z. Survey on few-shot learning[J]. Journal of Software, 2021, 32(2): 349-369. (in Chinese) |
[6] |
HOWARD J, RUDER S. Universal language model fine-tuning for text classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 328-339.
|
[7] |
GAO R, HOU X S, QIN J, et al. Zero-VAE-GAN: generating unseen features for generalized and transductive zero-shot learning[J]. IEEE Transactions on Image Processing, 2020, 29: 3665-3680. DOI:10.1109/TIP.2020.2964429 |
[8] |
LIU L L, ZHANG H J, XU X F, et al. Collocating clothes with generative adversarial networks cosupervised by categories and attributes: a multidiscriminator framework[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(9): 3540-3554. DOI:10.1109/TNNLS.2019.2944979 |
[9] |
WEI Y Y, ZHANG Z, WANG Y, et al. DerainCycleGAN: rain attentive CycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788-4801. DOI:10.1109/TIP.2021.3074804 |
[10] |
WANG Y X, HEBERT M. Learning to learn: model regression networks for easy small sample learning[C]// Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 616-634.
|
[11] |
汪荣贵, 汤明空, 杨娟, 等. 语义匹配网络的小样本学习[J]. 计算机工程, 2021, 47(5): 244-250, 259. WANG R G, TANG M K, YANG J, et al. Semantic matching network for few-shot learning[J]. Computer Engineering, 2021, 47(5): 244-250, 259. (in Chinese) |
[12] |
GIDARIS S, KOMODAKIS N. Generating classification weights with GNN denoising autoencoders for few-shot learning[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 21-30.
|
[13] |
THRUN S, PRATT L. Learning to learn: introduction and overview[M]. Berlin, Germany: Springer, 1998.
|
[14] |
FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of International Conference on Machine Learning. Washington D. C., USA: IEEE Press, 2017: 1126-1135.
|
[15] |
GOLDBLUM M, FOWL L, GOLDSTEIN T. Adversarially robust few-shot learning: a meta-learning approach[J]. Advances in Neural Information Processing Systems, 2020, 33: 12-36. |
[16] |
SHIN H, KIM D, KWON Y, et al. Illusion and dazzle: adversarial optical channel exploits against lidars for automotive applications[C]//Proceedings of International Conference on Cryptographic Hardware and Embedded Systems. Berlin, Germany: Springer, 2017: 445-467.
|
[17] |
SHAN S, WENGER E, ZHANG J, et al. Fawkes: protecting privacy against unauthorized deep learning models[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/2002.08327.pdf.
|
[18] |
YIN C, TANG J, XU Z, et al. Adversarial meta-learning[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1806.03316.pdf.
|
[19] |
GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1412.6572.pdf.
|
[20] |
MADRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1706.06083.
|
[21] |
WANG R, XU K, LIU S, et al. On fast adversarial robustness adaptation in model-agnostic meta-learning[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/2102.10454v1.pdf.
|
[22] |
REN M, TRIANTAFILLOU E, RAVI S, et al. Meta-learning for semi-supervised few-shot classification[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/1803.00676.pdf.
|
[23] |
HUANG S X, ZENG X P, WU S, et al. Behavior regularized prototypical networks for semi-supervised few-shot image classification[J]. Pattern Recognition, 2021, 112: 107765. DOI:10.1016/j.patcog.2020.107765 |
[24] |
MIYATO T, MAEDA S I, KOYAMA M, et al. Virtual adversarial training: a regularization method for supervised and semi-supervised learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1979-1993. DOI:10.1109/TPAMI.2018.2858821 |
[25] |
JAMAL M A, QI G J. Task agnostic meta-learning for few-shot learning[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 11719-11727.
|