自深度学习[1]技术被提出以来,增加神经网络模型深度[2-3]从而使得模型具有更强的学习能力成为人工智能领域的热点研究[4-6],但在构建大容量模型时需要使用海量的训练样本,因此在样本获取、标注等工作上耗费大量的人工成本。小样本学习[7]研究的主要目的在于赋予深度学习模型从少量新事物中快速学习抽象概念的能力,并在遇见同类事物时能够快速对比重要信息从而做出正确判断。具体而言,小样本学习任务的目标是在少量待测试类别样本参与模型训练的情况下构建性能优异的分类器。针对小样本学习问题,基于距离度量的小样本学习方法易于实现,并且效果显著,目前已成为小样本学习领域的一个重要研究方向。此外,基于迁移学习的小样本学习方法、基于数据增强的小样本学习方法和基于元学习的小样本学习方法也是小样本学习领域的常用方法。
基于迁移学习的小样本学习方法利用训练样本对模型进行预训练,并运用有限的测试集样本对模型参数进行调整从而完成从源域到目标域的迁移。文献[8]利用内积度量的边际Fisher准则对源域进行特征映射,并对源域中的样本点进行筛选,在核化空间上学习目标域与源域特征的非线性映射,最终在目标域中构建小样本分类器,该方法取得了一定的实际应用效果。此类学习方法与快速学习的流程一致,都是在经验信息的基础上通过学习获得对指定类别的泛化判别能力,但实际实验结果证明,深度学习模型在迁移过程中极易遗忘过往的经验信息,在进行参数迁移时往往会出现严重的过拟合现象,因此直接使用迁移学习方法难以有效解决小样本学习问题。基于数据增强的小样本学习方法则从样本量角度出发,生成虚拟样本或借取真实样本对训练样本集进行扩充。文献[9]从未标注的样本集中借取样本从而实现数据增强。文献[10]通过带有注意力机制的生成对抗网络(GAN)生成一些虚拟样本实现了数据增强。虽然这些方法对模型的最终性能有着积极影响,但仍然存在不可忽视的缺陷,虚拟样本或借取的真实样本分布与训练样本集的分布总存在一定差异,难以保证数据增强的有效性。相较于迁移学习方法和数据增强方法,元学习方法试图根据现有数据学习更高级的问题解决策略。文献[11]提出直接使用梯度优化算法训练小样本学习模型往往难以获得最优的模型参数,但长短时记忆(LSTM)网络[12]的计算形式与梯度优化算法的计算形式类似,因此可将LSTM模型作为元学习器,并代替优化算法参与模型训练过程。文献[13]认为构建一个具有较强泛化能力的模型,本质上是在寻找一个可以应用于许多任务的特征空间,基于这一思想所提出的模型无关元学习方法,可以通过少量样本完成对其参数的有效更新,从而保证该方法的强大泛化性能。上述方法均说明了元学习方法的有效性,但同时也说明此类方法的模型结构或计算方法往往较为复杂。
基于距离度量的小样本学习方法多在特征空间中分析样本之间的分布规律,根据同类样本所对应的特征向量分布相近、不同类别样本的特征向量分布较远这一简单假设完成对样本类别的判定。此类方法简单易行,且所使用的分类模型为无参数模型,因此距离度量方法能够快速应用于新的样本类别判断过程。目前,基于距离度量的小样本学习研究成果显著,文献[14]提出一种具有两路对称结构的网络模型,该网络共享上下两路权值,分别完成对带标注样本和无标签样本从样本空间到同一嵌入空间的映射,在求得特征向量后便可通过距离度量方式确定未标注样本,最后使用正则化的交叉熵损失函数完成对模型参数的训练。文献[15]提出的匹配网络模型在求解特征空间过程中加入了注意力机制,并给出episode训练策略来统一模型训练过程和测试过程,即在训练和测试过程中模型都根据带有标签的样本对未标注样本类别进行预测,相似的训练和测试流程使得该方法具备一定的泛化能力。文献[16]则认为特征空间中的每一类样本都应存在一个原型表示,而在合适的特征空间中同类样本应分布于该类别的原型附近,基于这一思想所构建的原型网络直接使用带标签样本特征向量的均值向量作为真实原型的近似,并通过比较待测试样本特征向量与各近似原型之间的距离完成分类。
由于基于距离度量的小样本学习方法均在特征空间中对样本特征分布关系进行分析,因此特征空间的质量与模型最终效果关联密切。为减小样本特征之间的类内距离,降低对样本类别预测的难度,本文构建一种具有双路结构的特征聚合网络,并提出一种综合损失函数。结合综合损失函数,具有双路网络结构的特征聚合网络可将样本映射到同类样本特征更为聚集的特征空间中,以提升样本类别的分类效果。
1 问题描述与训练方法目前小样本学习任务一般特指小样本分类任务,此类任务要求使用类别集合为
本文方法采用episode训练策略[15]构建模型从而解决上述小样本分类问题。对于
基于距离度量的小样本学习方法[15-16]采用四层卷积块结构网络进行特征提取,但由于此类特征提取器结构较为简单,在面对miniImageNet、Cifar-100等复杂数据集时,该模型往往难以寻找到合适的非线性映射方式,因此采用此类特征提取器的方法在实际应用中难以取得理想效果。从度量学习角度出发,在一个好的特征空间中同类样本之间的距离应该较小,而不同类别样本之间距离应该较大,基于这一简单原理,本文尝试构建特征聚合网络用于特征提取。特征聚合网络由上下两个网络通路组成,其中一路用于学习样本的特征表示,另一路则用于拟合样本与当前类表示之间的偏差,该网络最终输出的特征向量为样本的特征向量与偏差向量之差。
考虑到小样本学习问题中数据分布的复杂性,为更好地通过学习获得较好的特征分布,特征聚合网络中的特征提取通路应当具有强大的非线性映射能力。实验结果证明,层数越深、参数越多的网络模型通常具有更强的非线性映射能力[1],文献[5]提出的深度残差网络在实际任务中表现出了其强大的拟合能力,因此,本文沿用了resnet18的主体结构作为特征聚合网络中的特征提取通路,但依次将每两个残差块中的卷积核数目调整为16、32、64、256并使用核大小的4×4步长为1的平均池化方式代替全连接层之前的全局平均池化方式,从而保留更多的信息以供后续计算,全连接层节点数目设置为1 600,即特征提取通路的最终输出为1 600维的特征向量。相比于特征提取通路而言,偏差拟合通路的任务难度较为简单,因此此处采用四层卷积块结构网络作为偏差拟合通路。具体来说,对于单个卷积块,其中第一层为卷积层,卷积核大小为3×3,卷积步长为1,进行一圈0填充(padding=1);卷积层输出的特征图经过ReLU激活后再进行步长为2的最大值池化,得到该卷积块的最终输出。本文的偏差拟合通路由4个卷积块堆叠而成,4个卷积块中的卷积核数目分别设置为16、16、16、64。此处将最终所得到的64×5×5大小的特征图直接展开以获得1 600维的偏差拟合向量。使用特征聚合网络作为特征提取器时的整体模型结构如图 1所示。特征聚合网络由两路结构组成,图 1中的上半部分网络结构为特征提取通路,用于学习样本分布,下半部分网络结构为偏差拟合通路,用于学习样本特征到更优特征空间的偏差分布。结合上下两个通路所学得的信息可将样本的特征向量向当前类表示向量进行偏移,从而得到类内距离更小、类间距离更大的样本特征分布,最后逐一对比查询样本与类表示之间的欧式距离完成分类。
|
Download:
|
| 图 1 本文整体模型结构 Fig. 1 Whole model structure of this paper | |
在模型训练过程中,假设选定的支持集为
在利用支持集
| $ \mathit{\boldsymbol{\hat \mu }}_k^F = \frac{1}{n}\sum\limits_{_{\begin{array}{*{20}{c}} {\left( {f_i^{F\_{\rm{support}}}, y_{{\rm{Train}}\_{\rm{support}}}^i} \right) \in }\\ {S_{{\rm{Train}}\_{\rm{support}}\_F}^k} \end{array}}} {\mathit{\boldsymbol{f}}_i^{F\_{\rm{support}}}} $ | (1) |
其中,
为使得同类样本的特征向量分布更加紧凑,需将特征向量向对应类别的原型估计进行定向偏移,此处使用偏差拟合通路
| $ \mathit{\boldsymbol{\widehat b}}_{i}^{\mathrm{T}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}\_\mathrm{s}\mathrm{u}\mathrm{p}\mathrm{p}\mathrm{o}\mathrm{r}\mathrm{t}}={F}_{\mathrm{b}\mathrm{i}\mathrm{a}\mathrm{s}}\left({X}_{\mathrm{T}\mathrm{r}\mathrm{a}\mathrm{i}\mathrm{n}\_\mathrm{s}\mathrm{u}\mathrm{p}\mathrm{p}\mathrm{o}\mathrm{r}\mathrm{t}}^{i}\right) $ | (2) |
为将特征向量向原型估计
| $ \mathit{\boldsymbol{f}}_i^{{\rm{FA}}{{\rm{N}}_{{\rm{support}}}}} = {F_{{\rm{FAN}}}}\left( {X_{{\rm{Trai}}{{\rm{n}}_{{\rm{support}}}}}^i} \right) = \mathit{\boldsymbol{f}}_i^{{\rm{F}}\_{\rm{support}}} - \mathit{\boldsymbol{\widehat b}}_i^{{\rm{Train}}\_{\rm{support}}}$ | (3) |
通过特征聚合网络对支持集中所有样本进行特征提取后,可取各类样本特征向量的均值作为新的原型估计,类别标签为
| $ \mathit{\boldsymbol{\widehat \mu }}_k^{{\rm{FAN}}} = \frac{1}{n}\sum\limits_{_{\begin{array}{*{20}{c}} {\left( {\mathit{\boldsymbol{f}}_i^{{\rm{FAN}}\_{\rm{support}}}, y_{{\rm{Train}}\_{\rm{support}}}^i} \right) \in }\\ {S_{{\rm{Train}}\_{\rm{support}}\_{\rm{FAN}}}^k} \end{array}}} {\mathit{\boldsymbol{f}}_i^{{\rm{FAN}}\_{\rm{support}}}} $ | (4) |
其中,
根据支持集确定原型估计后,便可使用度量学习方式对查询集
| $\begin{array}{*{20}{l}} {\mathit{\boldsymbol{f}}_i^{{\rm{FA}}{{\rm{N}}_{{\rm{query}}}}} = {F_{{\rm{FAN}}}}\left( {X_{{\rm{Trai}}{{\rm{n}}_{{\rm{query}}}}}^i} \right) = }\\ {{F_{{\rm{feature}}}}\left( {X_{{\rm{Trai}}{{\rm{n}}_{{\rm{query}}}}}^i} \right) - {F_{{\rm{bias}}}}\left( {X_{{\rm{Train}}\_{\rm{query}}}^i} \right)} \end{array}$ | (5) |
然后可逐一计算该特征向量与经过定向偏移后的原型估计
为确保特征偏移的有效性和网络最终的分类效果,本文考虑在损失函数中分别对偏差拟合通路输出以及整个模型最终的分类效果进行惩罚,并通过对查询集样本进行前向计算确定损失函数的具体取值,从而对网络参数进行更新。为保证特征偏移的有效性,本文使用均方误差损失限制偏差拟合通路
| $ \begin{array}{l} J\left( \mathit{\boldsymbol{\theta }} \right) = - \frac{1}{{t \times m}}\sum\limits_{i = 1}^{t \times m} {\sum\limits_{k = 1}^t I } \left( {y_{{\rm{Train}}\_{\rm{query}}}^i, {y_k}} \right) \times {\rm{lb}}\frac{{{{\rm{e}}^{ - d\left( {\mathit{\boldsymbol{f}}_i^{{\rm{FA}}{{\rm{N}}_{{\rm{query}}}}}, \mathit{\boldsymbol{\widehat \mu }}_k^{{\rm{FAN}}}} \right)}}}}{{\sum\limits_{j = 1}^t {{{\rm{e}}^{ - d\left( {\mathit{\boldsymbol{f}}_i^{{\rm{FA}}{{\rm{N}}_{{\rm{query}}}}}, \mathit{\boldsymbol{\widehat \mu }}_j^{{\rm{FAN}}}} \right)}}} }} + \\ \frac{1}{{t \times m}}\sum\limits_{k = 1}^t {\sum\limits_{_{\begin{array}{*{20}{c}} {\left( {\mathit{\boldsymbol{f}}_i^{{F_{{\rm{query}}}}}, y_{{\rm{Train}}\_{\rm{query}}}^i} \right) \in }\\ {S_{{\rm{Train}}\_{\rm{query}}\_F}^k} \end{array}}} {{{\left[ {\mathit{\boldsymbol{\widehat b}}_i^{{\rm{Train}}\_{\rm{query}}} - \left( {\mathit{\boldsymbol{f}}_i^{{F_{{\rm{query}}}}} - \mathit{\boldsymbol{\widehat \mu }}_k^F} \right)} \right]}^2} + \frac{\alpha }{2}\left\| \mathit{\boldsymbol{\theta }} \right\|_2^2} } \end{array} $ | (6) |
其中
若仅使用均方误差项对偏差拟合通路的参数更新过程进行限制,由于目标函数要求偏差拟合通路
| $ {F_{{\rm{bias}}}}\left( X \right) \approx {F_{{\rm{feature}}}}\left( X \right) - {\mathit{\boldsymbol{\widehat \mu }}^F} $ | (7) |
其中,
| $ {\mathit{\boldsymbol{F}}_{{\rm{FAN}}}}\left( X \right) = {F_{{\rm{feature}}}}\left( X \right) - {F_{{\rm{bias}}}}\left( X \right) $ | (8) |
结合式(7)、式(8)有:
| $ {\mathit{\boldsymbol{F}}_{{\rm{FAN}}}}\left( X \right) \approx {\mathit{\boldsymbol{\widehat \mu }}^F} $ | (9) |
在模型收敛的情况下,对于任意给定的样本X,通过特征聚合网络所提取到的特征向量
在本文实验中,验证模型解决小样本学习能力和特征聚合特性的实验分别在miniImageNet [15]、Cifar-100[18]、Caltech-UCSD Birds 200-2011[19]和Caltech-256[20]4个数据集上完成。本文所有实验均在搭载NVIDIA GeForce GTX TITANX 12 GB显卡、Intel i7-6700处理器并具有16 GB运行内存的PC机上完成,采用PyTorch深度学习框架Windows版本实现。所有参与训练和测试的图像样本尺度都归一化为84×84大小,部分实验中从ImageNet数据集中抽取了ImageNet的样本对模型进行预训练,预训练样本均不包含在miniImageNet数据集中。
实验 1 本文所提出的特征聚合网络可将样本映射为类内分布更紧凑的特征向量,为验证这一理论,此处使用类内样本距离均值与类原型距离均值作为指标衡量模型性能。具体来说,假设测试过程中共进行q次采样,每次测试过程有p类,每类有r个测试样本,则在每次测试过程中,每个类别的类内样本特征向量之间共有r(r - 1)/2条无向边,因此在整个测试过程中共计有q×p×r(r - 1)/2条无向边。由于每条边的长度表示两个同类样本之间的欧式距离,因此可计算得到整个测试过程中所有同一采样过程中类内样本两两之间的欧式距离平均值dins,这一平均值可作为类内距离使用;同理,也可通过计算获得所有同一采样过程中类原型两两之间的欧式距离平均值douts,并使用该值度量特征空间中的类间距离。由于在一个好的特征空间中,特征向量的分布具有类内距离小、类间距离大的特性,因此可使用Ra = dins /douts作为衡量特征提取器性能的指标,当Ra越小时特征提取器性能越好。
本文由于本文方法是受原型网络思想启发而提出,并且方法流程与原型网络方法流程最为接近,因此性能对比选择原型网络实际效果作为基准线。此处所有数据均为5次测试结果的平均值,其中每次测试进行500次采样,查询集中共5类,每类样本数量为30。经测试得到5-way 1-shot和5-way 5-shot结果分别如表 1和表 2所示。
|
下载CSV 表 1 5-way 1-shot测试结果 Table 1 5-way 1-shot test results |
|
下载CSV 表 2 5-way 5-shot测试结果 Table 2 5-way 5-shot test results |
由上述实验结果可知,无论是在5-way 1-shot任务还是5-way 5-shot任务中,所有使用特征聚合网络的具体方法在各个数据集上的Ra取值均小于原型网络在对应数据集上的Ra取值,并且所对应的分类正确率均高于原型网络。这一结果表明,相较于原型网络,特征聚合网络在各个数据集上均将样本映射到了较优的特征空间中,特征聚合网络所提取到的特征类内更加紧凑。
实验 2 为验证本文整体方法的有效性,分别在上述4个数据集上对比了多种类型的具有代表性的相关方法,包括匹配网络MN[15]、原型网络PN[16]、关系网络RN[21]、MAML[13]和元学习LSTM[11]。本文所提出的相关方法实验结果数据,由训练过程间隙验证正确率最高的优化模型经5次测试并取其均值得到,参与对比的其他方法实验结果来自于对应文献,经实验得到表 3所示的结果。
|
下载CSV 表 3 5-way 1-shot与5-shot正确率对比 Table 3 Comparison of 5-way 1-shot and 5-shot accuracy |
在表 3中,本文使用加粗字体展示了对比方法中的最优效果。根据表 3中的数据可知,除了在miniImageNet数据集的5-way 1-shot任务和5-way 5-shot任务中本文方法取得了次优结果之外,在其他3个数据集的所有实验任务中,本文方法均取得了参与对比方法的最优结果。相较于原型网络分类正确率这一基准线而言,本文方法在5-way 1-shot任务和5-way 5-shot任务中均取得了超过2%的性能提升。实验结果表明,本文所提出的特征聚合网络优于绝大多数小样本学习方法所使用的特征提取器。
5 结束语本文针对传统特征提取器难以求得较优特征向量分布的问题,提出一种特征聚合网络。该特征聚合网络能够有效地将原始特征向更优的特征空间中进行偏移,最终使得同类样本之间的特征向量分布更为紧凑,从而提升特征提取的有效性。下一步将对基于半监督学习的小样本学习进行研究,设计更有效和更具通用性的数据增强方法。
| [1] |
HINTON G, OSINDERO S, TEH Y. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554. DOI:10.1162/neco.2006.18.7.1527 |
| [2] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[J]. Neural Information Processing Systems, 2012, 25(2): 1097-1105. |
| [3] |
SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2019-10-10].https://arxiv.org/abs/1409.1556.
|
| [4] |
SZEGEDY C, LIU N W, JIA N Y, et al.Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1-9.
|
| [5] |
HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
|
| [6] |
HUANG G, LIU Z, DER M L V, et al.Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 2261-2269.
|
| [7] |
FEIFEI L, FERGUS R, PERONA P, et al. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 28(4): 594-611. |
| [8] |
SHU Xing, YU Huimin, ZHENG Weiwei, et al. Classifier-designing algorithm on a small dataset based on margin Fisher criterion and transfer learning[J]. Acta Automatica Sinica, 2016, 42(9): 1313-1321. (in Chinese) 舒醒, 于慧敏, 郑伟伟, 等. 基于边际Fisher准则和迁移学习的小样本集分类器设计算法[J]. 自动化学报, 2016, 42(9): 1313-1321. |
| [9] |
FU Y, HOSPEDALES T M, XIANG T, et al. Transductive multi-view zero-shot learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(11): 2332-2345. DOI:10.1109/TPAMI.2015.2408354 |
| [10] |
REED S E, CHEN Y, PAINE T, et al.Few-shot autoregressive density estimation: towards learning to learn distributions[C]//Proceedings of IEEE International Conference on Learning Representations.Washington D.C., USA: IEEE Press, 2018: 113-126.
|
| [11] |
RAVI S, LAROCHELLE H.Optimization as a model for few-shot learning[C]//Proceedings of IEEE International Conference on Learning Representations.Washington D.C., USA: IEEE Press, 2017: 342-358.
|
| [12] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
| [13] |
FINN C, ABBEEL P, LEVINE S, et al.Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of International Conference on Machine Learning.Washington D.C., USA: IEEE Press, 2017: 1126-1135.
|
| [14] |
KOCH G, ZEMEL R.Siamese neural networks for one-shot image recognition[C]//Proceedings of ACM ICML'15.New York, USA: ACM Press, 2015: 226-239.
|
| [15] |
VINYALS O, BLUNDELL C, LILLICRAP T P. Matching networks for one shot learning[J]. Neural Information Processing Systems, 2016, 16: 3637-3645. |
| [16] |
SNELL J, SWERSKY K, ZEMEL R S, et al.Prototypical networks for few-shot learning[EB/OL].[2019-10-10].https://www.researchgate.net/publication/315096921.
|
| [17] |
KINGMA D, BA J.Adam: a method for stochastic optimization[EB/OL].[2019-10-10].https://arxiv.org/abs/1412.6980.
|
| [18] |
KRIZHEVSKY A.Learning multiple layers of features from tiny images[D].Toronto, Canada: University of Toronto, 2009.
|
| [19] |
WAH C, BRANSON S.The caltech-UCSD birds-200-2011 dataset: CNS-TR-2011-001[R].Pasadena, USA: California Institute of Technology, 2011.
|
| [20] |
GRIFFIN G, HOLUB A.Caltech-256 object category dataset: 7694[R].Pasadena, USA: California Institute of Technology, 2007.
|
| [21] |
SUNG F, YANG Y, ZHANG L, et al.Learning to compare: relation network for few-shot learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 1199-1208.
|
2021, Vol. 47
