2. 北京联合大学 机器人学院, 北京 100027
2. College of Robotics, Beijing Union University, Beijing 100027, China
开放科学(资源服务)标志码(OSID):
随着深度卷积神经网络的发展,基于深度学习的实例分割算法[1]在类别分布相对均衡的数据集上取得了较大的成功,如数据集COCO(Common Objects in Context)。然而,现实生活中的数据往往呈现长尾分布规律,在自然方式采集的数据集中少数的频繁类数据提供了足够多的图像样本,而大量的稀有类数据在数据集中可能被有限的样本所代表。
早期解决数据不平衡的研究主要使用单阶段模型[2],由于缺乏根本上的策略设计,这种方法没有取得理想的效果。文献[3]采用重采样技术随机添加与删除稀有类与频繁类数据使类别数量实现平衡,然而该方法易丢弃一些有用的潜在信息或增大过拟合的可能性。基于集成学习的方法可以通过修改现有的分类算法使其适用于长尾数据集,具有代表性的方法有:基于Bagging[4]的方法,该方法提升了机器学习算法的稳定性与准确性,但仅在基本分类器效果很好时才有效,否则会进一步降低分割效果;基于Boosting的方法可以较好地泛化,但是对噪声数据和异常值都很敏感。
研究人员运用数据驱动方法来解决此类问题,文献[5]首先在传统的数据驱动方法基础上提出了自动增强方法,通过对图像中的目标进行几何增强和颜色增强取得了较好的效果,但是其繁重的计算成本与对目标尺寸的忽略导致了其实用性较差与鲁棒性较低。文献[6]在自动增强的基础上增加了目标扩充区域并制定了不同目标下的增强策略,但消耗了大量时间与空间,精确度提升不高。
重采样操作在早期研究中包括稀有类的过采样[4]和频繁类的欠采样[7],但其本质都是根据样本数量对不同类别的图片采样频率进行反向加权。近年来最常使用的策略为类均衡采样[8-9]。文献[8-9]的研究发现,对于任何类别不均衡数据集再平衡的本质都是对分类器的再平衡,即在类别不平衡的情况下学习特征提取的骨干网络,而在数据集类别重新平衡的情况下进行分类器的学习。本质上,稀有类数据的特征依旧会过拟合,而频繁类数据会欠拟合,不能规避特征提取网络提取稀有类数据特征单一性的缺点。
本文提出一种新的图像实例分割方法。通过对各类别中不同尺寸的图像目标进行基于目标级的增广操作,并在训练中使用重采样方法提升稀有类数据的采样频率,增加网络的鲁棒性,从而使神经网络更好地提取目标特征。同时,将目标级数据驱动方法与均等化损失函数方法相结合,以解决实例分割中的长尾分布问题。
1 相关工作 1.1 数据增强方法随着深度学习的研究与发展,数据增强已被广泛应用于神经网络的优化,而且在实例分割任务中取得了很好的效果。多数用于图像分割任务中的数据增强方法都是通过人工进行设计的,传统的方法分为几何变换[4-5](例如裁剪缩放、移动填充)、色彩空间转换(例如RGB、HSV、Lab)、像素处理(例如模糊锐化、图像混合[10])等方法,但是使用这些方法需要足够的专业知识且耗费时间。Mixup[11]在成对样本及其标签的凸组合上训练神经网络,有效地减少对错误标签的记忆,增加对抗样本的鲁棒性。文献[12]通过采用自动搜索方式改进数据增强策略。文献[13]应用贝叶斯优化来学习数据增强策略并取得了较好的效果。基于上述研究,可以得出多尺度方法[14]能够在图像细节提升中起到关键的作用。Sniper[15]通过缩放特定的上下文区域,在保证裁剪尺度不变性的同时提升了训练速度。Stitcher[16]通过将图像调整为小尺寸的分量而后将这些分量拼接为与常规图像相同的尺寸,避免了小目标所受的损失。
上述数据增强方法都取得了一定的效果,但都是对图像整体进行操作,而不是针对图像中具体的目标进行操作,忽略了图像中目标尺度层次的多样性。
1.2 重加权方法重加权的基本思想是为不同的训练样本分配权重以解决训练过程中频繁类占据主导的问题。在神经网络中主要体现在分类的损失函数[17]上,其基本计算方法如下:
$ \mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}=-\beta \cdot \mathrm{l}\mathrm{g}\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({z}_{j}\right)}{\sum\limits _{i=1}^{C}\mathrm{e}\mathrm{x}\mathrm{p}\left({z}_{i}\right)} $ | (1) |
$ \beta =g\left(\frac{\sum \limits_{i=1}^{C}f\left({n}_{i}\right)}{f\left({n}_{i}\right)}\right) $ | (2) |
其中:
文献[2]基于改变新增样本数量带来递减收益的情况,设计一个更优的重加权方法,取得了较好的长尾分类效果。文献[18]对文献[2]方法进行改进,提出一个条件权重用来优化平衡数据集上的结果。文献[19]通过为少数类提供更高的权重分配标签以支持少数类,平衡了频繁类和稀有类间的泛化错误。文献[20]指出在softmax函数中随机丢弃一些稀有类可以有效地提升网络对于目标识别的鲁棒性,减少频繁类和稀有类之间的混淆。文献[21]基于贝叶斯不确定性修改损失函数。文献[22]提出了两个新的损失函数来平衡梯度流。文献[23]改进了原本交叉熵损失函数使用的二进制类别,运用一种连续型标签判断正负样本。这些方法都帮助模型更好地平衡不同的类别,但都忽略了图像中前景类别不平衡的问题,没有考虑到前景类别均衡的重要性,效果较差。
2 本文方法 2.1 方法框架本文方法操作流程如图 1所示。首先使用基于目标尺度的数据增广方法对数据集进行处理,以达到扩充训练样本的目的;然后对稀有类数据进行重采样,用以解决稀有类的类别数据量过小的问题,从而提升模型在长尾数据集的鲁棒性;最后将均等化损失函数融入Mask R-CNN实例分割网络,以降低频繁类的数据特征对稀有类数据特征的抑制性。
![]() |
Download:
|
图 1 数据驱动的实例分割流程 Fig. 1 Instance splitting procedure of data-driven |
自动增强方法一般通过设置操作空间、搜索函数、操作评估3个主要部分实现数据集的自动增强。为解决以往自动增强方法对图像尺寸适应性差与图像目标定位不清晰的问题,本文使用图像增强处理与目标处理实现数据集的自动增强。
图像增强处理首先对图片进行整体的放缩处理,采集放缩后的两张图像及原图的目标像素,将得到的3组像素进行合成处理后对图像中的目标进行几何变换和色彩空间转换。目标处理通过将高斯映射应用到目标框增广的方法,用以软化边界间隙,同时,设置参数
图像增强处理:为了使神经网络适应不同的图像尺度,通常使用图像金字塔对实例分割模型进行训练。但是由于这些比例的设置及其依赖手工设置的参数,因此本文对图像进行缩放处理来降低网络对参数的依赖性。设置缩放概率
目标处理:为了避免以前工作中目标级增强方法在整个边界框注释中延伸较多导致增强区域与原始区域间隙较大,以及过大的图像外观变化降低网络对于增强对象的定位,使得训练和验证之间差距较大的问题,本文将高斯映射融入到目标框增广中,通过软化边界间隙解决上述问题。通过混合原始像素与空间高斯映射变化后的像素得到增广区域
$ E=\partial (x, y)\times I+(1-\partial (x, y\left)\right)\times F $ | (3) |
其中:I为输入函数;F为变换函数;E为增广区域。在上述的目标处理中没有考虑到感受野和目标尺度对神经网络的影响。很多研究人员认为神经网络在很大程度上依赖于上下文信息对物体进行识别,然而在研究中发现,它的效果更大程度上随物体尺度的变化而变化,这个可以从Faster R-CNN[24]和RetinaNet[25]得到证明。图像增强与目标处理示意图如图 2所示。
![]() |
Download:
|
图 2 图像增强及目标处理示意图 Fig. 2 Schematic diagram of image augmentation and object processing |
在去掉所有上下文信息的COCO验证集上进行测试时,发现它对小目标识别的准确率大幅下降,相比之下,对于大目标、中目标识别的准确率有一定幅度的提升。实验结果表明,仅在目标内部/外部进行增强无法处理所有尺度的图像。
为此,本文引入一个用于搜索的参数
将高斯映射用公式表示为:
$ \partial (x, y)=\mathrm{e}\mathrm{x}\mathrm{p}\left(-\left(\frac{(x-{x}_{c}{)}^{2}}{2{\sigma }_{x}^{2}}+\frac{(y-{y}_{c}{)}^{2}}{2{\sigma }_{y}^{2}}\right)\right) $ | (4) |
增广面积可定义为高斯映射的积分:
$ S={\int }_{0}^{H}{\int }_{0}^{W}\partial (x, y)\mathrm{d}x\mathrm{d}y $ | (5) |
最后可得参数面积比
$ r\left({S}_{\mathrm{f}\mathrm{r}\mathrm{a}\mathrm{m}\mathrm{e}}\right)=S/{S}_{\mathrm{b}\mathrm{o}\mathrm{x}} $ | (6) |
其中:面积比
在目标处理中,根据参数面积比
![]() |
Download:
|
图 3 不同面积比的目标处理示意图 Fig. 3 Schematic diagram of target processing with different area ratios |
![]() |
下载CSV 表 1 目标处理的增强方法 Table 1 Augmentation methods of object processing |
操作效果评估:自动增强方法通常使用的搜索指标不够准确并且时间消耗过大。本文将操作对象精确到每一个目标上,根据每一个目标的尺度获得不同尺度下的具体数据,通过记录不同尺度上的累计损失和精度制定不同尺度的度量。具体方法为:给出一个未经数据驱动训练的普通模型,记录验证平均精度(
$ \mathrm{A}\mathrm{P}=\mathrm{m}\mathrm{i}\mathrm{n}f\left(\right\{{L}_{j}^{m}\}, \{\mathrm{A}{\mathrm{P}}_{j}^{m}\left\}\right), j\in S $ | (7) |
不同尺度上的平衡优化效果直接影响分割模型的表现力和鲁棒性,为了避免不同尺度上的累计损失
$ f\left(\right\{{L}_{j}^{m}\}, \{\mathrm{A}{\mathrm{P}}_{j}^{m}\left\}\right)=\sigma \left(\right\{{L}_{j}^{m}\}\times \phi \{\mathrm{A}{\mathrm{P}}_{j}^{m}\left\}\right), j\in S $ | (8) |
本文使用进化算法作为搜索函数,即在每次迭代中从操作空间抽取
本文使用重采样方法通过对含有稀有类的图像进行重采样,能够在数据驱动方法的基础上进一步对稀有类数据进行扩充,提升了稀有类类别的采样频率,增加了模型的鲁棒性。
对于每个类别c,令
$ {r}_{c}=\mathrm{m}\mathrm{a}\mathrm{x}\left(1, \sqrt{t/{f}_{c}}\right) $ | (9) |
当
本文运用以下函数来进行均等化处理:
1)softmax交叉熵损失函数。softmax用在多分类过程中,它将多个神经元的输出映射到(0,1)区间内作为概率值。
$ {p}_{i}=\frac{{\mathrm{e}}^{z}j}{\sum \limits_{k}{\mathrm{e}}^{z}k} $ | (10) |
$ {L}_{\mathrm{s}\mathrm{c}\mathrm{e}}=-\sum \limits_{i=1}^{C}{\boldsymbol{y}}_{i}\mathrm{l}\mathrm{g}{p}_{i} $ | (11) |
$ {\boldsymbol{y}}_{i}=\left\{\begin{array}{c}1, i=c\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (12) |
在softmax交叉熵损失函数中,如果存在前景类别c,那么其可以被视为其他类别
当数据集中类别数量分布严重不平衡时,比如在长尾数据集中,频繁类的负梯度效应对稀有类有很大的影响,稀有类的学习总是被抑制。为了解决这一问题,本文引入了均等化损失函数,即对于稀有类别忽略频繁类别的样本梯度使神经网络对不同的类别公平地训练。
2)均等化损失函数。当数据集中图像类别的分布不平衡时,常用的交叉熵损失函数很容易忽略稀有类的学习。为此,本文使用一种均衡化损失函数,即在稀有类数据进行训练时主动忽略频繁类的梯度,以达到各类别数据均衡训练的目的。
在原交叉熵函数的基础上引入一个权重
$ {L}_{\mathrm{B}\mathrm{L}\mathrm{S}}=-\sum\limits _{i=1}^{c}{\varphi }_{i}\mathrm{l}\mathrm{g}\stackrel{\wedge }{{p}_{\mathrm{l}}} $ | (13) |
其中:c为数据集中类别的总数量;
$ {\varphi }_{i}=1-E\left(r\right){T}_{\tau }\left({f}_{i}\right)(1-{y}_{i}) $ | (14) |
其中:当
LVIS数据集是一个大规模细粒度词汇级标记数据集,包含164 000张图像,并针对超过1 000类物体进行了约200万个高质量的实例分割标注。根据每个类别包含图像的数量将这些类别分为3个大类:稀有类(1~10个图像),普通类(11~100个图像)和常见类(大于100个图像)。该数据集并非在未知类别标记的情况下收集,而是通过在收集图像以后根据图像中目标的自然分布来进行标注。大量的人工标注而非其他数据集的机器自动化标注可以使得数据集图像中自然存在的长尾分布被有效识别。
本文使用LVIS v0.5训练集进行训练,LVIS v0.5验证集进行测试。
3.1.2 自动增强方法的微调策略采用RetinaNet从LVIS的验证集中随机采样5 000张图像用于在搜索期间进行评估,训练集中抽取57 000张图像用于子模型训练,测试集中抽取20 000张图像用于最后的评估。每个子模型都针对普通模型进行1 000次迭代微调,普通模型只是一个任意部分训练的基线模型。在进化搜索中,进化过程重复10次迭代。迭代模型大小为50个,选取前10个模型作为后代的父本。
在LVIS数据集的预训练和微调设计中,使用搜索的增强策略对模型进行训练。调整训练图像的大小,使其较短的尺寸为800像素,长边不超过1 333像素。多尺度训练基线通过在训练过程中随机选择范围为640~800像素的尺寸来增强。
3.1.3 均等化损失函数使用带有FPN的标准Mask R-CNN作为基准模型,对图片进行增强处理。在第1阶段,RPN以前景和背景为1∶1的比例采集256个锚点;在第2阶段,以前景和背景为1∶3的比例采集每幅图像512个proposals。使用8个GPU,总共16个批量用于训练。采用随机梯度下降优化模型,在25个周期内动量衰减0.9,权值衰减0.000 1,初始学习率为0.02,分别在16 epoch和22 epoch衰减到0.004和0.000 4。虽然特定类别掩码预测的性能较好,但由于大规模类别的巨大内存和计算成本,因此本文采用类别不可知机制。在LVIS之后,预测分数的阈值从0.05降低到0.0,保留top300个边界框作为预测结果。如果它们在正类别中,则均衡化损失函数中的类别将不会忽略该图像的集合或负类别集。对于这些类别,式(14)的权重项将为1。
3.2 实验结果本文通过LVIS数据集来分析实验结果,训练阶段使用数据驱动、均等化损失函数及重采样方法。指标
![]() |
下载CSV 表 2 总体实验结果 Table 2 The overall experimental results |
此外,本文对
可视化效果如图 4所示,可以看出,Mask R-CNN和Forest R-CNN出现了识别错误、掩膜边缘准确率较差的问题,如图 4(b)错误地将食物识别为“carrot”类。图 4(c)Forest R-CNN未识别出稀有类“pizza”,Mask R-CNN将“pizza”识别为“carrot”。本文方法成功地识别出了图 4(c)的稀有类“jean”,并且识别出了前两种方法未识别出的“helmet”类。综上所述,本文方法可对稀有类数据进行有效地检测和分割。
![]() |
Download:
|
图 4 可视化实验结果 Fig. 4 Visualization experimental results |
本文对各种方法进行了消融实验,如表 3所示,其中,*表示只用数据增强,**表示只用均等化损失函数,***表示既使用数据增强又使用均等化损失函数。首先,对使用的目标级尺度图像增强进行系统评估。在ResNet50骨干网络上,本文方法将多尺度训练基线提高了22.6%,
![]() |
下载CSV 表 3 消融实验结果 Table 3 Ablation experimental results |
其次,对均等化损失函数的作用效果进行评估。表 3展示了均衡损失函数在不同主干和框架上的有效性。可以看出,改进主要来自于稀有和常见的类别,在ResNet50骨干网络上,
最后,对均等化损失函数和目标级数据驱动方法相结合的有效性进行分析。在ResNet50骨干网络上,
本文分析了长尾数据集中存在的类别不平衡问题以及常规神经网络对长尾数据集的不适应性,提出一种目标级的数据驱动方法,并在该方法基础上融入均衡损失函数,以解决稀有类数据匮乏对检测结果造成的影响。同时,在训练中加入了重采样方法,提升检测模型的鲁棒性,以对稀有类数据驱动方法进行补充,实验结果表明了本文方法的有效性。下一步将从神经网络后处理中的置信度角度出发,研究数据的长尾分布在实例分割中的归一化校准方法,在计算量更小的前提下提升稀有类别分割的准确率。
[1] |
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of IEEE ECCVʼ14. Washington D.C., USA: IEEE Press, 2014: 740-755.
|
[2] |
CUI Y, JIA M L, LIN T Y, et al. Class-balanced loss based on effective number of samples[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 9260-9269.
|
[3] |
BUDA M, MAKI A, MAZUROWSKI M A. A systematic study of the class imbalance problem in convolutional neural networks[J]. Neural Networks, 2018, 106: 249-259. DOI:10.1016/j.neunet.2018.07.011 |
[4] |
QI L, JIANG L, LIU S, et al. Amodal instance segmentation with KINS dataset[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 3009-3018.
|
[5] |
CUBUK E D, ZOPH B, MANÉ D, et al. AutoAugment: learning augmentation strategies from data[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 113-123.
|
[6] |
ZOPH B, CUBUK E D, GHIASI G, et al. Learning data augmentation strategies for object detection[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 566-583.
|
[7] |
MORE A. Survey of resampling techniques for improving classification performance in unbalanced datasets[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1608.06048.
|
[8] |
KANG B, XIE S, ROHRBACH M, et al. Decoupling representation and classifier for long-tailed recognition[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1910.09217.
|
[9] |
ZHOU B Y, CUI Q, WEI X S, et al. BBN: bilateral-branch network with cumulative learning for long-tailed visual recognition[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 9716-9725.
|
[10] |
SATO I, NISHIMURA H, YOKOI K. APAC: augmented pattern classification with neural networks[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1505.03229.
|
[11] |
ZHANG H, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1710.09412.
|
[12] |
ZHANG Z, HE T, ZHANG H, et al. Bag of freebies for training object detection neural networks[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1902.04103.
|
[13] |
HATAYA R, ZDENEK J, YOSHIZOE K, et al. Faster AutoAugment: learning augmentation strategies using backpropagation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 1-16.
|
[14] |
彭玉青, 刘宪姿, 袁宏涛, 等. 用于场景识别的多尺度注意力网络[J]. 传感器与微系统, 2021, 40(7): 43-47. PENG Y Q, LIU X Z, YUAN H T, et al. Multi-scale attention network for scene recognition[J]. Transducer and Microsystem Technologies, 2021, 40(7): 43-47. (in Chinese) |
[15] |
SINGH B, NAJIBI M, DAVIS L S. SNIPER: efficient multi-scale training[EB/OL]. [2021-12-01]. https://arxiv.org/abs/1805.09300.
|
[16] |
CHEN Y, ZHANG P, LI Z, et al. Stitcher: feedback-driven data provider for object detection[EB/OL]. [2021-12-01]. https://arxiv.org/abs/2004.12432.
|
[17] |
张翠文, 张长伦, 何强, 等. 目标检测中框回归损失函数的研究[J]. 计算机工程与应用, 2021, 57(20): 97-103. ZHANG C W, ZHANG C L, HE Q, et al. Research on loss function of box regression in object detection[J]. Computer Engineering and Applications, 2021, 57(20): 97-103. (in Chinese) |
[18] |
JAMAL M A, BROWN M, YANG M H, et al. Rethinking class-balanced methods for long-tailed visual recognition from a domain adaptation perspective[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 7607-7616.
|
[19] |
CHOU H P, CHANG S C, PAN J Y, et al. Remix: rebalanced mixup[EB/OL]. [2021-12-01]. https://arxiv.org/abs/2007.03943.
|
[20] |
LIU Z W, MIAO Z Q, ZHAN X H, et al. Large-scale long-tailed recognition in an open world[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 2532-2541.
|
[21] |
DRUMNOND C. Class imbalance and cost sensitivity: why undersampling beats oversampling[C]//Proceedings of IEEE ICML-KDDʼ03. Washington D.C., USA: IEEE Press, 2003: 3-13.
|
[22] |
HUANG C, LI Y N, LOY C C, et al. Learning deep representation for imbalanced classification[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 5375-5384.
|
[23] |
OKSUZ K, CAM B C, AKBAS E, et al. Rank & sort loss for object detection and instance segmentation[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2021: 2989-2998.
|
[24] |
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 |
[25] |
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2999-3007.
|
[26] |
BLACK J, HASHIMZADE N, MYLES G. A Dictionary of Economics[M]. Oxford, UK: Oxford University Press, 2017.
|
[27] |
WU J L, SONG L C, WANG T C, et al. Forest R-CNN: large-vocabulary long-tailed object detection and instance segmentation[C]//Proceedings of the 28th ACM International Conference on Multimedia. New York, USA: ACM Press, 2020: 1570-1578.
|