基于最大最小距离的多中心数据综合增强方法

引用本文

曹瑞阳, 郭佑民, 牛满宇. 基于最大最小距离的多中心数据综合增强方法[J]. 计算机工程, 2022, 48(6), 174-181. DOI: 10.19678/j.issn.1000-3428.0062241.

CAO Ruiyang, GUO Youmin, NIU Manyu. Integrated Enhancement Method for Multi-Center Data Based on Max-Min Distance[J]. Computer Engineering, 2022, 48(6), 174-181. DOI: 10.19678/j.issn.1000-3428.0062241.

基金项目

国家自然科学基金（72061021）

作者简介

曹瑞阳（1995—），男，硕士研究生，主研方向为数据分析;
郭佑民，教授;
牛满宇，硕士研究生

文章历史

收稿日期：2021-08-01
修回日期：2021-09-27

Contents Abstract Full text Figures/Tables PDF

基于最大最小距离的多中心数据综合增强方法

曹瑞阳 , 郭佑民 , 牛满宇

兰州交通大学机电技术研究所, 兰州 730070

收稿日期：2021-08-01；修回日期：2021-09-27

基金项目：国家自然科学基金（72061021）

作者简介：曹瑞阳（1995—），男，硕士研究生，主研方向为数据分析; 郭佑民，教授; 牛满宇，硕士研究生.

E-mail: 491290651@qq.com

摘要：数据增强是解决数据集不平衡的有效方法，针对现有的数据增强方法存在生成样本越界和随机性差的问题，提出一种基于最大最小距离的多中心数据增强方法MCA。通过计算所有样本的加权密度，减少离群点对最终分类结果的影响，同时将抽样方法与最大最小距离算法相结合选择最优的数据，生成多中心点集，避免生成结果出现样本类别越界的情况，从而拓展样本数据的多样性，并且降低时间复杂度。在此基础上，根据样本的相似性构建权重函数，计算加权平均生成新的样本，解决原有数据集不平衡的问题。在SwedishLeaf数据集和实测数据集上进行实验，结果表明，相比SMOTE、Easy Ensemble、RR等方法，该方法的精确率和召回率均提高了1.17%以上，F1值提高了2%以上，能够有效提高泛化能力，在少数类和多数类样本不平衡率较高的情况下具有较优的分类性能。

Integrated Enhancement Method for Multi-Center Data Based on Max-Min Distance

CAO Ruiyang , GUO Youmin , NIU Manyu

Mechatronics T&R Institute, Lanzhou Jiaotong University, Lanzhou 730070, China

Abstract: Data enhancement is an effective method for solving the imbalance in datasets.The existing data enhancement methods, however, generate samples transgression and show poor randomness of generated samples.Accordingly, in this study, a multi-center data enhancement method MCA is proposed based on max-min distance.By calculating the weighted density of all samples, the influence of outliers on the final classification results is reduced.At the same time, the sampling method is combined with the max-min distance algorithm to select the optimal data and generate a multi-center point set to avoid the sample categories transgression in the generated results.Consequently, the diversity of sample data is expanded and the time complexity is reduced.The weight function is constructed according to the similarity of samples, and the weighted average is calculated to generate new samples to solve the imbalance of the original dataset.Experiments are performed on the SwedishLeaf dataset and the measured dataset.The results show that compared with SMOTE, Easy Ensemble, RR, and other methods, the accuracy and recall of this method improved by more than 1.17%, and the F1 value exceeded 2%.The proposed method can effectively improve the generalization ability and has better classification effect in the case of high imbalance rate of a few classes and most classes.

开放科学（资源服务）标志码（OSID）：

0 概述

随着大数据技术的快速发展，以大数据为基础的数据分析方法进入了一个全新阶段^[1]。在大数据环境下构建并训练的深度学习模型具有较优的性能。然而，数据量的缺乏^[2-3]使得深度学习模型训练不充分，导致模型的泛化性能降低^[4]。对于这种过拟合现象的发生^[5]，正则化方法或简单收集更多的标记数据^[6]能够增加数据量。此外，数据增强技术^[7-8]通过特定的方法生成合成数据，通过对图像进行翻转^[9-11]、旋转^[12]、镜像^[13]、高斯白噪声等技巧，实现数据增强，广泛应用于图像领域^[14-15]。

在其他领域中也有相应的数据增强方法^[16-17]。文献[18]采用随机设置部分信息缺失和增加噪声的方式对原有数据集进行扩充，在信息缺失和含噪声的情况下提高模型的鲁棒性，但是填充的数据量不好控制。如果填充的数据太少，则几乎不会改变原有数据集的分布，如果被扩充得太多，模型在该增强数据集下的检测效果呈现降低的趋势。文献[19]采用合成少数类过采样技术（Synthetic Minority Oversampling Technique，SMOTE）对少数类样本进行过采样操作，通过ENN（Edited Nearest Neighbor）算法剔除不符合要求的噪声数据。该方法能够有效解决数据不平衡所带来的问题。因SMOTE算法存在一定的不足，多数类样本和少数类样本的边界出现模糊现象，使得检测的难度加大，甚至存在数据生成越界的问题。文献[20]通过时域重采样、能量变化、随机零填充这3个步骤模拟数据，以提高模型的精确率，但是因对截止频率和重采样率有所限制，导致所产生模拟信号的多样性也受到了一定的限制。

现有的数据增强方法在时间序列分类方面的数据增强有限。文献[21]提出时间序列数据增强技术，能够有效解决数据增强在深度学习模型分类中存在的问题。在数据增强过程中，将所有训练集作为中心数据，延长模型的计算时间，同时由于某些中心数据选取不合适造成生成的新数据样本类别存在偏差，或者生成数据中心靠近边界，易受离散点的影响，导致生成数据越界现象的发生。在整个过程中固定近邻数k及权重函数，即生成数据所用样本的权重不变，在生成样本数据的多样性方面存在一定不足。

本文提出一种基于最大最小距离的多中心数据增强方法。通过加权密度减少离群点对最终结果的影响，将抽样方法与最大最小距离算法相结合得到多生成中心，避免了生成结果出现样本类别越界的情况。在此基础上，根据样本的相似性构建权重函数，计算加权平均得到新的样本，拓展样本数据的多样性。

1 基本概念 1.1 最大最小距离准则

最大最小距离准则^[22]是基于欧氏距离，在最大程度上选取尽可能远的样本点作为生成中心，从而避免产生初始中心过于近邻的情况。数据生成类别越界示意图如图 1所示。

	Download: JPG larger image
图 1 数据生成类别越界示意图 Fig. 1 Schematic diagram of data generation categories transgression

最大最小距离算法的基本原理是首先从样本中选择1个任意样本点$ {v}_{1} $，并将其作为数据生成中心，选择距离$ {v}_{1} $最远的样本点$ {v}_{2} $作为另一个生成中心，然后再选择剩余$ l(l > 2) $时的中心点，分别计算剩余样本点到之前中心点的欧氏距离，将距离最小值依次放入集合中，同时下一个中心点为集合中最大值所对应的样本点，以此重复计算剩余所需要的中心点，过程如式（1）所示：

$ \begin{array}{l}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{l}=\\ \mathrm{m}\mathrm{a}\mathrm{x}\left\{\mathrm{m}\mathrm{i}\mathrm{n}\left(\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i1}, \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i2}, \cdots , \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{in}\right)\right\}(l, i=\mathrm{1, 2}, \cdots , n)\end{array} $

(1)

其中：$ \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i1} $和$ \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i2} $分别为样本$ i $到$ {v}_{1} $和$ {v}_{2} $的欧氏距离。

1.2 最大最小距离算法改进

最大最小距离算法可以有效地解决数据生成中心处于边界的问题，从而避免出现生成样本越界的情况。传统SMOTE算法对少数类样本进行分析和模拟后，在其近邻进行随机线性插值。如果该少数类样本位于边界处，那么随机生成的新样本就有可能出现越界的情况，而引入最大最小距离准则会重新选择生成中心。在第1次计算过程中选取了最大的距离，在之后的计算过程中生成中心会向更小的距离接近，使得最远少数类样本点成为生成中心范围的边界，从而将最远边界控制在最远的少数类样本点之内，使得生成中心始终不会出现越界的情况，同时也带来了最大最小距离算法自身的缺点。最大最小距离算法在运行过程中要遍历两遍数据库，如果数据库很大，那么需要的计算时间将会延长。针对上述问题，本文考虑将抽样方法与最大最小距离算法相结合，通过简单随机抽样方法^[23]提取原始数据库的主要特征，采用最大最小距离算法从抽样后的数据集中选取数据生成中心$ {G}_{1} $，重复该步骤得到生成中心$ {G}_{1}, {G}_{2}, \cdots , {G}_{n} $，经过多次抽样后得到多中心的数据生成中心集合$ G $。原始数据集采样过程示意图如图 2所示。

	Download: JPG larger image
图 2 原始数据集采样过程 Fig. 2 Sampling process of original dataset

设数据库的规模个数为$ {10}^{5} $，直接采用最大最小距离算法对数据库进行计算，所需计算次数为$ 2k\times {10}^{5} $。假设样本集的大小为$ {10}^{3} $，采用最大最小距离算法对单个样本集进行计算，计算次数为$ 2k\times {10}^{3} $。如果进行10次抽样，则共需的计算次数为$ 2k\times {10}^{4} $，计算次数仅为前者的1/10。

简单随机抽样使得每个对象在总体中被抽到的概率相等，且每个样本集的数据生成中心点集都不同，极大丰富了数据的随机性和多样性。如果随机性过高会导致抽样样本分布不均匀。为保证一定的抽样精度，简单随机抽样必须进行多次抽样。

1.3 DTW算法

动态时间规整（Dynamic Time Warping，DTW）算法是一个典型的优化问题，可以衡量2个不同长度的时间序列相似度。

DTW对序列$ A $和$ B $定义为$ A=({a}_{1}, {a}_{2}, \cdots , {a}_{m}) $和$ B=({b}_{1}, {b}_{2}, \cdots , {b}_{n}) $。动态规整路径$ W=({w}_{1}, {w}_{2}, \cdots , {w}_{k}), $ $ \mathrm{m}\mathrm{a}\mathrm{x}(m, n)\le K\le m+n-1 $。其中：$ {w}_{k} $对应同步点$ {(x, y)}_{k}, $ $ k=\mathrm{1, 2}, \cdots , k $；$ x $表示序列$ A $元素的索引；$ y $表示序列$ B $元素的索引。动态规整路径需满足$ A $和$ B $序列上所有元素的索引与规整路径相一致，且$ {w}_{1}=\left(\mathrm{1, 1}\right), {w}_{k}=(m, n) $。假如某路径已经处于同步点$ (x, y) $之后，那么该路径下一步只能通过点$ (x+1, y) $、$ (x, y+1) $、$ (x+1, y+1) $，满足条件的路径个数为指数。动态时间规整的目的是用最少的代价找出与目标最相近的路径，其表达式如式（2）所示：

$ \mathrm{D}\mathrm{T}\mathrm{W}(A, B)=\mathrm{m}\mathrm{i}{\mathrm{n}}_{w}\sum\limits _{k=1}^{k}d\left({w}_{k}\right) $

(2)

最小代价路径可以通过累计距离来计算得到，累积距离如式（3）所示：

$ r(i, j)=\mathrm{m}\mathrm{i}\mathrm{n}\left(r\right(i-1, j-1), r(i-1, j), r(i, j-1\left)\right)+d(i, j) $

(3)

其中：$ d(x, y) $为$ {a}_{x} $与$ {b}_{y} $之间的距离。在该约束条件下最短的规整路径所对应的累计距离，便是所求2个序列之间的DTW距离。

2 本文方法

本文提出一种基于最大最小距离的数据增强方法MCA，基本原理是首先计算所有样本的加权密度，以排除离群点的影响，通过改进的最大最小距离算法得到中心点集G，尽可能保留有效特征；其次在每个备选中心点集中找出中心数据的k个近邻对近邻样本和非近邻样本进行赋权；最后利用加权算法计算选取样本的加权，以得到新的合成数据。

2.1 样本密度的计算

本文需要对各样本点的密度进行从大到小的排序，以减少MCA方法的时间复杂度。样本$ {x}_{i} $的密度计算如式（4）和式（5）所示：

$ {\rho }_{i}=\sum\limits _{j}^{}X({d}_{ij}-{d}_{c}) $

(4)

$ X({d}_{ij}-{d}_{c})=\left\{\begin{array}{l}1, {d}_{ij}-{d}_{c} < 0\\ 0, {d}_{ij}-{d}_{c}\ge 0\end{array}\right. $

(5)

其中：$ {d}_{ij} $为样本$ {x}_{i} $与样本$ {x}_{j} $之间的距离；$ {d}_{c} $为设置的阈值；$ {\rho }_{i} $为落入以$ {x}_{i} $为圆心和以$ {d}_{c} $为半径的圆内样本数量。

2.2 所有样本点的平均距离

加权的欧氏距离如式（6）所示：

$ \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}({x}_{i}, {x}_{j})=\sqrt{\sum\limits _{i=1}^{m}{w}_{id}{\left|{x}_{il}-{x}_{jl}\right|}^{2}} $

(6)

其中：$ \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}({x}_{i}, {x}_{j}) $为样本$ {x}_{i} $和$ {x}_{j} $在$ m $维空间下的加权欧氏距离；$ {x}_{il} $和$ {x}_{jl} $分别为在空间$ l $维下的样本$ {x}_{i} $和$ {x}_{j} $；$ m $、$ l $为空间维数。

所有样本点的平均欧氏距离如式（7）所示：

$ \mathrm{a}\mathrm{v}\mathrm{g}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}=\frac{1}{n(n-1)}\sum\limits _{i=1}^{n}\sum\limits _{j=1}^{n}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}({x}_{i}, {x}_{j}) $

(7)

2.3 样本容量选择

本文从总体样本中抽取具有代表性的样本^[24]，使得统计推断更加可靠。表 1是样本容量选取的参数。

下载CSV 表 1 样本容量选取的参数 Table 1 Parameters of sample size selection

在估算样本容量时需要给定抽样精度，一般用$ (\alpha , \varepsilon ) $精度来表示，即在置信概率$ 1-\alpha $下总体平均数$ \overline{Y} $的置信区间长度不超过2$ \varepsilon $。在总体平均数的置信区间中，当n无限大时，$ \overline{y} $近似服从正态分布，如式（8）和式（9）所示：

$ \overline{y}~N(\overline{Y}, s(\overline{y}\left)\right) $

(8)

$ (\overline{y}-\overline{Y})/s\left(\overline{y}\right)~N\left(\mathrm{0, 1}\right) $

(9)

因此，当$ 0 < \alpha < 1 $时，置信概率如式（10）所示：

$ 1-\alpha =P\left\{\left|\overline{y}-\overline{Y}/s\left(\overline{y}\right) < {u}_{\alpha }\right|\right\}=\\ \;\;\;\;\;\;\;\;\;P\left\{\overline{y}-{u}_{\alpha }s\left(\overline{y}\right) < \overline{Y} < \overline{y}+{u}_{\alpha }s\left(\overline{y}\right)\right\} $

(10)

即$ \overline{Y} $在置信概率$ 1-\alpha $下的置信区间近似为：

$ \overline{y}-{u}_{\alpha }s\left(\overline{y}\right) < \overline{Y} < \overline{y}+{u}_{\alpha }s\left(\overline{y}\right) $

(11)

$ {u}_{\alpha } $定义为：

$ 1-\phi \left({u}_{\alpha }\right)=\alpha /\mathrm{2, 0} < \alpha < 1 $

(12)

其中：$ \varphi $为标准正态分布$ N\left(\mathrm{0, 1}\right) $的分布函数。

由式（11）可知，$ (\alpha , \varepsilon ) $精度等价于：

$ V\left(\overline{y}\right)\le (\varepsilon /{u}_{\alpha }{)}^{2} $

(13)

根据简单随机抽样原理，$ \overline{y} $的方差如式（14）所示：

$ V\left(\overline{y}\right)=\left(\frac{1}{n}-\frac{1}{N}\right){S}^{2} $

(14)

由式（13）和式（14）可得：

$ \left(\frac{1}{n}-\frac{1}{N}\right){S}^{2}\le (\varepsilon /{u}_{\alpha }{)}^{2} $

(15)

因此，样本容量n的取值如式（16）所示：

$ n\ge \frac{1}{{\left(\frac{\varepsilon }{{u}_{\alpha }S}\right)}^{2}+\frac{1}{N}} $

(16)

在相同的总体容量中，用户可根据需求设定不同的置信区间和抽样误差。抽样误差和置信区间设置越小，所需的样本容量就越大。当总体容量增加超过一定阈值时，总体对样本容量的影响基本可以忽略不计。

2.4 权重选择

本文对权重进行赋值，选定时间序列$ T\mathrm{*} $和其最近邻，如果时间序列数据相对远离$ T\mathrm{*} $及其最近邻，则权重相对较低。本文随机选择一个中心时间序列$ T\mathrm{*} $，构建近邻相似权重，如式（17）所示：

$ {w}_{i}={\mathrm{e}}^{-\frac{\mathrm{D}\mathrm{T}\mathrm{W}({T}_{i}, T\mathrm{*})}{\sigma }} $

(17)

虽然式（17）描述了连接$ {T}_{i} $与$ T\mathrm{*} $的权重，但是未考虑$ {T}_{i} $与$ T\mathrm{*} $的相关性，因此，相关权重的计算如式（18）所示：

$ {V}_{i}=\frac{{w}_{i}}{\sum\limits _{j\in \mathrm{n}\mathrm{e}\left(T\mathrm{*}\right)}{w}_{j}} $

(18)

其中：$ \mathrm{n}\mathrm{e}\left(T\mathrm{*}\right) $为$ {T}_{i} $的$ k $近邻。剩余样本权重的计算如式（19）所示：

$ {W}_{i}={\mathrm{e}}^{-\frac{\mathrm{D}\mathrm{T}\mathrm{W}({T}_{i}, T\mathrm{*})}{d{\mathrm{*}}_{NN}}} $

(19)

其中：$ d{\mathrm{*}}_{NN} $为$ T\mathrm{*} $与其近邻之间的最小距离。

2.5 MCA方法流程

MCA方法将样本集X作为输入，数据增强后的数据集作为输出。MCA方法流程如图 3所示，通过计算所有点的密度，剔除离群点，利用简单随机抽样获得小样本数据集，同时对小样本集运用最大最小距离算法得到生成中心，根据样本相似性构建权重函数，得到新的生成样本。

	Download: JPG larger image
图 3 MCA方法流程 Fig. 3 Procedure of MCA method

2.6 深度残差网络

深度神经网络层数的加深不仅会导致出现过量的参数，还会引起网络退化。然而残差模块的引入就是为了解决网络退化的问题。深度残差网络^[25]包括卷积层、池化层和全连接层等，其结构与深度神经网络结构类似。卷积层由含有若干可学习参数的卷积核构成，主要对局部信息进行计算，因此降低了计算量。池化层对主要信息进行降维处理，使原本高维计算变为低维数据的计算，有效地降低了计算量，在一定程度上避免了过拟合现象的发生。全连接层经过分类计算后，全连接层会对结果进行分类处理。

残差网络通过添加快捷连接作为恒等映射，使得网络性能不会退化。残差单元的示意图如图 4所示。

	Download: JPG larger image
图 4 残差单元示意图 Fig. 4 Schematic diagram of residual unit

图 4中残差单元的输入为$ x $，残差单元中各层的参数为$ W $。残差单元主要由2个卷积层组成，这2个卷积层的输出$ F（） $表示需要学习的残差函数。跨层快捷连接和残差函数则共同构成残差单元的输出$ y $，如式（20）和式（21）所示：

$ y=F(x, W)+x $

(20)

$ F(x, W)={W}_{2}\sigma \left({W}_{1}x\right) $

(21)

其中：$ \sigma （） $为激活函数，选用线性整流单元（Rectified Linear Unit，ReLU）作为激活函数。激活函数使输入的线性组合变为非线性组合，从而解决模型梯度消失的问题，如式（22）所示：

$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(r\right)=\mathrm{m}\mathrm{a}\mathrm{x}(0, r) $

(22)

ReLU的输入为$ r $，对应上一层网络的输出，ReLU输出结果为$ r $与0的相对最大值。本文构建的深度残差网络用于检测生成数据的分类结果，其结构如图 5所示。

	Download: JPG larger image
图 5 深度残差网络结构 Fig. 5 Structure of deep residual network

从图 5可以看出，深度残差网络由卷积层、池化层和全连接层构成，激活函数为ReLU函数，在一定程度上避免出现梯度消失的现象，且使得特征在层间传递时取值范围不变。深度残差网络采用Adma算法优化目标损失函数，其中基础学习率设置为0.1，衰减率为0.9，损失函数如式（23）所示：

$ \mathrm{C}\mathrm{E}(p, y)=\left\{\begin{array}{l}-\mathrm{l}\mathrm{g}\;p, \;y=1\\ -\mathrm{l}\mathrm{g}(1-p), \mathrm{其}\mathrm{他}\end{array}\right. $

(23)

其中：$ p $为softmax函数的输出概率值；$ y $为样本的真实标签。在本文中，少数类样本标签为1，多数类样本标签为0。在实测数据集中轴箱振动异常样本的真实标签为1，无异常状态样本的真实标签为0。

3 实验结果与分析 3.1 数据集

为检测MCA方法的性能，本文选取UCR数据库中的SwedishLeaf数据集和某高铁轴箱振动实测数据集进行实验。实测数据集为安装在高铁轴箱上振动传感器采集的数据，用于分析检测轨道平整度，同时选取领域内常用的过采样合成数据方法（SMOTE）、下采样的代表方法（Easy Ensemble）、随机简单复制样本（RR）、保结构过采样（INOS）、模型空间学习过采样（MK）及DTW数据增强方法进行对比。数据集描述如表 2所示。

下载CSV 表 2 数据集描述 Table 2 Dataset description

3.2 实验环境

本文实验采用的软件配置为64位window10的操作系统，开发工具采用PyCharm运行所提出的算法，运行环境为Intel^® Core^TM i5-7200U CPU，2.50 GHz，8.00 GB。

3.3 样本容量的计算

样本容量是决定数据信息正确和计算效率的重要因素之一。样本容量越大，正确率越高，但效率会降低；样本容量越小，正确率越低，但效率会提高。本文对2.3节提出的公式进行定量分析，从SwedishLeaf数据集中任选1 000条数据，设置抽样误差为0.1，计算总体方差为0.368 2，利用式（16）计算在不同总体个数$ N $发生变化时所对应的样本容量$ n $的变化情况。样本容量计算结果如表 3所示。

下载CSV 表 3 样本容量计算结果 Table 3 Calculation results of sample size

从表 3可以看出，在确定方差和抽样精度后，总体个数N越大，所需的样本容量n所占总体的比例越小。在置信度设置为90%的情况下，当N为100时，n所占的比例约为51%；当N为600时，n所占的比例约为15%；当N为10 000时，n所占的比例约为1%。在置信度设为95的情况下，当N为100时，n所占的比例约为60%；当N为600时，n所占的比例约为20%；当N为10 000时，n所占的比例约为1.5%。当置信度设置更高时，需要更多的样本容量来支持，抽样精度也需要相应的提高。当N达到一定阈值时，再增加N的量，n的增长呈现缓慢趋势。因此，超过一定阈值的总体个数对样本容量的影响趋向于0。

3.4 采样结果可视化

本文对不同的数据增强方法进行可视化分析，直观地展示采样后样本的分布情况。由于本文所采用的数据集维度较高，难以直接可视化，因此采取主成分分析（Principal Component Analysis，PCA）方法进行降维处理，选取贡献率排前2的主成分，并在平面空间上进行结果可视化。在SwedishLeaf数据集上时序采样可视化结果如图 6所示。实心点表示多数类样本，空心点表示少数类样本。

	Download: JPG larger image
图 6 时序采样可视化结果 Fig. 6 Visualization results of timing sampling

从图 6可以看出，SwedishLeaf训练集由1个少数类样本和14个多数类样本组成，按照少数类和多数类1∶14的关系随机选取30条样本数据，并采用不同方法均生成15个样本。不同方法的采样结果分析如下：

1）RR方法仅通过随机复制少数类样本来平衡数据集，导致新生成的少数类样本与原少数类样本几乎完全重合。该方法对数据集信息量的扩充没有作用。

2）SMOTE方法在原少数类样本周边均匀生成新的样本，生成的样本容易靠近边界，且在近邻选择时多数类样本和少数类样本的区别较模糊。

3）Easy Ensemble方法剔除了信息量较少的数据，尽可能保留更多的有效信息，由于未考虑一些偏远点对结果的影响，生成的样本较原数据集中，缺少随机性。

4）本文提出的MCA方法首先计算样本密度，排除噪声点的干扰，同时将最大最小距离算法与抽样方法相结合确定多生成中心，使得生成中心也远离边界，不会造成生成样本边缘化的问题，同时通过多次抽样提高样本的随机性，采用样本加权随机分配权重，使得生成样本序列多样性更丰富。

3.5 实验结果

在SwedishLeaf数据集的少数类样本和多数类样本不平衡率（IR）下，不同方法的分类精度、召回率对比如图 7和图 8所示。

	Download: JPG larger image
图 7 在SwedishLeaf数据集上不同方法的精确率对比 Fig. 7 Precision comparison among different methods on SwedishLeaf dataset

	Download: JPG larger image
图 8 在SwedishLeaf数据集上不同方法的召回率对比 Fig. 8 Recall comparison among different methods on SwedishLeaf dataset

从图 7和图 8可以看出，在SwedishLeaf数据集上，MCA方法的精确率相较于其他6种数据增强方法提高了7%~18%，召回率提高了4%~15%。MCA数据增强方法较未进行增强前相比，精确度和召回率分别提高18%和15%，说明数据增强可以有效地提高数据集的分类准确度。相比SMOTE方法，MCA方法的精确率和召回率分别提高约6.7%和6%。SMOTE方法只是在少数类样本周边生成新样本，未考虑整体样本的信息，在少数类样本的周围增加无用的噪声点，且可能出现样本越界的情况，从而影响分类结果。与Easy Ensemble方法相比，MCA方法的精确率和召回率分别提高了约8.9%和8%。Easy Ensemble方法采用降采样选取有效的样本子集，减少了整体数据量，导致模型训练量不够充分且整体数据量越小，降低了分类效果。相比RR、INOS、MK方法，MCA方法的精确率和召回率分别提高了5.9%和7%。RR方法通过简单复制样本，生成的数据多样性较差，因此分类精度提升幅度较小。相比DTW方法，MCA方法精确率和召回率分别提高了约1.17%和2%。

为进一步验证MCA方法的有效性，在SwedishLeaf数据集上不同增强方法的F1值对比如图 9所示。在相同的不平衡率下，MCA方法的F1值最高。在不平衡率较高的情况下，MCA方法与其他方法相比提高了2%左右。

	Download: JPG larger image
图 9 在SwedishLeaf数据集上不同方法的F1值对比 Fig. 9 F1 values comparison among different methods on SwedishLeaf dataset

在实测数据集上MCA方法与其他6种方法的精确率和召回率对比如图 10和图 11所示。从图 10和图 11可以看出，在实测数据集上MCA方法与6种数据增强方法相比，精确率、召回率均有大幅提升。相比Easy Ensemble、SMOTE和RR方法，MCA方法的精确率提高5%左右，由于MCA方法解决了生成数据样本类别越界的问题，提高了模型的训练准确率。MCA方法与其他方法相比分类效果有很大提升，尤其是召回率提高了2%~6%。

	Download: JPG larger image
图 10 在实测数据集上不同方法的精确率对比 Fig. 10 Precision comparison among different methods on measured dataset

	Download: JPG larger image
图 11 在实测数据集上不同方法的召回率对比 Fig. 11 Recall comparison among different methods on measured dataset

在实测数据集上不同方法F1值对比如图 12所示。从图 12可以看出，MCA方法与其他方法相比F1值提高了2%~5%，当不平衡率较大时，F1值的提升速度最快，说明MCA方法在不平衡率较大的数据集上仍具有较优的分类结果，适应不平衡数据的分类。

	Download: JPG larger image
图 12 在实测数据集上不同方法的F1值对比 Fig. 12 F1 values comparison among different methods on measured dataset

4 结束语

本文提出一种基于最大最小距离的数据增强方法，通过考虑加权密度对排除离群点的影响，将抽样方法与最大最小距离算法相结合选取多中心，优化生成数据的中心，同时结合样本加权对多中心样本重新赋权，有效地增加生成数据的随机性。在UCR数据集和实测数据集上的实验结果表明，相比SMOTE、Easy Ensemble、RR等方法，本文方法具有较高的精确率，并且在不平衡率较高的情况下具有较优的分类效果。下一步将通过对抽样方法和原始数据信息提取的问题进行研究，提高增强后数据集的分类精确度。

参考文献

[1]	HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1-10.
[2]	HOARE D, GRAHAM N, SCHÖN P J. The Irish Sea data-enhancement project: comparison of self-sampling and national data-collection programmes—results and experiences[J]. ICES Journal of Marine Science, 2011, 68(8): 1778-1784. DOI:10.1093/icesjms/fsr100
[3]	HU J, SHEN L, ALBANIE S, et al. Gather-excite: exploiting feature context in convolutional neural networks[EB/OL]. [2021-06-29]. https://arxiv.org/pdf/1810.12348.pdf.
[4]	TONY B, GIUSEPPE B, ANDREAS B, et al. Machine learning for clinical chemists[J]. Clinical Chemistry, 2019, 65(11): 1350-1356. DOI:10.1373/clinchem.2019.307512
[5]	FARIS P D, GHALI W A, BRANT R, et al. Multiple imputation versus data enhancement for dealing with missing data in observational health care outcome analyses[J]. Journal of Clinical Epidemiology, 2002, 55(2): 184-191. DOI:10.1016/S0895-4356(01)00433-4
[6]	RUBIN J, PARVANEH S, RAHMAN A, et al. Densely connected convolutional networks and signal quality analysis to detect atrial fibrillation using short single-lead ECG recordings[EB/OL]. [2021-06-29]. https://arxiv.org/ftp/arxiv/papers/1710/1710.05817.pdf.
[7]	王海文. 基于生成式对抗网络的数据增强方法研究[D]. 南京: 南京邮电大学, 2019. WANG H W. Data augmentation based on generative adversarial networks[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019. (in Chinese)
[8]	肖小霞. 行人重识别中数据增强技术研究[D]. 成都: 电子科技大学, 2020. XIAO X X. Research on data enhancement technology in pedestrian recognition[D]. Chengdu: University of Electronic Science and Technology of China, 2020. (in Chinese)
[9]	暴雨轩, 芦天亮, 杜彦辉, 等. 基于iResNet34模型和数据增强的深度伪造视频检测方法[J]. 计算机科学, 2021, 48(7): 77-85. BAO Y X, LU T L, DU Y H, et al. Deepfake videos detection method based on iResNet34 model and data augmentation[J]. Computer Science, 2021, 48(7): 77-85. (in Chinese)
[10]	闫敬文, 王超, 卢刚, 等. 一种基于小波变换的SAR海洋图像数据增强系统[J]. 海洋学报, 2001, 23(5): 130-135. YAN J W, WANG C, LU G, et al. A SAR ocean image data enhancement system based on wavelet transformation[J]. Acta Oceanologica Sinica, 2001, 23(5): 130-135. (in Chinese) DOI:10.3321/j.issn:0253-4193.2001.05.017
[11]	程广涛, 巩家昌, 赵洪伟. 基于膨胀卷积和稠密连接的烟雾识别方法[J]. 计算机工程, 2020, 46(4): 253-259. CHENG G T, GONG J C, ZHAO H W. Smoke recognition method based on dilated convolution and dense connection[J]. Computer Engineering, 2020, 46(4): 253-259. (in Chinese)
[12]	蒋芸, 张海, 陈莉, 等. 基于卷积神经网络的图像数据增强算法[J]. 计算机工程与科学, 2019, 41(11): 2007-2016. JIANG Y, ZHANG H, CHEN L, et al. An image data augmentation algorithm based on convolutional neural networks[J]. Computer Engineering & Science, 2019, 41(11): 2007-2016. (in Chinese) DOI:10.3969/j.issn.1007-130X.2019.11.015
[13]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184
[14]	BAYKULOV M, GAJEWSKI D. Prestack seismic data enhancement with partial Common-Reflection-Surface (CRS) stack[J]. Geophysics, 2009, 74(3): 49-58. DOI:10.1190/1.3106182
[15]	OBILIKWU P, OGBUJU E. A data model for enhanced data comparability across multiple organizations[J]. Journal of Big Data, 2020, 7(1): 1-25. DOI:10.1186/s40537-019-0278-0
[16]	薛丽霞, 钟欣, 汪荣贵, 等. 基于深度特征融合的中低分辨率车型识别[J]. 计算机工程, 2019, 45(1): 233-238, 245. XUE L X, ZHONG X, WANG R G, et al. Mid-low resolution vehicle type recognition based on deep feature fusion[J]. Computer Engineering, 2019, 45(1): 233-238, 245. (in Chinese)
[17]	赵月爱, 陈俊杰, 吕伟. 面向网络入侵检测的FHNN重抽样方法[J]. 计算机工程, 2011, 37(8): 135-136, 139. ZHAO Y A, CHEN J J, LV W. FHNN resampling method for network intrusion detection[J]. Computer Engineering, 2011, 37(8): 135-136, 139. (in Chinese)
[18]	周艳真, 查显煜, 兰健, 等. 基于数据增强和深度残差网络的电力系统暂态稳定预测[J]. 中国电力, 2020, 53(1): 22-31. ZHOU Y Z, ZHA X Y, LAN J, et al. Transient stability prediction of power systems based on deep residual network and data augmentation[J]. Electric Power, 2020, 53(1): 22-31. (in Chinese)
[19]	张浩, 陈龙, 魏志强. 基于数据增强和模型更新的异常流量检测技术[J]. 信息网络安全, 2020, 20(2): 66-74. ZHANG H, CHEN L, WEI Z Q. Abnormal traffic detection technology based on data augmentation and model update[J]. Netinfo Security, 2020, 20(2): 66-74. (in Chinese) DOI:10.3969/j.issn.1671-1122.2020.02.009
[20]	林荣来, 汤冰影, 陈明. 适用于轴承故障诊断的数据增强算法[J]. 计算机工程与应用, 2021, 57(7): 269-278. LIN R L, TANG B Y, CHEN M. Data augmentation algorithm for bearings faults diagnosis[J]. Computer Engineering and Applications, 2021, 57(7): 269-278. (in Chinese)
[21]	FAWAZ H I, FORESTIER G, WEBER J, et al. Data augmentation using synthetic data for time series classification with deep residual networks[EB/OL]. [2021-06-29]. https://arxiv.org/abs/1808.02455.
[22]	熊忠阳, 陈若田, 张玉芳. 一种有效的K-means聚类中心初始化方法[J]. 计算机应用研究, 2011, 28(11): 4188-4190. XIONG Z Y, CHEN R T, ZHANG Y F. Effective method for cluster centers' initialization in K-means clustering[J]. Application Research of Computers, 2011, 28(11): 4188-4190. (in Chinese) DOI:10.3969/j.issn.1001-3695.2011.11.050
[23]	王睿, 贺佳. 随机抽样方法的SAS实现[J]. 中国卫生统计, 2007, 24(1): 85, 93. WANG R, HE J. SAS implementation of random sampling method[J]. Chinese Journal of Health Statistics, 2007, 24(1): 85, 93. (in Chinese)
[24]	邵志强. 抽样调查中样本容量的确定方法[J]. 统计与决策, 2012(22): 12-14. SHAO Z Q. A method for determining sample size in a sampling survey[J]. Statistics & Decision, 2012(22): 12-14. (in Chinese)
[25]	HUANG G, SUN Y, LIU Z, et al. Deep networks with stochastic depth[EB/OL]. [2021-06-29]. https://arxiv.org/abs/1603.09382.