开放科学(资源服务)标志码(OSID):
随着大数据技术的快速发展,以大数据为基础的数据分析方法进入了一个全新阶段[1]。在大数据环境下构建并训练的深度学习模型具有较优的性能。然而,数据量的缺乏[2-3]使得深度学习模型训练不充分,导致模型的泛化性能降低[4]。对于这种过拟合现象的发生[5],正则化方法或简单收集更多的标记数据[6]能够增加数据量。此外,数据增强技术[7-8]通过特定的方法生成合成数据,通过对图像进行翻转[9-11]、旋转[12]、镜像[13]、高斯白噪声等技巧,实现数据增强,广泛应用于图像领域[14-15]。
在其他领域中也有相应的数据增强方法[16-17]。文献[18]采用随机设置部分信息缺失和增加噪声的方式对原有数据集进行扩充,在信息缺失和含噪声的情况下提高模型的鲁棒性,但是填充的数据量不好控制。如果填充的数据太少,则几乎不会改变原有数据集的分布,如果被扩充得太多,模型在该增强数据集下的检测效果呈现降低的趋势。文献[19]采用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)对少数类样本进行过采样操作,通过ENN(Edited Nearest Neighbor)算法剔除不符合要求的噪声数据。该方法能够有效解决数据不平衡所带来的问题。因SMOTE算法存在一定的不足,多数类样本和少数类样本的边界出现模糊现象,使得检测的难度加大,甚至存在数据生成越界的问题。文献[20]通过时域重采样、能量变化、随机零填充这3个步骤模拟数据,以提高模型的精确率,但是因对截止频率和重采样率有所限制,导致所产生模拟信号的多样性也受到了一定的限制。
现有的数据增强方法在时间序列分类方面的数据增强有限。文献[21]提出时间序列数据增强技术,能够有效解决数据增强在深度学习模型分类中存在的问题。在数据增强过程中,将所有训练集作为中心数据,延长模型的计算时间,同时由于某些中心数据选取不合适造成生成的新数据样本类别存在偏差,或者生成数据中心靠近边界,易受离散点的影响,导致生成数据越界现象的发生。在整个过程中固定近邻数k及权重函数,即生成数据所用样本的权重不变,在生成样本数据的多样性方面存在一定不足。
本文提出一种基于最大最小距离的多中心数据增强方法。通过加权密度减少离群点对最终结果的影响,将抽样方法与最大最小距离算法相结合得到多生成中心,避免了生成结果出现样本类别越界的情况。在此基础上,根据样本的相似性构建权重函数,计算加权平均得到新的样本,拓展样本数据的多样性。
1 基本概念 1.1 最大最小距离准则最大最小距离准则[22]是基于欧氏距离,在最大程度上选取尽可能远的样本点作为生成中心,从而避免产生初始中心过于近邻的情况。数据生成类别越界示意图如图 1所示。
![]() |
Download:
|
图 1 数据生成类别越界示意图 Fig. 1 Schematic diagram of data generation categories transgression |
最大最小距离算法的基本原理是首先从样本中选择1个任意样本点
$ \begin{array}{l}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{l}=\\ \mathrm{m}\mathrm{a}\mathrm{x}\left\{\mathrm{m}\mathrm{i}\mathrm{n}\left(\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i1}, \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{i2}, \cdots , \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{in}\right)\right\}(l, i=\mathrm{1, 2}, \cdots , n)\end{array} $ | (1) |
其中:
最大最小距离算法可以有效地解决数据生成中心处于边界的问题,从而避免出现生成样本越界的情况。传统SMOTE算法对少数类样本进行分析和模拟后,在其近邻进行随机线性插值。如果该少数类样本位于边界处,那么随机生成的新样本就有可能出现越界的情况,而引入最大最小距离准则会重新选择生成中心。在第1次计算过程中选取了最大的距离,在之后的计算过程中生成中心会向更小的距离接近,使得最远少数类样本点成为生成中心范围的边界,从而将最远边界控制在最远的少数类样本点之内,使得生成中心始终不会出现越界的情况,同时也带来了最大最小距离算法自身的缺点。最大最小距离算法在运行过程中要遍历两遍数据库,如果数据库很大,那么需要的计算时间将会延长。针对上述问题,本文考虑将抽样方法与最大最小距离算法相结合,通过简单随机抽样方法[23]提取原始数据库的主要特征,采用最大最小距离算法从抽样后的数据集中选取数据生成中心
![]() |
Download:
|
图 2 原始数据集采样过程 Fig. 2 Sampling process of original dataset |
设数据库的规模个数为
简单随机抽样使得每个对象在总体中被抽到的概率相等,且每个样本集的数据生成中心点集都不同,极大丰富了数据的随机性和多样性。如果随机性过高会导致抽样样本分布不均匀。为保证一定的抽样精度,简单随机抽样必须进行多次抽样。
1.3 DTW算法动态时间规整(Dynamic Time Warping,DTW)算法是一个典型的优化问题,可以衡量2个不同长度的时间序列相似度。
DTW对序列
$ \mathrm{D}\mathrm{T}\mathrm{W}(A, B)=\mathrm{m}\mathrm{i}{\mathrm{n}}_{w}\sum\limits _{k=1}^{k}d\left({w}_{k}\right) $ | (2) |
最小代价路径可以通过累计距离来计算得到,累积距离如式(3)所示:
$ r(i, j)=\mathrm{m}\mathrm{i}\mathrm{n}\left(r\right(i-1, j-1), r(i-1, j), r(i, j-1\left)\right)+d(i, j) $ | (3) |
其中:
本文提出一种基于最大最小距离的数据增强方法MCA,基本原理是首先计算所有样本的加权密度,以排除离群点的影响,通过改进的最大最小距离算法得到中心点集G,尽可能保留有效特征;其次在每个备选中心点集中找出中心数据的k个近邻对近邻样本和非近邻样本进行赋权;最后利用加权算法计算选取样本的加权,以得到新的合成数据。
2.1 样本密度的计算本文需要对各样本点的密度进行从大到小的排序,以减少MCA方法的时间复杂度。样本
$ {\rho }_{i}=\sum\limits _{j}^{}X({d}_{ij}-{d}_{c}) $ | (4) |
$ X({d}_{ij}-{d}_{c})=\left\{\begin{array}{l}1, {d}_{ij}-{d}_{c} < 0\\ 0, {d}_{ij}-{d}_{c}\ge 0\end{array}\right. $ | (5) |
其中:
加权的欧氏距离如式(6)所示:
$ \mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}({x}_{i}, {x}_{j})=\sqrt{\sum\limits _{i=1}^{m}{w}_{id}{\left|{x}_{il}-{x}_{jl}\right|}^{2}} $ | (6) |
其中:
所有样本点的平均欧氏距离如式(7)所示:
$ \mathrm{a}\mathrm{v}\mathrm{g}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}=\frac{1}{n(n-1)}\sum\limits _{i=1}^{n}\sum\limits _{j=1}^{n}\mathrm{d}\mathrm{i}\mathrm{s}{\mathrm{t}}_{w}({x}_{i}, {x}_{j}) $ | (7) |
本文从总体样本中抽取具有代表性的样本[24],使得统计推断更加可靠。表 1是样本容量选取的参数。
![]() |
下载CSV 表 1 样本容量选取的参数 Table 1 Parameters of sample size selection |
在估算样本容量时需要给定抽样精度,一般用
$ \overline{y}~N(\overline{Y}, s(\overline{y}\left)\right) $ | (8) |
$ (\overline{y}-\overline{Y})/s\left(\overline{y}\right)~N\left(\mathrm{0, 1}\right) $ | (9) |
因此,当
$ 1-\alpha =P\left\{\left|\overline{y}-\overline{Y}/s\left(\overline{y}\right) < {u}_{\alpha }\right|\right\}=\\ \;\;\;\;\;\;\;\;\;P\left\{\overline{y}-{u}_{\alpha }s\left(\overline{y}\right) < \overline{Y} < \overline{y}+{u}_{\alpha }s\left(\overline{y}\right)\right\} $ | (10) |
即
$ \overline{y}-{u}_{\alpha }s\left(\overline{y}\right) < \overline{Y} < \overline{y}+{u}_{\alpha }s\left(\overline{y}\right) $ | (11) |
$ 1-\phi \left({u}_{\alpha }\right)=\alpha /\mathrm{2, 0} < \alpha < 1 $ | (12) |
其中:
由式(11)可知,
$ V\left(\overline{y}\right)\le (\varepsilon /{u}_{\alpha }{)}^{2} $ | (13) |
根据简单随机抽样原理,
$ V\left(\overline{y}\right)=\left(\frac{1}{n}-\frac{1}{N}\right){S}^{2} $ | (14) |
由式(13)和式(14)可得:
$ \left(\frac{1}{n}-\frac{1}{N}\right){S}^{2}\le (\varepsilon /{u}_{\alpha }{)}^{2} $ | (15) |
因此,样本容量n的取值如式(16)所示:
$ n\ge \frac{1}{{\left(\frac{\varepsilon }{{u}_{\alpha }S}\right)}^{2}+\frac{1}{N}} $ | (16) |
在相同的总体容量中,用户可根据需求设定不同的置信区间和抽样误差。抽样误差和置信区间设置越小,所需的样本容量就越大。当总体容量增加超过一定阈值时,总体对样本容量的影响基本可以忽略不计。
2.4 权重选择本文对权重进行赋值,选定时间序列
$ {w}_{i}={\mathrm{e}}^{-\frac{\mathrm{D}\mathrm{T}\mathrm{W}({T}_{i}, T\mathrm{*})}{\sigma }} $ | (17) |
虽然式(17)描述了连接
$ {V}_{i}=\frac{{w}_{i}}{\sum\limits _{j\in \mathrm{n}\mathrm{e}\left(T\mathrm{*}\right)}{w}_{j}} $ | (18) |
其中:
$ {W}_{i}={\mathrm{e}}^{-\frac{\mathrm{D}\mathrm{T}\mathrm{W}({T}_{i}, T\mathrm{*})}{d{\mathrm{*}}_{NN}}} $ | (19) |
其中:
MCA方法将样本集X作为输入,数据增强后的数据集作为输出。MCA方法流程如图 3所示,通过计算所有点的密度,剔除离群点,利用简单随机抽样获得小样本数据集,同时对小样本集运用最大最小距离算法得到生成中心,根据样本相似性构建权重函数,得到新的生成样本。
![]() |
Download:
|
图 3 MCA方法流程 Fig. 3 Procedure of MCA method |
深度神经网络层数的加深不仅会导致出现过量的参数,还会引起网络退化。然而残差模块的引入就是为了解决网络退化的问题。深度残差网络[25]包括卷积层、池化层和全连接层等,其结构与深度神经网络结构类似。卷积层由含有若干可学习参数的卷积核构成,主要对局部信息进行计算,因此降低了计算量。池化层对主要信息进行降维处理,使原本高维计算变为低维数据的计算,有效地降低了计算量,在一定程度上避免了过拟合现象的发生。全连接层经过分类计算后,全连接层会对结果进行分类处理。
残差网络通过添加快捷连接作为恒等映射,使得网络性能不会退化。残差单元的示意图如图 4所示。
![]() |
Download:
|
图 4 残差单元示意图 Fig. 4 Schematic diagram of residual unit |
图 4中残差单元的输入为
$ y=F(x, W)+x $ | (20) |
$ F(x, W)={W}_{2}\sigma \left({W}_{1}x\right) $ | (21) |
其中:
$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(r\right)=\mathrm{m}\mathrm{a}\mathrm{x}(0, r) $ | (22) |
ReLU的输入为
![]() |
Download:
|
图 5 深度残差网络结构 Fig. 5 Structure of deep residual network |
从图 5可以看出,深度残差网络由卷积层、池化层和全连接层构成,激活函数为ReLU函数,在一定程度上避免出现梯度消失的现象,且使得特征在层间传递时取值范围不变。深度残差网络采用Adma算法优化目标损失函数,其中基础学习率设置为0.1,衰减率为0.9,损失函数如式(23)所示:
$ \mathrm{C}\mathrm{E}(p, y)=\left\{\begin{array}{l}-\mathrm{l}\mathrm{g}\;p, \;y=1\\ -\mathrm{l}\mathrm{g}(1-p), \mathrm{其}\mathrm{他}\end{array}\right. $ | (23) |
其中:
为检测MCA方法的性能,本文选取UCR数据库中的SwedishLeaf数据集和某高铁轴箱振动实测数据集进行实验。实测数据集为安装在高铁轴箱上振动传感器采集的数据,用于分析检测轨道平整度,同时选取领域内常用的过采样合成数据方法(SMOTE)、下采样的代表方法(Easy Ensemble)、随机简单复制样本(RR)、保结构过采样(INOS)、模型空间学习过采样(MK)及DTW数据增强方法进行对比。数据集描述如表 2所示。
![]() |
下载CSV 表 2 数据集描述 Table 2 Dataset description |
本文实验采用的软件配置为64位window10的操作系统,开发工具采用PyCharm运行所提出的算法,运行环境为Intel® CoreTM i5-7200U CPU,2.50 GHz,8.00 GB。
3.3 样本容量的计算样本容量是决定数据信息正确和计算效率的重要因素之一。样本容量越大,正确率越高,但效率会降低;样本容量越小,正确率越低,但效率会提高。本文对2.3节提出的公式进行定量分析,从SwedishLeaf数据集中任选1 000条数据,设置抽样误差为0.1,计算总体方差为0.368 2,利用式(16)计算在不同总体个数
![]() |
下载CSV 表 3 样本容量计算结果 Table 3 Calculation results of sample size |
从表 3可以看出,在确定方差和抽样精度后,总体个数N越大,所需的样本容量n所占总体的比例越小。在置信度设置为90%的情况下,当N为100时,n所占的比例约为51%;当N为600时,n所占的比例约为15%;当N为10 000时,n所占的比例约为1%。在置信度设为95的情况下,当N为100时,n所占的比例约为60%;当N为600时,n所占的比例约为20%;当N为10 000时,n所占的比例约为1.5%。当置信度设置更高时,需要更多的样本容量来支持,抽样精度也需要相应的提高。当N达到一定阈值时,再增加N的量,n的增长呈现缓慢趋势。因此,超过一定阈值的总体个数对样本容量的影响趋向于0。
3.4 采样结果可视化本文对不同的数据增强方法进行可视化分析,直观地展示采样后样本的分布情况。由于本文所采用的数据集维度较高,难以直接可视化,因此采取主成分分析(Principal Component Analysis,PCA)方法进行降维处理,选取贡献率排前2的主成分,并在平面空间上进行结果可视化。在SwedishLeaf数据集上时序采样可视化结果如图 6所示。实心点表示多数类样本,空心点表示少数类样本。
![]() |
Download:
|
图 6 时序采样可视化结果 Fig. 6 Visualization results of timing sampling |
从图 6可以看出,SwedishLeaf训练集由1个少数类样本和14个多数类样本组成,按照少数类和多数类1∶14的关系随机选取30条样本数据,并采用不同方法均生成15个样本。不同方法的采样结果分析如下:
1)RR方法仅通过随机复制少数类样本来平衡数据集,导致新生成的少数类样本与原少数类样本几乎完全重合。该方法对数据集信息量的扩充没有作用。
2)SMOTE方法在原少数类样本周边均匀生成新的样本,生成的样本容易靠近边界,且在近邻选择时多数类样本和少数类样本的区别较模糊。
3)Easy Ensemble方法剔除了信息量较少的数据,尽可能保留更多的有效信息,由于未考虑一些偏远点对结果的影响,生成的样本较原数据集中,缺少随机性。
4)本文提出的MCA方法首先计算样本密度,排除噪声点的干扰,同时将最大最小距离算法与抽样方法相结合确定多生成中心,使得生成中心也远离边界,不会造成生成样本边缘化的问题,同时通过多次抽样提高样本的随机性,采用样本加权随机分配权重,使得生成样本序列多样性更丰富。
3.5 实验结果在SwedishLeaf数据集的少数类样本和多数类样本不平衡率(IR)下,不同方法的分类精度、召回率对比如图 7和图 8所示。
![]() |
Download:
|
图 7 在SwedishLeaf数据集上不同方法的精确率对比 Fig. 7 Precision comparison among different methods on SwedishLeaf dataset |
![]() |
Download:
|
图 8 在SwedishLeaf数据集上不同方法的召回率对比 Fig. 8 Recall comparison among different methods on SwedishLeaf dataset |
从图 7和图 8可以看出,在SwedishLeaf数据集上,MCA方法的精确率相较于其他6种数据增强方法提高了7%~18%,召回率提高了4%~15%。MCA数据增强方法较未进行增强前相比,精确度和召回率分别提高18%和15%,说明数据增强可以有效地提高数据集的分类准确度。相比SMOTE方法,MCA方法的精确率和召回率分别提高约6.7%和6%。SMOTE方法只是在少数类样本周边生成新样本,未考虑整体样本的信息,在少数类样本的周围增加无用的噪声点,且可能出现样本越界的情况,从而影响分类结果。与Easy Ensemble方法相比,MCA方法的精确率和召回率分别提高了约8.9%和8%。Easy Ensemble方法采用降采样选取有效的样本子集,减少了整体数据量,导致模型训练量不够充分且整体数据量越小,降低了分类效果。相比RR、INOS、MK方法,MCA方法的精确率和召回率分别提高了5.9%和7%。RR方法通过简单复制样本,生成的数据多样性较差,因此分类精度提升幅度较小。相比DTW方法,MCA方法精确率和召回率分别提高了约1.17%和2%。
为进一步验证MCA方法的有效性,在SwedishLeaf数据集上不同增强方法的F1值对比如图 9所示。在相同的不平衡率下,MCA方法的F1值最高。在不平衡率较高的情况下,MCA方法与其他方法相比提高了2%左右。
![]() |
Download:
|
图 9 在SwedishLeaf数据集上不同方法的F1值对比 Fig. 9 F1 values comparison among different methods on SwedishLeaf dataset |
在实测数据集上MCA方法与其他6种方法的精确率和召回率对比如图 10和图 11所示。从图 10和图 11可以看出,在实测数据集上MCA方法与6种数据增强方法相比,精确率、召回率均有大幅提升。相比Easy Ensemble、SMOTE和RR方法,MCA方法的精确率提高5%左右,由于MCA方法解决了生成数据样本类别越界的问题,提高了模型的训练准确率。MCA方法与其他方法相比分类效果有很大提升,尤其是召回率提高了2%~6%。
![]() |
Download:
|
图 10 在实测数据集上不同方法的精确率对比 Fig. 10 Precision comparison among different methods on measured dataset |
![]() |
Download:
|
图 11 在实测数据集上不同方法的召回率对比 Fig. 11 Recall comparison among different methods on measured dataset |
在实测数据集上不同方法F1值对比如图 12所示。从图 12可以看出,MCA方法与其他方法相比F1值提高了2%~5%,当不平衡率较大时,F1值的提升速度最快,说明MCA方法在不平衡率较大的数据集上仍具有较优的分类结果,适应不平衡数据的分类。
![]() |
Download:
|
图 12 在实测数据集上不同方法的F1值对比 Fig. 12 F1 values comparison among different methods on measured dataset |
本文提出一种基于最大最小距离的数据增强方法,通过考虑加权密度对排除离群点的影响,将抽样方法与最大最小距离算法相结合选取多中心,优化生成数据的中心,同时结合样本加权对多中心样本重新赋权,有效地增加生成数据的随机性。在UCR数据集和实测数据集上的实验结果表明,相比SMOTE、Easy Ensemble、RR等方法,本文方法具有较高的精确率,并且在不平衡率较高的情况下具有较优的分类效果。下一步将通过对抽样方法和原始数据信息提取的问题进行研究,提高增强后数据集的分类精确度。
[1] |
HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1-10.
|
[2] |
HOARE D, GRAHAM N, SCHÖN P J. The Irish Sea data-enhancement project: comparison of self-sampling and national data-collection programmes—results and experiences[J]. ICES Journal of Marine Science, 2011, 68(8): 1778-1784. DOI:10.1093/icesjms/fsr100 |
[3] |
HU J, SHEN L, ALBANIE S, et al. Gather-excite: exploiting feature context in convolutional neural networks[EB/OL]. [2021-06-29]. https://arxiv.org/pdf/1810.12348.pdf.
|
[4] |
TONY B, GIUSEPPE B, ANDREAS B, et al. Machine learning for clinical chemists[J]. Clinical Chemistry, 2019, 65(11): 1350-1356. DOI:10.1373/clinchem.2019.307512 |
[5] |
FARIS P D, GHALI W A, BRANT R, et al. Multiple imputation versus data enhancement for dealing with missing data in observational health care outcome analyses[J]. Journal of Clinical Epidemiology, 2002, 55(2): 184-191. DOI:10.1016/S0895-4356(01)00433-4 |
[6] |
RUBIN J, PARVANEH S, RAHMAN A, et al. Densely connected convolutional networks and signal quality analysis to detect atrial fibrillation using short single-lead ECG recordings[EB/OL]. [2021-06-29]. https://arxiv.org/ftp/arxiv/papers/1710/1710.05817.pdf.
|
[7] |
王海文. 基于生成式对抗网络的数据增强方法研究[D]. 南京: 南京邮电大学, 2019. WANG H W. Data augmentation based on generative adversarial networks[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019. (in Chinese) |
[8] |
肖小霞. 行人重识别中数据增强技术研究[D]. 成都: 电子科技大学, 2020. XIAO X X. Research on data enhancement technology in pedestrian recognition[D]. Chengdu: University of Electronic Science and Technology of China, 2020. (in Chinese) |
[9] |
暴雨轩, 芦天亮, 杜彦辉, 等. 基于iResNet34模型和数据增强的深度伪造视频检测方法[J]. 计算机科学, 2021, 48(7): 77-85. BAO Y X, LU T L, DU Y H, et al. Deepfake videos detection method based on iResNet34 model and data augmentation[J]. Computer Science, 2021, 48(7): 77-85. (in Chinese) |
[10] |
闫敬文, 王超, 卢刚, 等. 一种基于小波变换的SAR海洋图像数据增强系统[J]. 海洋学报, 2001, 23(5): 130-135. YAN J W, WANG C, LU G, et al. A SAR ocean image data enhancement system based on wavelet transformation[J]. Acta Oceanologica Sinica, 2001, 23(5): 130-135. (in Chinese) DOI:10.3321/j.issn:0253-4193.2001.05.017 |
[11] |
程广涛, 巩家昌, 赵洪伟. 基于膨胀卷积和稠密连接的烟雾识别方法[J]. 计算机工程, 2020, 46(4): 253-259. CHENG G T, GONG J C, ZHAO H W. Smoke recognition method based on dilated convolution and dense connection[J]. Computer Engineering, 2020, 46(4): 253-259. (in Chinese) |
[12] |
蒋芸, 张海, 陈莉, 等. 基于卷积神经网络的图像数据增强算法[J]. 计算机工程与科学, 2019, 41(11): 2007-2016. JIANG Y, ZHANG H, CHEN L, et al. An image data augmentation algorithm based on convolutional neural networks[J]. Computer Engineering & Science, 2019, 41(11): 2007-2016. (in Chinese) DOI:10.3969/j.issn.1007-130X.2019.11.015 |
[13] |
CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848. DOI:10.1109/TPAMI.2017.2699184 |
[14] |
BAYKULOV M, GAJEWSKI D. Prestack seismic data enhancement with partial Common-Reflection-Surface (CRS) stack[J]. Geophysics, 2009, 74(3): 49-58. DOI:10.1190/1.3106182 |
[15] |
OBILIKWU P, OGBUJU E. A data model for enhanced data comparability across multiple organizations[J]. Journal of Big Data, 2020, 7(1): 1-25. DOI:10.1186/s40537-019-0278-0 |
[16] |
薛丽霞, 钟欣, 汪荣贵, 等. 基于深度特征融合的中低分辨率车型识别[J]. 计算机工程, 2019, 45(1): 233-238, 245. XUE L X, ZHONG X, WANG R G, et al. Mid-low resolution vehicle type recognition based on deep feature fusion[J]. Computer Engineering, 2019, 45(1): 233-238, 245. (in Chinese) |
[17] |
赵月爱, 陈俊杰, 吕伟. 面向网络入侵检测的FHNN重抽样方法[J]. 计算机工程, 2011, 37(8): 135-136, 139. ZHAO Y A, CHEN J J, LV W. FHNN resampling method for network intrusion detection[J]. Computer Engineering, 2011, 37(8): 135-136, 139. (in Chinese) |
[18] |
周艳真, 查显煜, 兰健, 等. 基于数据增强和深度残差网络的电力系统暂态稳定预测[J]. 中国电力, 2020, 53(1): 22-31. ZHOU Y Z, ZHA X Y, LAN J, et al. Transient stability prediction of power systems based on deep residual network and data augmentation[J]. Electric Power, 2020, 53(1): 22-31. (in Chinese) |
[19] |
张浩, 陈龙, 魏志强. 基于数据增强和模型更新的异常流量检测技术[J]. 信息网络安全, 2020, 20(2): 66-74. ZHANG H, CHEN L, WEI Z Q. Abnormal traffic detection technology based on data augmentation and model update[J]. Netinfo Security, 2020, 20(2): 66-74. (in Chinese) DOI:10.3969/j.issn.1671-1122.2020.02.009 |
[20] |
林荣来, 汤冰影, 陈明. 适用于轴承故障诊断的数据增强算法[J]. 计算机工程与应用, 2021, 57(7): 269-278. LIN R L, TANG B Y, CHEN M. Data augmentation algorithm for bearings faults diagnosis[J]. Computer Engineering and Applications, 2021, 57(7): 269-278. (in Chinese) |
[21] |
FAWAZ H I, FORESTIER G, WEBER J, et al. Data augmentation using synthetic data for time series classification with deep residual networks[EB/OL]. [2021-06-29]. https://arxiv.org/abs/1808.02455.
|
[22] |
熊忠阳, 陈若田, 张玉芳. 一种有效的K-means聚类中心初始化方法[J]. 计算机应用研究, 2011, 28(11): 4188-4190. XIONG Z Y, CHEN R T, ZHANG Y F. Effective method for cluster centers' initialization in K-means clustering[J]. Application Research of Computers, 2011, 28(11): 4188-4190. (in Chinese) DOI:10.3969/j.issn.1001-3695.2011.11.050 |
[23] |
王睿, 贺佳. 随机抽样方法的SAS实现[J]. 中国卫生统计, 2007, 24(1): 85, 93. WANG R, HE J. SAS implementation of random sampling method[J]. Chinese Journal of Health Statistics, 2007, 24(1): 85, 93. (in Chinese) |
[24] |
邵志强. 抽样调查中样本容量的确定方法[J]. 统计与决策, 2012(22): 12-14. SHAO Z Q. A method for determining sample size in a sampling survey[J]. Statistics & Decision, 2012(22): 12-14. (in Chinese) |
[25] |
HUANG G, SUN Y, LIU Z, et al. Deep networks with stochastic depth[EB/OL]. [2021-06-29]. https://arxiv.org/abs/1603.09382.
|