基于栈式降噪稀疏自编码器的极限学习机

引用本文

张国令, 王晓丹, 李睿, 等. 基于栈式降噪稀疏自编码器的极限学习机[J]. 计算机工程, 2020, 46(9), 61-67. DOI: 10.19678/j.issn.1000-3428.0057060.

ZHANG Guoling, WANG Xiaodan, LI Rui, et al. Extreme Learning Machine Based on Stacked Denoising Sparse Auto-Encoder[J]. Computer Engineering, 2020, 46(9), 61-67. DOI: 10.19678/j.issn.1000-3428.0057060.

基金项目

国家自然科学基金（61876189，61273275，61806219，61703426）

作者简介

张国令(1995-), 男, 硕士研究生, 主研方向为机器学习、智能信息处理;
王晓丹, 教授、博士;
李睿, 博士研究生;
来杰, 硕士研究生;
向前, 硕士研究生

文章历史

收稿日期：2019-12-30
修回日期：2020-03-08

Contents Abstract Full text Figures/Tables PDF

基于栈式降噪稀疏自编码器的极限学习机

张国令 , 王晓丹 , 李睿 , 来杰 , 向前

空军工程大学防空反导学院, 西安 710051

收稿日期：2019-12-30；修回日期：2020-03-08

基金项目：国家自然科学基金（61876189，61273275，61806219，61703426）

作者简介：张国令(1995-), 男, 硕士研究生, 主研方向为机器学习、智能信息处理; 王晓丹, 教授、博士; 李睿, 博士研究生; 来杰, 硕士研究生; 向前, 硕士研究生.

E-mail: zhgl_bryant_24@163.com

摘要：极限学习机（ELM）随机选择网络输入权重和隐层偏置，存在网络结构复杂和鲁棒性较弱的不足。为此，提出基于栈式降噪稀疏自编码器（sDSAE）的ELM算法。利用sDSAE稀疏网络的优势，挖掘目标数据的深层特征，为ELM产生输入权值与隐层偏置以求得隐层输出权值，完成训练分类器，同时通过加入稀疏性约束优化网络结构，提高算法分类准确率。实验结果表明，与ELM、PCA-ELM、ELM-AE和DAE-ELM算法相比，该算法在处理高维含噪数据时分类准确率较高，并且具有较强的鲁棒性。

Extreme Learning Machine Based on Stacked Denoising Sparse Auto-Encoder

ZHANG Guoling , WANG Xiaodan , LI Rui , LAI Jie , XIANG Qian

Air and Missile Defense College, Air Force Engineering University, Xi'an 710051, China

Abstract: Extreme Learning Machine(ELM)randomly selects input weights and hidden-layer bias of network, which increases the complexity and reduces the robustness of network.To address the problem, this paper proposes an ELM algorithm based on stacked Denoising Sparse Auto-Encoder(sDSAE-ELM).By taking the advantage of sparse network of stacked Denoising Sparse Auto-Encoder(sDSAE), the deep features of target data are mined, and the input weight and hidden-layer bias are generated for ELM to obtain the hidden-layer output weight, and the training classifier is completed.Then sparsity constraints are added to optimize the network structure and improve the accuracy of algorithm classification.Experimental results show that the proposed algorithm has higher classification accuracy and stronger robustness than ELM, PCA-ELM, ELM-AE and DAE-ELM algorithms in processing of high-dimensional noisy data.

0 概述

极限学习机(Extreme Learning Machine, ELM)^[1]是一种简单高效的单隐层前馈神经网络(Single Hidden Layer Feedforward Neural Network, SLFN)算法。ELM网络的输入权重和隐层偏置均为随机生成, 输出权值则通过求解最小化平方损失函数得到, 能够有效解决传统SLFN算法收敛速度慢、容易产生局部最优解的问题。ELM因实现简单、训练速度快和泛化性能好等特点, 现已被广泛应用于语音识别^[2]、故障诊断^[3-4]、生物医学^[5-6]、计算机视觉^[7-8]等多个领域。

大量研究表明, ELM随机确定输入权值和隐层偏置, 能够提高整个网络的学习速度, 但是隐层参数的随机赋值使得ELM比传统基于调优的学习算法需要更多的隐层节点。然而, 过多的隐层节点容易减弱隐含层的稀疏性, 产生冗余节点, 增加网络结构的复杂度, 降低算法分类准确率^[9-10]。对此, 研究者采用群体智能优化方法对网络结构进行优化, 以提高整体性能。文献[9]通过引入差分进化算法提出E-ELM算法, 利用交叉算子和差分变异并通过动态调整整个种群得到最优的输入权值和隐层偏置, 从而使网络结构更为紧凑。文献[10]引入粒子群优化(Particle Swarm Optimization, PSO)算法对ELM隐层节点参数进行调整, 提出PSO-ELM算法, 通过编码将输入权值和随机偏置设为待优化的粒子, 根据PSO原理得到全局最优值, 以提升ELM的整体性能。采用群体智能优化隐层节点参数改进的网络结构, 可提高ELM算法的泛化能力和稳定性, 但同时也增加了计算复杂度, 在处理大规模高维数据集时性能较差。

研究表明, 通过将ELM拓展到深度学习领域, 可以在处理大规模高维数据时降低深层网络的计算复杂度, 减少训练时间。文献[11]提出的ELM-AE算法结合极限学习机和自编码器的优势, 具有良好的特征表达能力和分类性能。文献[12]通过改进ELM-AE提出的判别图正则化极限学习机自编码器GELM-AE, 能够提取更抽象的高层特征, 提高网络模型的整体性能。文献[13]通过将卷积神经网络(Convolutional Neural Network, CNN)和ELM相结合, 提出CNN2ELM集成学习框架, 提高了识别人脸图像年龄的鲁棒性。

栈式降噪稀疏自编码器(stacked Denoising Sparse Auto-Encoder, sDSAE)是一种改进的自编码器深度学习模型, 其中稀疏性约束的加入使网络结构得到优化, 能够更好地提取数据的深层特征, 而去噪处理则降低了噪声干扰, 增强了算法鲁棒性。本文将sDSAE与ELM相结合, 提出sDSAE-ELM算法, 利用sDSAE产生ELM的输入权值和隐层偏置, 以解决ELM输入权重和隐层偏置随机赋值导致网络结构复杂、鲁棒性弱的问题, 同时保留ELM训练速度快的优势。

1 理论背景 1.1 极限学习机

ELM是一种具有快速学习能力的SLFN算法, 其网络结构如图 1所示。

	Download: JPG larger image
图 1 ELM网络结构 Fig. 1 Network structure of ELM

在ELM中, 输入层有n个节点, 隐含层有l个节点, 输出层有m个节点, 输入层与隐层节点的连接权值和隐层节点的偏置随机产生。假设有N个样本(x_i, t_i), x_i=[x_i1, x_i2, …, x_in]^T∈ $\mathbb{R}$ⁿ, t_i=[t_i1, t_i2, …, t_im]^T∈ $\mathbb{R}$^m, 则该网络的输出为:

$ \mathit{\boldsymbol{f}}({\mathit{\boldsymbol{x}}_j}) = \sum\limits_{i = 1}^l {{\mathit{\boldsymbol{\beta }}_i}} g({\mathit{\boldsymbol{w}}_i},{b_i},{\mathit{\boldsymbol{x}}_j}),j = 1,2, \cdots ,N $

(1)

其中, w_i=[w_i1, w_i2, …, w_in]^T为n个输入层节点与第i个隐层节点之间的输入权值向量, b_i为第i个隐层节点偏置值, g(·)是隐层节点的激活函数, β_i=[β_i1, β_i2, …, β_im]^T为第i个隐层节点与m个输出层节点之间的输出权值向量。令h(x)=[g₁(x), g₂(x), …, g_l(x)]表示输入数据x的隐层输出, 用H=[h^T(x₁), h^T(x₂), …, h^T(x_N)]^T表示数据样本在隐层的输出矩阵, 即:

$ \mathit{\boldsymbol{H}} = \left[ {\begin{array}{*{20}{c}} {g({\mathit{\boldsymbol{w}}_1},{b_1},{\mathit{\boldsymbol{x}}_1})}&{g({\mathit{\boldsymbol{w}}_2},{b_2},{\mathit{\boldsymbol{x}}_1})}&{ \cdots g({\mathit{\boldsymbol{w}}_l},{b_l},{\mathit{\boldsymbol{x}}_1})}\\ {g({\mathit{\boldsymbol{w}}_1},{b_1},{\mathit{\boldsymbol{x}}_2})}&{g({\mathit{\boldsymbol{w}}_2},{b_2},{\mathit{\boldsymbol{x}}_2})}&{ \cdots g({\mathit{\boldsymbol{w}}_l},{b_l},{\mathit{\boldsymbol{x}}_2})}\\ \vdots & \vdots & \vdots \\ {g({\mathit{\boldsymbol{w}}_1},{b_1},{\mathit{\boldsymbol{x}}_N})}&{g({\mathit{\boldsymbol{w}}_2},{b_2},{\mathit{\boldsymbol{x}}_2})}&{ \cdots g({\mathit{\boldsymbol{w}}_l},{b_l},{\mathit{\boldsymbol{x}}_N})} \end{array}} \right] $

(2)

令T=[t₁, t₂, …, t_N]^T表示样本的目标输出, 则该系统矩阵表达式为:

$ \mathit{\boldsymbol{H\beta }} = \mathit{\boldsymbol{T}} $

(3)

网络的训练过程相当于求解式(3)的最小二乘解$\mathit{\boldsymbol{\hat \beta }}$, 可得:

$ \left\| {\mathit{\boldsymbol{\hat H\beta }} - \mathit{\boldsymbol{T}}} \right\| = \mathop {{\rm{min}}}\limits_\beta \left\| {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{T}}} \right\| $

(4)

通常情况下, 隐层节点数l小于训练样本数N。因此, 对β求解得到:

$ \mathit{\boldsymbol{\hat \beta }} = {\mathit{\boldsymbol{H}}^\dagger }\mathit{\boldsymbol{T}} $

(5)

其中, ${\mathit{\boldsymbol{H}}^† }$表示H的Moore-Penrose(MP)广义逆, 此解具有唯一性, 可使网络训练误差达到最小值。β具体表达式为:

$ \mathit{\boldsymbol{\beta }} = \left\{ {\begin{array}{*{20}{l}} {{{({\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{H}})}^{ - 1}}{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{T}},{\mathit{\boldsymbol{H}}^T}\mathit{\boldsymbol{H}}{\rm{ 非奇异 }}}\\ {{\mathit{\boldsymbol{H}}^{\rm{T}}}{{(\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{H}}^{\rm{T}}})}^{ - 1}}\mathit{\boldsymbol{T}},\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{H}}^{\rm{T}}}{\rm{ 非奇异 }}} \end{array}} \right. $

(6)

为获得更好的学习能力, 采用正交投影法计算输出权值, 在H^TH的对角线上增加一个正实数$\frac{1}{C}$^[14], 则式(6)转化为:

$ \mathit{\boldsymbol{\beta }} = \left\{ {\begin{array}{*{20}{l}} {{{(\frac{{\bf{I}}}{C} + {\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{H}})}^{ - 1}}{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{T}},{\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{H}}{\rm{ 非奇异 }}}\\ {{\mathit{\boldsymbol{H}}^{\rm{T}}}{{(\frac{{\bf{I}}}{C} + \mathit{\boldsymbol{H}}{\mathit{\boldsymbol{H}}^{\rm{T}}})}^{ - 1}}\mathit{\boldsymbol{T}},\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{H}}^{\rm{T}}}{\rm{ 非奇异 }}} \end{array}} \right. $

(7)

其中, I为单位矩阵, C为正则化系数。

ELM的学习过程如算法1所示。

算法1 ELM

输入 {x_i, t_i}训练集${\boldsymbol{x}_{i}} \in \mathbb{R}^{n}, \boldsymbol{t}_{i} \in \mathbb{R}^{m}, i=1$, 2, …, N), 激活函数g(·), 隐含节点数l

输出输出权重β

步骤1 随机生成输入权值ω_i和隐层偏置b_i。

步骤2 根据式(2)计算隐层输出矩阵H。

步骤3 据式(7)计算输出权重β。

1.2 降噪稀疏自编码器

传统的自动编码器(AE)对输入数据的重构能力有限, 提取数据特征的能力较差^[15]。在自编码器的基础上添加稀疏性约束得到稀疏自编码器(SAE), 即迫使大多数隐层节点置0, 少数隐层节点不为0, 网络更加稀疏, 从而具有良好的调节能力, 使得模型与人脑的学习过程更相似, 有利于提取更具代表性的特征, 提高算法分类准确率^[16]。降噪稀疏自编码器(DSAE)是在SAE基础上, 对原始样本数据进行退化处理, 其目的在于排除噪声干扰, 更好地重构原始输入, 增强算法的鲁棒性^[17-18]。DSAE网络结构如图 2所示。

	Download: JPG larger image
图 2 DSAE网络结构 Fig. 2 Network structure of DSAE

DSAE的训练过程包括退化、稀疏编码和解码3个阶段。首先根据事先设定好的退化率v将原始输入数据x置0, 得到退化数据$\mathit{\boldsymbol{\tilde x}}$; 然后对退化后的数据$\mathit{\boldsymbol{\tilde x}}$进行稀疏编码, 得到编码数据h; 最后对编码数据h进行解码, 得到重构数据y。在此基础上, 调整各层参数最小化重构误差, 用损失函数L(x, y)来表示, 得到输入特征的最优表示。

稀疏编码和解码过程的计算公式分别如式(8)和式(9)所示:

$ {\mathit{\boldsymbol{h}} = g(\mathit{\boldsymbol{\tilde x}}) = {s_g}(\mathit{\boldsymbol{\tilde wx}} + \mathit{\boldsymbol{b}})} $

(8)

$ {\mathit{\boldsymbol{y}} = \mathit{\boldsymbol{f}}(\mathit{\boldsymbol{h}}) = {s_f}({\mathit{\boldsymbol{w}}^\prime }\mathit{\boldsymbol{h}} + {\mathit{\boldsymbol{b}}^\prime })} $

(9)

其中, s(x)为激活函数, 一般取sigmoid函数, w和b分别为稀疏编码的权重矩阵和偏置向量, w′和b′分别为解码的权值矩阵和偏置向量, w′=w^T。假设训练集D={x⁽ⁱ⁾}_i=1^N, 则DSAE的整体损失函数为:

$ L(\mathit{\boldsymbol{x}},\mathit{\boldsymbol{y}}) = \frac{1}{N}\sum\limits_D \mathit{\boldsymbol{J}} (\mathit{\boldsymbol{x}},\mathit{\boldsymbol{y}}) + \frac{\lambda }{2}\left\| \mathit{\boldsymbol{w}} \right\|_{\rm{F}}^2 + \eta \sum\limits_{j = 1}^k K L(\left. \rho \right\|{\hat \rho _j}) $

(10)

其中, 等号右边的第一部分$J(\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}}) = \frac{1}{2}\left\| {\mathit{\boldsymbol{x}} - \mathit{\boldsymbol{y}}} \right\|_2^2$为平方差误差项, 第二部分是权重衰减项(也称为正则化项), 其目的是减小权重大小防止过拟合, λ是权重衰减参数, 第三部分是稀疏惩罚项, η为稀疏惩罚权重, k为隐层节点数。

采用相对熵(KL)的方法进行稀疏惩罚, 如式(11)所示:

$ {\rm{KL}}(\left. \rho \right\|{\hat \rho _j}) = \rho {\rm{lg}}\left( {\frac{\rho }{{{{\hat \rho }_j}}}} \right) + (1 - \rho ){\rm{lg}}\left( {\frac{{1 - \rho }}{{1 - {{\hat \rho }_j}}}} \right) $

(11)

其中, ρ为稀疏性参数, 取值接近$0(\rho = 0.05), {\hat \rho _j}$表示第j隐层节点对应输入数据x的平均激活值。当${\hat \rho _j} = \rho $时, ${\rm{KL}}\left({\rho {\rm{||}}{{\hat \rho }_j}} \right) = 0$。为使稀疏性更优, 取${{{\hat \rho }_j}}$尽可能接近ρ。

1.3 栈式降噪稀疏自编码器

DSAE属于浅层网络, 学习能力有限, 而栈式降噪稀疏自编码器(sDSAE)由多个DSAE堆栈而成, 其以前一隐层输出作为后一隐层输入, 逐层训练, 在处理高维大数据集时整体性能优于浅层网络。但sDSAE的性能取决于网络的层数和节点数, 网络层数并非越多越好, 层数太多容易引起梯度弥散现象, 也会训练过拟合^[17]。因此, 本文设置2层sDSAE网络。

2 sDSAE-ELM算法

ELM在训练过程中随机生成输入权值和隐层偏置, 为得到理想的分类效果, 往往需要产生大量的隐含层节点, 而过多的隐含层节点会导致网络结构复杂, 影响整体的学习性能。为避免ELM中出现过多的随机冗余节点, 本文利用sDSAE获取输入数据的特征表达, 通过加入稀疏性限制使网络可以学到输入数据中更优的结构特征, 从而更好地描述输入数据, 为ELM提供所需的输入权值和隐层偏置, 更有利于ELM进行分类。

理论上, sDSAE-ELM算法比ELM算法能够获得更优的输入权值和隐层偏置。一方面, sDSAE-ELM算法利用sDSAE具有稀疏化的网络结构对原始输入数据进行学习训练, 将得到的输入权值和隐层偏置分别作为sDSAE-ELM算法的输入权值和隐层偏置, 其包含了输入数据的相关特征信息, 有利于发掘更本质的高级抽象特征, 对数据重构和算法整体性能有促进作用, 而ELM算法的输入权值和隐层偏置随机赋值, 与输入数据无关, 对数据重构和算法整体性能没有促进作用; 另一方面, sDSAE-ELM算法通过sDSAE产生极限学习机的输入权值与隐层偏置, 克服了ELM因隐含层参数随机赋值产生冗余节点、降低算法分类准确率的弊端。此外, sDSAE-ELM算法优化了网络结构, 如图 3所示, 其对原始输入数据进行退化处理, 从而有效消除噪声的干扰, 增强鲁棒性。

	Download: JPG larger image
图 3 sDSAE-ELM网络结构 Fig. 3 Network structure of sDSAE-ELM

sDSAE-ELM训练过程的具体步骤如下:

步骤1 对原始输入x进行预处理。依据上文所述, 利用梯度下降法训练DSAE1, 得到第一隐含层的输出h₁和网络参量w₁、b₁。h₁是对原始输入数据和网络参数的高度抽象结果, 由于对原始输入进行过退化处理以及对网络添加稀疏性约束, 因此更能体现输入数据的本质特征, 算法鲁棒性更强, 并且当原始输入维数较高时, 还能起到降低数据维度的作用。

步骤2 利用梯度下降法训练DSAE2以确定ELM的参数。相比于传统的学习算法, ELM不仅学习速度更快, 而且分类性能更优。然而, 与基于调优的学习算法相比, 由于其输入权值和隐层偏置产生的随机性, ELM需要更多的隐层节点。此过程同步骤1, 得到第一隐含层的输出h₂和网络参量w₂、b₂。其中, w₂作为ELM的输入权值, b₂作为ELM的隐层偏置, 输出矩阵为h₂。此步骤能够克服ELM随机生成隐层参数的问题, 优化网络结构, 提高模型的稳定性。

步骤3 利用ELM进行分类, 输入数据为h₁, 输入权值和隐层偏置分别为w₂和b₂, 隐层输出矩阵为h₂, 根据式(6)求得输出权重。

sDSAE-ELM学习过程如算法2所示。

算法2 sDSAE-ELM

输入训练集{x_i, t_i}, (x_i∈ ⁿ, t_i∈ ^m, i=1, 2, …, N), 各DSAE的激活函数, 退化率v, 稀疏性参数ρ

输出输出权重β

步骤1 对原始输入x进行预处理和退化处理。训练DSAE1, 得到第一隐含层的输出h₁以及网络参数w₁、b₁。

步骤2 输入h₁, 训练DSAE2, 得到第二隐含层的输出h₂以及最优网络参数w₂、b₂。

步骤3 将h₁、w₂和b₂分别作为ELM的输入、输入权值和隐含偏置, ELM的隐层输出为h₂, 根据式(7)计算得到β。

3 实验与结果分析 3.1 实验环境与数据集

本文实验环境为Matlab R2017b, 计算机配置为Intel^Ⓡ Core^TM i7-4790 CPU 3.60 GHz, 16 GB RAM。

sDSAE-ELM属于深度学习算法, 在处理高维含噪数据时具有较好的泛化性能和鲁棒性。为此, 本文选用MNIST、USPS、Fashion-MNIST和Convex 4个数据集作为实验数据, 详细描述如表 1所示。

下载CSV 表 1 数据集描述 Table 1 Description of dataset

3.2 稀疏性分析

在网络隐含层加入稀疏性约束, 可使模型模拟人脑的学习过程, 其中少数节点被激活, 多数处于抑制状态, 保证了数据在网络中的有效传递。同时, 稀疏性约束的加入也可优化网络结构, 提高模型的整体性能。

3.2.1 稀疏性约束对分类准确率的影响

为分析加入稀疏性约束对分类准确率的影响, 本节比较加入不同程度稀疏性约束的sDSAE-ELM算法在MNIST数据及其加噪数据集上的分类准确率, 稀疏性参数分别取0.00、0.01、0.05、0.10、0.15、0.20, 网络结构设置为784-350-1600-10, 其他参数设置为:激活函数选择sigmoid函数, 学习速率α取0.5, 退化率v取0.2, 训练集特征提取10次, 稀疏惩罚权重η取0.04, 系数C取1×10⁵。实验结果如图 4所示。

	Download: JPG larger image
图 4 不同ρ取值下的分类准确率 Fig. 4 Classification accuracies under different values of ρ

从图 4可以看出, 对于加入不同程度高斯白噪声的MNIST数据, 与不加入稀疏性约束的网络(稀疏性参数ρ取0)相比, 加入稀疏性约束的sDSAE-ELM均具有更好的分类准确率, 原因在于稀疏网络学到的特征表达能更好地描述输入数据, 更有利于ELM进行分类。此外还可以看出, 稀疏性参数取值不同, 得到的分类准确率也不同, 当ρ取0.05时, 分类准确率达到最优, 当ρ取值过大或过小时, 分类准确率有所下降, 说明对于同一的数据而言, 网络不够稀疏或过于稀疏都不利于特征提取, 不能得到较高的分类准确率。

3.2.2 稀疏性约束对特征提取效果的影响

本节对sDSAE-ELM的隐含层进行可视化处理, 比较分析加入不同稀疏性约束对网络特征提取效果的影响。选取MNIST数据集作为实验数据集, 其他参数设置与3.2.1节一致。稀疏性参数ρ分别取0.00、0.01、0.05、0.20时的隐含层可视化结果如图 5所示。

	Download: JPG larger image
图 5 不同ρ取值下的隐含层可视化结果 Fig. 5 Hidden layer visualization results under different values of ρ

从图 5可以看出, 当ρ=0.05时, 隐层可视化结果较未添加稀疏性约束情况下的更清晰独立, 并且结构性更强, 这是因为添加稀疏约束的网络具有稀疏性, 能够学到数据更本质的结构特征, 该特征表达能更好地描述输入数据。由此可见, 稀疏性约束的加入使得sDSAE-ELM具有更优的网络结构, 有利于后续的分类工作。此外还可以看出, 当ρ=0.01和ρ=0.20时, 隐层可视化结果均不如ρ=0.05时清晰可见, 这说明网络具有最优稀疏程度, 当ρ过大时, 网络稀疏性不足, 网络复杂无法提取到更优异的高级抽象特征, 当ρ过小时, 网络过于稀疏, 提取的特征不完整, 无法代表输入数据的完整特征, 因此, 预提取到数据的高级抽象特征, 稀疏性参数ρ必须取值在合理范围内。

3.3 鲁棒性分析

sDSAE-ELM对原始样本数据进行退化处理, 其目的在于消除噪声干扰, 提取更本质的特征, 从而提高模型的鲁棒性。为验证sDSAE-ELM具有良好的鲁棒性, 本节设置实验如下:对MNIST数据集加入不同比例的高斯白噪声, 比较其分类准确率。为增强说服力, 分别在稀疏性参数ρ取0.03、0.05、0.07的情况下进行10次实验, 结果取平均值, 其他参数设置与3.2.1节一致。实验结果如图 6所示。

	Download: JPG larger image
图 6 加噪MNIST数据集中的分类准确率对比 Fig. 6 Comparison of classification accuracies in MNIST datdset with noise

从图 6可以看出, 在加入一定高斯白噪声的情况下, 分类准确率只有略微下降, 变化幅度不超过1 %, 这表明含有一定噪声的数据不会显著影响sDSAE-ELM的分类准确率。该算法具有很强的鲁棒性和稳定性, 是因为其对原始含噪数据进行了退化处理, 在对输入数据进行稀疏编码的同时还具有降噪功能。通过加入数据退化过程, sDSAE能够提取到更具鲁棒性的高级抽象特征, 为极限学习机提供输入权值与隐层偏置, 从而增强算法鲁棒性和抗噪能力。

3.4 性能对比分析

为验证sDSAE-ELM算法在处理高维含噪数据时的综合性能, 本节实验将ELM、PCA-ELM^[19]、ELM-AE^[15]、DAE-ELM^[20]以及sDSAE-ELM在多个数据集上进行性能对比。分别使用MNIST、USPS、Fashion-MNIST和Convex原始数据集, 以及在其基础上进行如下加噪操作的数据集共16个数据集作为实验数据:1)添加服从N(0, 0.01)的高斯白噪声; 2)添加密度为0.1的椒盐噪声; 3)添加服从N(0, 0.01)的高斯白噪声+密度为0.1的椒盐噪声。

为保证实验的准确性和高效性(训练时间短), 实验采用小批量数据模式, 各数据集批量大小为100。为保证对比实验的可信性, ELM、PCA-ELM、ELM-AE、DAE-ELM、sDSAE-ELM的网络结构尽可能相似, 分别设置为X-1600-Y、X-1600-Y、X-350-1600-Y、X-350-1600-Y、X-350-1600-Y。PCA-ELM取前200维。DAE-ELM部分参数设置如下:激活函数选择sigmoid函数, 学习速率α取0.5, 退化率v取0.2, 训练集特征提取10次。sDSAE-ELM参数设置如下:稀疏性参数数ρ取0.05, 稀疏惩罚权重η取0.04, 系数C取1×10⁵, 其余参数设置同DAE-ELM。不同算法的分类性能比较如表 2所示, 其中最优结果加粗表示。

表 2 5种算法的分类准确率对比 Table 2 Comparison of classification accuracies of five algorithms

%
数据集	加噪情况	ELM	PCA-ELM	ELM-AE	DAE-ELM	sDSAE-ELM
MNIST	原始数据集	94.90	93.79	96.11	95.91	97.19
	高斯白噪声	94.09	93.91	96.71	95.91	96.97
	椒盐噪声	88.15	91.28	95.58	91.28	95.10
	高斯白噪声+椒盐噪声	87.52	90.94	95.56	90.57	94.78
USPS	原始数据集	96.74	96.66	97.63	97.10	97.74
	高斯白噪声	90.96	91.51	89.40	92.04	93.07
	椒盐噪声	79.42	79.67	79.67	81.52	83.33
	高斯白噪声+椒盐噪声	77.28	78.02	79.24	80.62	81.86
Fashion-MNIST	原始数据集	85.56	86.02	85.93	85.34	86.65
	高斯白噪声	84.32	85.73	85.64	84.70	85.02
	椒盐噪声	80.33	82.01	82.97	80.91	83.50
	高斯白噪声+椒盐噪声	79.54	80.13	81.96	79.36	82.94
Convex	原始数据集	65.02	61.20	66.45	70.78	75.06
	高斯白噪声	63.92	60.80	65.86	70.34	74.68
	椒盐噪声	57.71	56.96	62.51	65.52	71.18
	高斯白噪声+椒盐噪声	56.98	56.80	61.67	63.93	69.69

下载CSV 表 2 5种算法的分类准确率对比 Table 2 Comparison of classification accuracies of five algorithms

从表 2可以看出:与ELM算法相比, sDSAE-ELM的分类准确率在原始MNIST数据集中提升了2.41 %, 在加噪MNIST数据中平均提升了6.33 %; 在原始USPS数据集提升了1.03 %, 在加噪USPS数据集中平均提升了4.28 %; 在原始Fashion-MNIST数据集中提升了0.62 %, 在加噪Fashion-MNIST数据集平均提升了3.26 %; 在Convex数据集中提升了15.44 %, 在加噪Convex数据集中平均提升了20.68 %。原因在于sDSAE能够提取输入数据的高级抽象特征, 为ELM提供输入数据、输入权值和隐层偏置, 从而解决ELM隐层参数随机赋值的问题, 因此, sDSAE-ELM具有较其他算法更高的分类准确率。同时还可以看出, 在处理加噪数据集时, sDSAE-ELM分类准确率提升更明显, 这是由于sDSAE-ELM对原始输入进行了退化处理, 从而削弱了噪声的干扰, 因此其具有较强的鲁棒性和抗噪能力。

同时由表 2数据可知, 无论数据集是否加噪, sDSAE-ELM的分类准确率均高于PCA-ELM, 原因在于PCA-ELM仅是保留部分重要特征, 没有得到数据的深层特征, 而sDSAE-ELM从数据中提取的是高级抽象特征, 更能体现数据的本质。而个别数据集上PCA-ELM分类准确率更优, 这可能是在删减特征时将噪声一并删去的原因。

ELM-AE、DAE-ELM、sDSAE-ELM都属于深层神经网络, 而sDSAE-ELM展现出更优的性能, 原因在于其具有优化的网络结构:稀疏性约束的加入使得网络的学习过程更类似于人脑的学习过程, 在进行学习时, 只有少量的神经元被激活, 多数处于抑制状态^[21]; 同时降噪规则的加入, 则能够有效防止过拟合问题, 提高算法的鲁棒性和泛化能力。

4 结束语

本文通过将sDSAE与ELM相结合, 提出一种新的深度学习算法sDSAE-ELM, 利用sDSAE提取数据更具代表性的深层抽象特征, 为ELM提供输入权值与隐层偏置, 克服ELM隐层参数随机赋值导致网络结构复杂、鲁棒性较弱的不足, 同时保留ELM运算速度快的优势。实验结果表明, 与ELM、PCA-ELM、ELM-AE等算法相比, 本文算法具有优化的网络结构和较强的鲁棒性, 在高维数据集上分类准确率更高。由于在实验过程中发现隐含层数及隐层节点数的设置对实验结果影响较大, 因此后续将研究如何合理确定隐含层数和隐层节点数, 进一步提高算法的分类性能。

参考文献

[1]	HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine:theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.
[2]	LAN Y, HU Z J, SOH Y J, et al. An extreme learning machine approach for speaker recognition[J]. Neural Computing and Applications, 2013, 22(3/4): 417-425.
[3]	YIN Gang, ZHANG Yingtang, LI Zhining, et al. Online fault diagnosis method based on incremental support vector data description and extreme learning machine with incremental output structure[J]. Neurocomputing, 2014, 128(5): 224-231.
[4]	CHEN Zhicong, WU Lijun, CHENG Shuying, et al. Intelligent fault diagnosis of photovoltaic arrays based on optimized kernel extreme learning machine and IV characteristics[J]. Applied Energy, 2017, 204: 912-931. DOI:10.1016/j.apenergy.2017.05.034
[5]	HUANG Weimin, LI Ning, LIN Ziping, et al.Liver tumor detection and segmentation using kernel-based extreme learning machine[C]//Proceedings of the 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society.Washington D.C., USA: IEEE Press, 2013: 3662-3665.
[6]	HUANG Weimin, YANG Yongzhong, LIN Zhiping, et al.Random feature subspace ensemble based extreme learning machine for liver tumor detection and segmentation[C]//Proceedings of the 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society.Washington D.C., USA: IEEE Press, 2014: 4675-4678.
[7]	HUANG Z Y, YU Y L, GU J. An efficient method for traffic sign recognition based on extreme learning machine[J]. IEEE Transactions on Cybernetics, 2017, 47(4): 920-933. DOI:10.1109/TCYB.2016.2533424
[8]	IOSIFIDIS A, TEFAS A, PITAS I. Approximate kernel extreme learning machine for large scale data classification[J]. Neurocomputing, 2017, 219: 210-220. DOI:10.1016/j.neucom.2016.09.023
[9]	ZHU Q Y, QIN A K, SUGANTHAN P N. Evolutionary extreme learning machine[J]. Pattern Recognition, 2005, 38(10): 1759-1763. DOI:10.1016/j.patcog.2005.03.028
[10]	XU You, SHU Yang.Evolutionary extreme learning machine-based on particle swarm optimization[C]//Proceedings of the 3rd International Symposium on Neural Networks.Berlin, Germany: Springer, 2006: 644-652.
[11]	CHARAMA L L, ZHOU H, HUANG G B. Extreme learning machines-representational learning with ELMs for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31-34.
[12]	SUN Kai, ZHANG Jiangshe, ZHANG Chunxia. Generalized extreme learning machine autoencoder and a new deep neural network[J]. Neurocomputing, 2017, 230: 374-381. DOI:10.1016/j.neucom.2016.12.027
[13]	DUAN Mingxing, LI Kenli, LI Keqin. An ensemble CNN2ELM for age estimation[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(3): 758-772. DOI:10.1109/TIFS.2017.2766583
[14]	TOH K A. Deterministic neural classification[J]. Neural Computer, 2008, 20(6): 1565-1595. DOI:10.1162/neco.2007.04-07-508
[15]	VINCENT P, LATOCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 11(12): 3371-3408.
[16]	SUN Wenjun, SHAO Siyu, ZHAO Rui, et al. A sparse autoencoder-based deep neural network approach for induction motor faults classification[J]. Measurement, 2016, 89: 171-178. DOI:10.1016/j.measurement.2016.04.007
[17]	XING Chen, MA Li, YANG Xiaoquan. Stacked denoise autoencoder based feature extraction and classification for hyperspectral images[J]. Journal of Sensors, 2016, 2016: 1-10.
[18]	LIN Yu.Research on fusion algorithm of extreme learning machine and auto-encoder[D].Changchun: Jilin University, 2016.(in Chinese) 林雨.极限学习机与自动编码器的融合算法研究[D].长春: 吉林大学, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10183-1016185070.htm
[19]	XIAO Dong, WANG Jichun, PAN Xiaoli, et al. Modeling and control of guide-disk speed of rotary piercer[J]. Control Theory & Applications, 2017, 27(1): 19-25. (in Chinese) 肖冬, 王继春, 潘孝礼, 等. 基于改进PCA-ELM方法的穿孔机导盘转速测量[J]. 控制理论与应用, 2017, 27(1): 19-25.
[20]	LAI Jie, WANG Xiaodan, LI Rui, et al. Denoising autoencoder based extreme learning machine[J]. Journal of Computer Applications, 2019, 39(6): 1619-1625. (in Chinese) 来杰, 王晓丹, 李睿, 等. 基于去噪自编码器的极限学习机[J]. 计算机应用, 2019, 39(6): 1619-1625.
[21]	XU Jun, XIANG Lei, LIU Qingshan, et al. Stacked Sparse AutoEncoder(SSAE) for nuclei detection on breast cancer histopathology images[J]. IEEE Transactions on Medical Imaging, 2016, 35(1): 119-130.