基于改进花朵授粉算法的极限学习机模型

引用本文

邵良杉, 兰亭洋, 李臣浩. 基于改进花朵授粉算法的极限学习机模型[J]. 计算机工程, 2019, 45(12), 281-288. DOI: 10.19678/j.issn.1000-3428.0053285.

SHAO Liangshan, LAN Tingyang, LI Chenhao. Extreme Learning Machine Model Based on Improved Flower Pollination Algorithm[J]. Computer Engineering, 2019, 45(12), 281-288. DOI: 10.19678/j.issn.1000-3428.0053285.

基金项目

国家自然科学基金（71371091）

作者简介

邵良杉(1961—), 男, 教授、博士、博士生导师, 主研方向为数据挖掘、矿业系统工程;
兰亭洋, 硕士;
李臣浩, 硕士

文章历史

收稿日期：2018-12-03
修回日期：2019-01-15

Contents Abstract Full text Figures/Tables PDF

基于改进花朵授粉算法的极限学习机模型

邵良杉 , 兰亭洋 , 李臣浩

辽宁工程技术大学系统工程研究所, 辽宁葫芦岛 125105

收稿日期：2018-12-03；修回日期：2019-01-15

基金项目：国家自然科学基金（71371091）

作者简介：邵良杉(1961—), 男, 教授、博士、博士生导师, 主研方向为数据挖掘、矿业系统工程; 兰亭洋, 硕士; 李臣浩, 硕士.

E-mail: abc551218@126.com

摘要：为提高瓦斯突出风险预测的准确率和效率，在极限学习机（ELM）模型的基础上构建预测模型ACFPA-ELM。采用核线性鉴别分析（KLDA）对瓦斯突出样本数据进行特征抽取，利用代价敏感思想修正ELM适应度函数，同时将Tent混沌搜索和自适应算子引入花朵授粉算法（FPA）中，优化ELM的初始输入权值和阈值，从而提高对瓦斯突出风险的预测能力。实验结果表明，相较于经典的SVM、BP和ELM单一预测模型以及改进的FPA-ELM和PSO-ELM复合预测模型，ACFPA-ELM模型在瓦斯突出风险预测的准确率、预测一致性以及运行效率方面均具有明显的优势。

Extreme Learning Machine Model Based on Improved Flower Pollination Algorithm

SHAO Liangshan , LAN Tingyang , LI Chenhao

System Engineering Institute, Liaoning Technical University, Huludao, Liaoning 125105, China

Abstract: In order to improve the accuracy and efficiency of gas outburst risk prediction, this paper proposes a prediction model ACFPA-ELM based on Extreme Learning Machine(ELM).First, this paper adopts Kernel Linear Discriminant Analysis(KLDA) to extract the features of gas outburst sample data. Then, this paper utilizes the cost sensitive ideas to modify ELM fitness function. At the same time, the Tent chaotic search and adaptive operator are introduced into the Flower Pollination Algorithm(FPA) to optimize the initial input weight and threshold of the ELM, thus improving the prediction ability for gas outburst risk. Experimental results show that, compared with the classic SVM, BP and ELM single prediction models, as well as the improved FPA-ELM and PSO-ELM composite prediction models, the proposed model is superior in the accuracy, consistency and efficiency of gas outburst risk prediction.

0 概述

瓦斯突出作为煤矿作业中的一种地质灾害, 是多种复杂因素共同作用的结果, 其具有极大的破坏性, 严重威胁煤矿的安全生产。目前对瓦斯突出危险性预测的主要方法有支持向量机^[1]、综合指标法^[2]、模糊模式识别^[3]、灰色理论^[4]和神经网络等。

神经网络作为一种智能学习算法, 能够解决非线性、高维变换的问题。文献[5]提出PCA-BP神经网络预测模型, 但由于BP网络训练参数过多, 因此模型精度不高、泛化性差。文献[6]提出KPCA-ELM预测模型, 用极限学习机(Extreme Learning Machine, ELM)替换BP网络, 但由于其随机选取ELM的初始参数, 会导致模型预测结果不唯一。针对此问题, 文献[7-8]分别采用人工蜂群算法和粒子群优化(Particle Swarm Optimization, PSO)算法优化ELM, 但是这2种算法都存在易陷入局部最优解、参数过多、执行过程复杂的问题。此外, 无监督KPCA算法在特征提取时未能充分利用样本的标签项, 导致特征提取后同类样本的距离变大。

花朵授粉算法(Flower Pollination Algorithm, FPA)^[9]作为一种新型元启发式优化算法, 具有参数少、易实现的特点。FPA算法利用概率p(0<p<1)按一定比例进行异花授粉和自花授粉, 体现了Levy飞行策略, 在一定程度上解决了输出结果容易陷入局部最优解的问题, 相比PSO和遗传算法有更强的寻优能力^[9]。

本文构建ACFPA-ELM模型对瓦斯突出风险进行预测。通过引入代价敏感的思想修正ELM模型的适应度函数, 并采用改进的FPA算法对其输入权值和阈值进行优化, 从而得到最优的ELM瓦斯风险预测模型。此外, 利用KLDA算法抽取瓦斯突出数据的特征, 以解决PCA和KPCA算法在特征抽取时忽略标签项的问题, 提高了特征提取的可分性。

1 ACFPA-ELM预测模型

ELM^[10-11]是一种单隐层前馈神经网络学习算法。与其他神经网络相比, ELM优势在于不需要预设大量的训练参数以及训练中间层偏置和输入权值^[12], 并且输出的最优解唯一, 解决了神经网络训练过程复杂、易陷入局部最优解和过分拟合等问题^[13]。但输入权值和阈值的随机选取在一定程度上限制了ELM的精度, 其结果会产生一定的波动性。特别地, 当输入权值和阈值出现零值时, 部分节点失去作用, 从而影响ELM的预测准确率。

虽然FPA算法相比PSO和遗传算法有更好的寻优能力, 但与其他种群优化算法一样, 其也存在易陷入局部最优、收敛速度过慢的问题。许多研究人员对其进行改进, 以进一步提高算法性能。文献[14]在算法本身的Levy飞行中引入万有引力的思想, 提高配子更新的效率。文献[15]将量子系统的态叠加特性融入算法, 用波函数描绘种群个体的位置, 增强异花授粉效率。文献[16]利用高斯变异对配子更新过程进行扰动从而增加了种群的多样性。但上述方法大多存在改进角度单一、时间空间复杂度过大的问题。因此, 本文从多角度对FPA进行改进, 提出ACFPA算法优化ELM的输入权值和阈值以提高其精度。

1.1 ACFPA算法设计 1.1.1 FPA算法

设花粉配子个数为N, 目标函数维度为d, 配子的当前位置为X_i=[x_i₁, x_i₂, …, x_id](i=1, 2, …, N), 配子局部搜索(自花授粉)公式为:

$ \mathit{\boldsymbol{X}}_i^{t + 1} = \mathit{\boldsymbol{X}}_i^t + \varepsilon \left( {\mathit{\boldsymbol{X}}_j^t - \mathit{\boldsymbol{X}}_k^t} \right) $

(1)

其中, X_i^t表示第i个配子在t时刻的位置, X_i^t+1表示第i个配子在t+1时刻的位置, X_j^t、X_k^t为所有配子中除第i个配子以外的任意2个配子在t时刻的位置, ε是服从均匀分布的比例系数。配子的全局搜索(异花授粉粉)公式为:

$ \mathit{\boldsymbol{X}}_i^{t + 1} = \mathit{\boldsymbol{X}}_i^t + L\left( {\mathit{\boldsymbol{X}}_i^t - {\mathit{\boldsymbol{g}}^*}} \right) $

(2)

其中, L为服从Levy分布的随机变量, g^*为全局最优解。L近似表示为:

$ L \sim \frac{{\gamma \cdot \mathit{gam}(\gamma ) \cdot \sin ({\rm{ \mathsf{ π} }}\gamma /2)}}{{{\rm{ \mathsf{ π} }}{s^{1 + \gamma }}}} $

(3)

其中, s≪s₀≪0, gam(γ)为gamma函数。通常, γ=1.5。

由FPA的授粉策略可知, 在异花授粉阶段全程受到当前全局最优解的引导, 而随着迭代次数的增加, 大量粒子过分聚集, 导致算法出现重叠现象, 并陷入局部最优。相反, 在自花授粉阶段, 配子更新不受任何因素引导, 导致配子更新出现明显的盲目性和随机性, 从而大幅限制了算法收敛的速度。同时传统的FPA算法全局以固定比例进行异花授粉和自花授粉, 不能根据不同阶段的实际情况动态分配两者的比重, 降低了算法寻优的效率。此外, FPA初始花粉配子位置的随机选取, 在一定程度上也降低了FPA搜索的效率。上述缺陷限制了FPA的寻优精度和收敛速度, 为此, 本文借助Tent混沌搜索和自适应算子对其进行改进。

1.1.2 Tent混沌映射

Tent映射公式为:

$ {x_{i + 1}} = \left\{ {\begin{array}{*{20}{l}} {2{x_i}, 0 \le {x_i} \le \frac{1}{2}}\\ {2\left( {1 - {x_i}} \right), \frac{1}{2} \le {x_i} \le 1} \end{array}} \right. $

(4)

Tent映射的移位变换公式为:

$ {x_{i + 1}} = \left( {2{x_i}} \right)\, \bmod \, 1 $

(5)

反向解求解公式为:

$ o{x_i} = k\left( {D{u_i} - D{l_i}} \right) - {x_i} $

(6)

基于反向学习的混沌序列生成步骤为:

步骤1 随机产生(0, 1)的初值x₀, z₁=x₀。

步骤2 根据式(5)生成一个x序列。

步骤3 若x_i={0, 0.25, 0.5, 0.75}或x_i=x_i-s, s={0, 1, 2, 3, 4}, 则带入x_i=z_j+₁=z_j+e (e为0~1的随机变量); 否则执行步骤2。

步骤4 若满足迭代次数, 则停止迭代返回x序列; 否则转向步骤2。

步骤5 根据式(6)生成x序列的反向解, 并计算全部解向量的适应度值, 返回前N个最优的解向量。

1.1.3 Tent混沌搜索

本文采用混沌搜索对FPA算法的异花授粉进行优化, 其混沌搜索的步骤如下:

步骤1 采用式(7)将x_i投影到(0, 1)区间。

步骤2 将式(7)代入式(4)进行迭代, 产生混沌序列Z_k^d(0), (k=1, 2, …, C_max), C_max为Tent搜索的最大迭代次数。

步骤3 采用式(8)将z_i(k)载波到解空间。

步骤4 计算当前解的适应度, 并与历史最优适应度进行比较, 保留最优解。

步骤5 若达到最大迭代次数, 则返回最优解, 否则执行步骤2。

$ Z_k^d(0) = \frac{{\left( {X_k^d - X_{\min }^d} \right)}}{{\left( {X_{\max }^d - X_{\min }^d} \right)}} $

(7)

$ V_k^d = X_k^d + \frac{{\left( {X_{\max }^d - X_{\min }^d} \right)}}{2} \times \left( {2Z_k^d(t) - 1} \right) $

(8)

Tent混沌映射在点0.2、0.4、0.6、0.8上会出现混沌吸引子, 并呈现小周期现象, 因此, 当x_i={0, 0.25, 0.5, 0.75}时, 利用公式x_i=z_j+₁=z_j+e (e为0~1的随机变量)替换迭代初值, 增加混沌搜索的内随机性, 从而增加Tent混沌的混沌强度, 同时通过反向学习公式增加了Tent混沌的遍历性, 有助于提高解的质量和求解效率^[17]。

1.1.4 ACFPA算法

本文利用基于反向学习的Tent混沌映射对配子群进行初始化。Tent混沌映射能够运用其特有的非线性规律在目标空间中遍历所有可行解, 同时反向学习策略能够增加花粉配子的多样性, 采用基于反向学习混沌映射对FPA算法的配子进行初始化, 能使配子较为均匀地分布在解空间并增加配子的多样性, 提高初始配子的分布质量。具体实现步骤为:

1) 随机产生初始向量, 并根据式(1)和式(2)生成混沌解序列。

2) 根据式(3)生成对应的反向解。

3) 计算全部解序列的适应度值, 并将前N个最优的解序列作为N个花粉配子的初始位置。

在FPA的异花授粉策略上, 为避免大量配子过分聚集, 增强FPA算法跳出局部最优的能力, 本文在原有异花授粉的基础上, 通过小概率变异将混沌搜索引入FPA的异花授粉中。虽然混沌搜索能够提高异花授粉的搜索能力并且防止陷入局部最优, 但大概率的混沌搜索会增加每次搜索位置重叠的概率, 从而产生冗余搜索。因此, 本文设置变异阈值为0.2, 使其以小概率在整个解空间上进行混沌搜索。改进的异花授粉步骤为:

1) 生成随机数e。

2) 若e大于阈值则跳转步骤3, 否则跳转步骤5。

3) 根据式(7)求得x_i在(0, 1)区间的对应的解z_i₀, 然后对z_i₀进行混沌搜索并返回z_ik。

4) 将z_ik投影到源空间, 生成对应的新解v_i, 令x_i=v_i, 跳转步骤6。

5) 令X_i=X_i+L(X_i-g^*)

6) 返回X_i

本文在自花授粉策略中引入自适应算子, 使自花授粉的范围根据算法的不同阶段动态调整, 增加算法的寻优效率。改进的自花授粉策略为:

$ {\mathit{\boldsymbol{X}}_i^{t + 1} = \mathit{\boldsymbol{X}}_{{\rm{best }}}^t + \alpha \left( {\mathit{\boldsymbol{X}}_r^t - \mathit{\boldsymbol{X}}_i^t} \right)} $

(9)

$ {\alpha = \beta + (1 - \beta )\left( {\frac{{{t_{\max }} - t}}{{{t_{\max }}}}} \right)} $

(10)

其中, X_r^t为t次迭代不为X_i^t的解, β∈(0, 1), 一般为0.1, α为自适应算子。通过式(10)构造自适应算子α, 使α在算法寻优的过程中逐步减小, 进而减小自花授粉中围绕全局最优解搜索的范围。此外算法后期t_max-t和t_max的比值趋近于0, 导致α同时趋于0, 进而使自花授粉范围趋近于0, X_i^t+1=X_best^t。为此, 利用参数β将α限制在(β, 1)之间, 避免在算法后期出现上述问题。

为使算法在不同阶段合理分配自花授粉和异花授粉的比例, 本文通过二次函数关系式联系切换概率p和迭代次数t, 使p随t的增加而指数增长, 增加自花授粉比例在算法后期的增长速度, 使算法的寻优在后期更具针对性。同时定义系数ε(ε∈[0, 1]), 使p在算法运行过程中不会超过ε, 限制区间上限, 防止搜索后期异花授粉趋于0。改进的切换概率p为:

$ p = \varepsilon {\left( {\frac{t}{{{t_{\max }}}}} \right)^2} $

(11)

其中, t为算法当前迭代次数, t_max为算法最大迭代次数。

通过改进切换概率p, 使算法在初期以较大概率执行异花授粉, 在整个解空间上搜寻全局最优解, 在后期逐渐缩小并锁定解的目标范围, p值逐渐变大, 此时算法以较大的概率进行自花授粉, 在较小的范围内进行针对性寻优, 从而加快算法的收敛速度。

1.2 ACFPA-ELM模型构建 1.2.1 基于代价敏感的适应度函数

传统的复合ELM模型将0-1函数作为适应度函数。然而, 将多节点的连续值转换成0、1二进制离散值, 无疑会丢失部分信息, 降低适应度函数对ELM模型的评级能力, 进而使ELM预测模型的收敛速度下降。为此, 本文参考ELM输出结构, 在原有适应度函数的基础上构造一种基于代价敏感的适应度函数, 进一步参考每个输出节点值的大小, 提高算法对ELM初始输入权值和阈值的优化速度。

ELM在处理多分类问题时将输出节点中最大值所对应的节点序号作为模型的预测结果, 因此, 优化ELM的目标就是要尽可能地增大正确类别节点对应的输出值。传统的0-1适应度函数仅将所有样本中被正确分类的比例作为评价标准。为增强适应度函数对ELM模型的评价能力, 本文根据每个样本下正确节点对应输出值占总输出值的比例计算样本被分到正确类别的概率, 并使适应度函数和此概率成正相关。因此, 对于相同的分类结果, 改进的适应度函能根据每个样本被正确分类的概率给予每个分类结果不同的分类代价, 这将大幅加快PSO、FPA等优化算法对神经网络参数的优化速度, 并且在一定程度上降低分类模型的误差。改进的适应度函数为:

$ \mathit{los}{\mathit{s}_\mathit{p}} = \exp \left( { - \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{{\rm{ }}\mathit{ou}{{t_\rm{ right }}}}}{{\sum\limits_{j = 1}^k o u{t_j}}}} } \right) $

(12)

其中, N表示样本个数, k表示样本类别数, p表示迭代次数。out_right表示每个样本分类结果中正确类别所对应输出的输出值, out_j表示模型第j个输出的输出值。

1.2.2 ACFPA-ELM实现步骤

ACFPA算法优化ELM模型的具体步骤如下:

步骤1 定义FPA相关参数, 随机生成一个d维的花粉配子, 然后利用基于反向学习的混沌映射对花粉配子进行初始化。

步骤2 计算切换概率p, 对于每一个配子而言, 产生一个随机数e∈(0, 1)。如果e>p, 则进行自花授粉; 否则异花授粉, 更新配子位置信息。

步骤3 若X_id>Upper_d(d维空间上边界), 则X_id=Upper_d; 若X_id < Low_d(d维空间下边界), 则X_id=Low_d。

步骤4 将当前配子位置作为ELM模型参数对瓦斯突出样本进行预测并将预测结果转化成适应度函数值, 比较其与历史最优位置的适应度函数值, 若优于历史最优值, 则将历史最优值更新为当前位置, 否则直接进行下一步。

步骤5 将当前配子位置对应的适应度函数值和全局最优位置的适应度函数值进行比较, 若优于全局最优值, 则将全局最优值的位置更新为当前配子位置, 否则直接进行下一步。

步骤6 对所有配子执行以上步骤。

步骤7 迭代以上步骤指定次数, 将全局最优位置返回并作为ELM预测模型的初始输入权值和阈值。

2 KLDA特征提取

线性鉴别分析(Linear Discriminant Analysis, LDA)^[18]是一种有监督的线性降维算法。LDA特征抽取的2个基本原则是同类别的样本在样本空间中间隔尽可能地增加和不同类别的样本间距尽可能地减小, 其本质是将样本空间映射到分类性能好的空间上。与其他谱方法类似, LDA最终也归结为求矩阵特征值、特征向量的问题。相比于无监督的PCA降维算法, LDA能充分利用瓦斯样本的标签项对样本空间进行转化。

核线性鉴别分析(Kernel Linear Discriminant Analysis, KLDA)结合核方法和LDA方法, 首先将样本数据非线性地映射到高维空间, 然后在高维空间使用LDA方法进行特征提取, 从而间接地实现了空间非线性变换, 提高了特征提取的有效性和可靠性。

对于一组总数为N、类别数为C的样本D={(x₁, y₁), (x₂, y₂), …, (x_N, y_N)}, KLDA实现过程为:

步骤1 将样本空间通过核函数映射到高维空间Z, 映射为Φ(x_j)=Φ_j, 具体形式为:

$ \phi :\mathit{\boldsymbol{x}}\in {{\mathbb{R}}^{d}}\to \phi (\mathit{\boldsymbol{x}})\in Z $

(13)

步骤2 在高维空间找到最佳投影方向, 使样本数据的类间散度和类内散度的比值J(w)最大化。

$ J(\mathit{\boldsymbol{w}}) = \mathop {{\mathop{\rm argmax}\nolimits} }\limits_w \frac{{\left| {{\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{s}}_{{b^w}}}} \right|}}{{\left| {{\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{s}}_{{w^w}}}} \right|}} $

(14)

步骤3 计算同类别的散度矩阵D_s和不同类别的散度矩阵D_o。

$ {{\mathit{\boldsymbol{D}}_s} = \frac{1}{N}\sum\limits_{i = 1}^C {\sum\limits_{j = 1}^{{N_i}} {\left( {{\mathit{\boldsymbol{y}}^{(i, j)}} - {\mathit{\boldsymbol{y}}^{(i)}}} \right)} } {{\left( {{\mathit{\boldsymbol{y}}^{(i, j)}} - {\mathit{\boldsymbol{y}}^{(i)}}} \right)}^{\rm{T}}}} $

(15)

$ {{\mathit{\boldsymbol{D}}_o} = \frac{1}{N}\sum\limits_{i = 1}^C {{N_i}} \left( {{\mathit{\boldsymbol{y}}^{(i)}} - \frac{{\sum\limits_{j = 1}^C {{\mathit{\boldsymbol{y}}^{(j)}}} }}{N}} \right){{\left( {{\mathit{\boldsymbol{y}}^{(i)}} - \frac{{\sum\limits_{j = 1}^C {{\mathit{\boldsymbol{y}}^{(j)}}} }}{N}} \right)}^{\rm{T}}}} $

(16)

其中, y^{(i, j)}表示第i类中的第j个样本, y^(j)表示第j类样本的均值。

步骤4 计算D_s^－1D_o的前k个特征值和对应的特征向量w_i(i=1, 2, …, k), 得到投影矩阵W={w₁, w₂, …, w_k}。

步骤5 将每个样本数据x_i转化为新的样本数据z_i=W^-1x_i。

步骤6 输出矩阵D′={(x₁, z₁)(x₂, z₂)…, (x_N, z_N)}。

3 实验与结果分析

由于瓦斯突出样本数量有限, 为提高模型稳定性和可靠性, 本文采用10组5折交叉验证实验对模型进行训练。

3.1 瓦斯突出影响因素分析与选取

本文收集20个典型煤矿的130条历史数据, 并将瓦斯突出的影响因素划分为煤与瓦斯、矿区设备、管理和人为3大类, 具体分析如下:

1) 煤与瓦斯是影响瓦斯突出风险的主体因素。煤与瓦斯因素包含瓦斯体积分数h、瓦斯抽采d、煤层瓦斯含量c以及瓦斯涌出量o。

2) 矿区设备是指采矿区的各项硬件设施, 是影响瓦斯突出风险的辅助因素。矿区设备因素具体包含通风设施设备w、监测监控系统s、机电设备p、防护设施g、通讯设施n以及风量供需比r。

3) 管理和人为因素同为影响瓦斯突出风险的辅助因素。管理和人为因素包含技术人员配备a、安全教育与培训sa、安全制度与执行ex以及安全科技与投入de。

结合上述分析, 选取14个瓦斯突出影响因素对瓦斯突出风险进行预测, 部分样本数据如表 1所示。

表 1 瓦斯突出危险等级样本数据示例

样本编号	h	d	c	o	w	s	p	g	n	r	a	sa	ex	de	等级
1	5.00	4.1	1.00	5.0	5.0	5.0	5.0	5.0	5.0	2.18	5.0	5.0	4.0	4.0	4
2	5.00	4.6	1.00	4.0	4.0	4.0	5.0	4.0	4.0	3.10	5.0	4.0	5.0	5.0	4
3	5.00	5.0	5.00	5.0	5.0	5.0	5.0	5.0	5.0	5.00	5.0	5.0	5.0	5.0	5
4	2.67	1.1	3.25	1.9	3.6	4.4	3.2	1.7	2.3	2.77	2.2	2.3	4.4	1.4	3
5	4.00	3.8	2.56	3.0	4.0	5.0	5.0	5.0	5.0	4.01	5.0	4.0	5.0	4.0	4
6	4.00	1.4	1.00	3.0	1.7	5.0	3.0	4.0	4.0	1.90	2.3	1.7	5.0	3.0	3
7	1.00	2.0	2.00	1.0	1.0	1.0	1.0	1.0	1.0	2.00	1.0	1.0	1.0	1.0	1
⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮	⋮
124	2.00	1.3	1.77	1.8	1.9	1.8	1.2	1.3	1.4	2.50	2.9	1.3	1.3	1.8	2
125	5.00	5.0	4.51	5.0	5.0	5.0	5.0	5.0	5.0	4.93	5.0	5.0	5.0	5.0	5
126	5.00	2.5	1.00	2.5	3.8	5.0	5.0	3.0	5.0	2.98	1.7	3.8	5.0	5.0	4
127	5.00	3.9	4.55	4.0	3.0	4.0	5.0	4.0	4.0	1.00	1.3	1.7	5.0	3.0	4
128	3.30	3.2	1.74	4.8	2.2	3.8	3.6	3.4	3.8	5.00	4.4	2.5	2.6	2.2	3
129	1.00	3.0	3.00	2.0	2.0	2.0	2.0	2.0	2.0	3.00	2.0	2.0	2.0	2.0	2
130	1.00	4.0	4.00	3.0	3.0	3.0	3.0	3.0	3.0	4.00	3.0	3.0	3.0	3.0	3

下载CSV 表 1 瓦斯突出危险等级样本数据示例

3.2 特征提取

在实验中对130条数据进行归一化处理, 将瓦斯突出危险等级数目作为ELM的输出节点数, 为匹配ELM模型的输出, 将5个瓦斯突出危险等级标签项分别转化成一维二进制向量。转化后的危险等级标签项如表 2所示。

下载CSV 表 2 危险等级标签转化对应表

根据KLDA算法原理可知, 样本经处理后的特征维度可以压缩到1~4的整数范围内。统一使用KLDA算法进行特征提取, 去除瓦斯突出风险数据的相关性, 结果如表 3所示。可以看出, 在KLDA降维后的4个主成分中, 前3个主成分贡献率(方差百分比)为98.4%(大于85%), 可解释91.97%的原始数据信息。因此, 本文选取降维后的前3个主成分对瓦斯突出危险等级进行预测。

下载CSV 表 3 特征提取后不同特征值的贡献率

3.3 模型参数确定 3.3.1 ELM的隐含层节点数和激活函数

如表 4所示, 激活函数分别为sigmoid、softmax、tanh函数, 节点数为2~100, 将空间划分为99×3的网格空间, 对于每组参数组合迭代200次, 利用网格搜索法选择ELM最优的节点数和激活函数, 结果如图 1所示。

下载CSV 表 4 ELM网格搜索实验结果

	Download: JPG larger image
图 1 不同激活函数对ELM模型准确率的影响

从表 4和图 1可以看出:

1) 使用sigmoid和tanh函数的ELM在不同隐含层节点数的情况下, 其预测准确率和稳定性均高于使用softmax函数的ELM。特别是在节点数较高的情况下, 使用softmax函数的ELM准确率出现大幅波动。因此, softmax激活函数不适用于此模型。

2) 对比sigmoid和tanh函数在ELM上的效果, 发现当采用tanh激活函数、节点数为4时, 模型达到最高的准确率0.905。因此, 本文选择tanh函数作为模型的激活函数, 模型的节点数设定为4。

3.3.2 最优花粉配子个数

在实验中固定ELM模型中参数, 将10~100的整数值作为配子个数的测试值, 采用穷举法确定ACFPA算法的最优花粉配子个数。ACFPA-ELM模型的预测准确率和ACFPA花粉配子个数的关系如图 2所示。

	Download: JPG larger image
图 2 花粉配子个数对ACFPA-ELM模型准确率的影响

从图 2可知, ACFPA算法优化效果最佳时的ELM模型预测准确率为0.978, 其优化效果最差时的模型预测准确率为0.905, 且ACFPA算法达到最佳优化效果时最低的花粉配子个数为21。由于ACFPA算法的运行效率和花粉配子的个数呈负相关, 因此为保证优化效果的同时提高算法的运行效率, 将ACFPA算法的配子个数设置为21。

3.4 ELM模型实验结果

本文实验对比ACFPA-ELM、FPA-ELM、PSO-ELM、ELM 4个模型的预测精度以及运行效率。首先将瓦斯突出样本数据通过KLDA算法进行特征提取, 然后依次带入上述模型进行预测, 结果如图 3所示。为保证实验的可靠性和结果的公平性, 将4个模型中ELM的隐含层节点数、激活函数设定为4和tanh函数。其中, ACFPA-ELM、FPA-ELM、PSO-ELM 3个模型的种群个数固设定为20, 并根据文献[19-20], 将ACFPA的切换概率p和参数γ分别设定为0.2和0.1。

	Download: JPG larger image
图 3 4个模型在10组实验上的最高准确率

从图 3可以看出, ACFPA-ELM、FPA-ELM、PSO-ELM、ELM模型在瓦斯突出危险等级预测上的平均准确率分别为0.978、0.972、0.952、0.902。由此可知:

1) FPA和PSO算法都能通过优化ELM的输入权值和阈值提高预测的准确率。

2) FPA和ACFPA算法通过其自身的Levy飞行机制, 改善了PSO算法易陷入局部最优解的缺陷。

3) ACFPA算法通过调整初始花粉配子的位置分布, 能够进一步提高FPA-ELM模型的预测准确率, 进而提高瓦斯突出风险模式识别的效果。

表 5列出了ELM、PSO-ELM、FPA-ELM和ACFPA-ELM 4个模型的运行时间。由于传统的ELM不存在迭代机制, 因此本文只对比PSO-ELM、FPA-ELM、ACFPA-ELM模型的运行时间。

下载CSV 表 5 4个模型运行时间对比结果

可以看出, 相比于PSO算法, FPA算法运行时间降低了41.1%~51.5%, 表明FPA能够更早地跳出局部最优解, 从而缩短了模型运行的时间。同时因为ACFPA算法优化了花粉配子的初始位置, 所以能够更早接近全局最优解。因此, 在瓦斯突出风险模式的预测上, ACFPA算法相比于PSO算法和传统的FPA算法在时间效率上都有着明显的优势。

3.5 特征提取算法对比

遵循交叉验证的思想, 每次将104条数据作为训练集, 26条数据作为测试集。通过不同隐含层节点数的连续测试, 对比KPCA算法、KLDA算法和不进行特征提取三者对ELM模型预测准确率的影响, 结果如图 4所示。10次试验中模型预测准确率的均值如表 6所示。ELM隐含层节点数和运行时间的关系如图 5所示。

	Download: JPG larger image
图 4 特征提取算法对ELM模型的影响

下载CSV 表 6 2种特征提取算法效果对比

	Download: JPG larger image
图 5 ELM算法隐含层节点数和模型准确率的关系

特征提取实验结果表明:

1) KPCA和KLDA降维算法在多数情况下能够提高ELM模型在瓦斯突出预测上的准确率。

2) 未经降维后的瓦斯突出数据, 在隐含层节点数为15时模型预测准确率达到最优值0.831;用KPCA降维后的数据对模型进行训练, 当ELM的节点个数为13时, 模型预测准确率达到最优值0.885;用KLDA降维后的数据对模型训练, 当ELM的隐含层节点数为4时, 模型预测准确率达到最优值0.903。由此可知, KLDA对瓦斯突出数据的降维效果优于KPCA。

3) 将分别用3种方式处理的瓦斯突出数据在ELM上进行训练, 对比各自最优的隐含层个数, 其中KPCA为13, KLDA为4, 未作特征提取的为15。由于ELM中的大量矩阵的维数取决于设定的隐含层节点个数, 且矩阵乘法的时间和空间复杂度和矩阵维数成正相关, 如图 5所示。当ELM的隐含层节点数为5、13、15时, 算法中矩阵乘法的时间复杂度分别为O(5³)、O(13³)、O(15³), 同理, 可计算出空间复杂度也有同样的关系。因此采用KLDA算法对瓦斯突出数据进行特征提取, 在提高算法准确率的同时, 也间接地降低了ELM的时间和空间复杂度, 提高了运行效率。

4) KLDA算法的所用的时间明显低于KPCA算法所用的时间, 因此, 在保证特征提取效果的同时, KLDA的速度更快。

3.6 不同模型对比

实验对比ACFPA-ELM、SVM、BP 3个模型的预测准确率和卡帕系数, 结果如表 7所示。其中, ACFPA-ELM模型的参数设置同3.3节; BP模型的学习率设为0.2, 隐含层个数为1, 隐层节点个数为4;SVM模型的步长为0.2, 核函数采用RBF核函数。从表 7可以看出, ACFPA-ELM模型的平均预测准确率比SVM和BP模型分别提高了2.8%和15.1%, 其平均卡帕系数分别提高了1.8%和10.4%。由此表明, 在瓦斯突出风险模型的识别上, 相比于上述经典预测模型, 本文模型预测准确率和结果一致性较高。

下载CSV 表 7 3个模型的预测准确率和卡帕系数对比结果

4 结束语

为提高ELM模型在瓦斯突出风险预测上的准确率和速度，本文构建ACFPA-ELM模型，通过KLDA算法提取样本数据的特征，并利用ACFPA算法对ELM模型进行优化。KLDA算法在KPCA算法的基础上参考了瓦斯突出样本数据的标签项，提高了样本质量, 而采用ACFPA算法优化ELM预测模型的初始参数，提升了模型识别的准确率和运行效率，并改善了粒子群算法容易陷入局部最优解和算法收敛速度慢的现象。对瓦斯突出风险预测的实验结果表明，与SVM和BP模型相比, 该模型的预测准确率、预测一致性以及运行效率均较优, 其通过将KLDA降维算法和ACFPA算法相结合，克服了ELM模型对高维样本预测性能较差的局限性，对其他领域不同维度的预测样本也有较好的适用性。后续将对KLDA算法进行改进，进一步提高本文模型对瓦斯突出风险的预测能力。

参考文献

[1]	XIE Guomin, XIE Hong, FU Hua, et al. Prediction model for coal and gas outburst based on NN-SVM[J]. Chinese Journal of Sensors and Actuators, 2016, 29(5): 732-738. (in Chinese) 谢国民, 谢鸿, 付华, 等. 煤与瓦斯突出预测的NN-SVM模型[J]. 传感技术学报, 2016, 29(5): 732-738.
[2]	GUAN Weijuan, ZHANG Guoshu, ZHAO Zhigen, et al. Multi-index comprehensive identification and real-time warning of coal and gas outburst[J]. Journal of Mining and Safety Engineering, 2013, 30(6): 922-929. (in Chinese) 关维娟, 张国枢, 赵志根, 等. 煤与瓦斯突出多指标综合辨识与实时预警研究[J]. 采矿与安全工程学报, 2013, 30(6): 922-929.
[3]	ZHU Zhijie, ZHANG Hongwei, LIU Xin. Mine dynamic disaster prediction based on fuzzy pattern recognition[J]. Journal of Natural Disasters, 2014, 23(4): 19-25. (in Chinese) 朱志洁, 张宏伟, 刘鑫. 基于模糊模式识别的矿井动力灾害预测[J]. 自然灾害学报, 2014, 23(4): 19-25.
[4]	GUO Deyong, LI Nianyou, PEI Dawen, et al. Prediction method of coal and gas outburst using the grey theory and neural network[J]. Journal of University of Science and Technology Beijing, 2007, 29(4): 354-357. (in Chinese) 郭德勇, 李念友, 裴大文, 等. 煤与瓦斯突出预测灰色理论——神经网络方法[J]. 北京科技大学学报, 2007, 29(4): 354-357. DOI:10.3321/j.issn:1001-053X.2007.04.002
[5]	ZHU Zhihao, ZHANG Hongwei, HAN Jun, et al. Prediction of coal and gas outburst based on PCA-BP neural network[J]. China Safety Science Journal, 2013, 23(4): 45-50. (in Chinese) 朱志洁, 张宏伟, 韩军, 等. 基于PCA-BP神经网络的煤与瓦斯突出预测研究[J]. 中国安全科学学报, 2013, 23(4): 45-50.
[6]	LI Sheng, HU Haiyong. Risk identification of coal and gas outburst based on KPCA and improved extreme learning machine model[J]. Application Research of Computers, 2018, 35(1): 172-176. (in Chinese) 李胜, 胡海永. 基于KPCA和改进极限学习机的煤与瓦斯突出危险性判识[J]. 计算机应用研究, 2018, 35(1): 172-176. DOI:10.3969/j.issn.1001-3695.2018.01.036
[7]	HUANG Guangbin, CHEN Lei. Enhanced random search based incremental extreme learning machine[J]. Neurocomputing, 2008, 71(16/17/18): 3460-3468.
[8]	WANG Jie, BI Haoyang. A new extreme learning machine optimized by PSO[J]. Journal of Zhengzhou University(Natural Science Edition), 2013, 45(1): 100-104. (in Chinese) 王杰, 毕浩洋. 一种基于粒子群优化的极限学习机[J]. 郑州大学学报(理学版), 2013, 45(1): 100-104. DOI:10.3969/j.issn.1671-6841.2013.01.024
[9]	YANG Xinshe. Flower pollination algorithm for global optimization[C]//Proceedings of the 11th International Conference on Unconventional Computation and Natural Computation. Berlin, Germany: Springer, 2012: 240-249.
[10]	IGELNIK B, PAO Y H. Stochastic choice of basis functions in adaptive function approximation and the functional-link net[J]. IEEE Transactions on Neural Networks, 1995, 6(6): 1320-1329. DOI:10.1109/72.471375
[11]	HUANG Guangbin, ZHU Q Y, SIEW C K. Extreme learning machine:theory and applications[J]. Neuro-computing, 2006, 70(1/2/3): 489-501.
[12]	DENG Wanyu, ZHENG Qinghua, CHEN Lin, et al. Research on extreme learning of neural networks[J]. Chinese Journal of Computers, 2010, 33(2): 279-287. (in Chinese) 邓万宇, 郑庆华, 陈琳, 等. 神经网络极速学习方法研究[J]. 计算机学报, 2010, 33(2): 279-287.
[13]	ZHANG Nan, DING Shifei, SHI Zhongzhi. Denoising Laplacian multi layer extreme learning machine[J]. Neurocomputing, 2015, 171: 1066-1074.
[14]	XIAO Huihui, WAN Changxuan, DUAN Yanming, et al. Flower pollination algorithm based on gravity search mechanism[J]. Acta Automatica Sinica, 2017, 43(4): 576-594. (in Chinese) 肖辉辉, 万常选, 段艳明, 等. 基于引力搜索机制的花朵授粉算法[J]. 自动化学报, 2017, 43(4): 576-594.
[15]	DUAN Yanming, XIAO Huihui. Flower pollination algorithm based on quantum behavior[J]. Journal of Lanzhou University of Technology, 2016, 42(3): 88-95. (in Chinese) 段艳明, 肖辉辉. 基于量子行为的花朵授粉算法[J]. 兰州理工大学学报, 2016, 42(3): 88-95. DOI:10.3969/j.issn.1673-5196.2016.03.019
[16]	XIAO Huihui, WAN Changxuan, DUAN Yanming, et al. Flower pollination algorithm combination with gauss mutation and Powell search method[J]. Journal of Frontiers of Computer Science & Technology, 2017, 11(3): 478-490. (in Chinese) 肖辉辉, 万常选, 段艳明, 等. 融合高斯变异和Powell法的花朵授粉优化算法[J]. 计算机科学与探索, 2017, 11(3): 478-490.
[17]	ZHANG Yunpeng, ZUO Fei, ZHAI Zhengjun. A color image encryption algorithm based on chaotic Chebychev and variable-parameters logistic systems[J]. Journal of North Western Polytechnical University of Science and Technology:Nature Science Edition, 2009, 37(3): 102-105.
[18]	LIU Xiaozhang, YUEN P C, FENG Guocan, et al. Learning kernel in kernel-based LDA for face recognition under illumination variations[J]. IEEE Signal Processing Letters, 2009, 16(12): 1019-1022. DOI:10.1109/LSP.2009.2027636
[19]	DRAA A. On the performances of the flower pollination algorithm-qualitative and qualitative analyses[J]. Applied Soft Computing, 2015, 34: 349-371. DOI:10.1016/j.asoc.2015.05.015
[20]	YANG Xinshe, MEHMET K, HE Xingshe. Multi-objective flower algorithm for optimization[J]. Procedia Computer Science, 2013, 18(1): 861-868.