开放科学(资源服务)标志码(OSID):
在故障诊断、金融诈骗[1-3]等分类任务中,数据分布通常是不平衡的,类别分布极端时就会形成不平衡数据集。由于少数类别的数据数量相对较少,对准确率的影响也相对较小[4]。在处理不平衡数据集时,目标识别模型受数据自身分布制约学习到的多数类类别特征更多且忽视了少数类别。数据类别分布不平衡现象制约了模型对少数类别目标的识别性能[5-6]。
针对不平衡数据,ZHANG等[7]提出一种使用新保角函数扩展最优间隔分布机(Optimal-margin Distribution Machine,ODM)核矩阵以提高特征空间可分性的不平衡分类方法(Kernel Modified ODM,KMODM)。ZHU等[8]提出一种类权重随机森林(Class Weights Random Forest,CWsRF)算法,用于处理医学数据的不平衡分类。SUN等[9]提出一种加权过采样的深度自编码器(Weighted Minority Oversampling Deep Auto-encoder,WMODA),用于检测实际旋转机械过程中的故障。KHAN等[10]提出一种代价敏感深度神经网络(Cost-Sensitive Deep Neural Network,CS-DNN),用于自动学习多数和少数类的鲁棒特征表示。
由于类别分布不平衡数据会制约模型分类性能,因此为提升模型的不平衡处理能力,采用组合模型的方式增强算法对少数类别数据的特征提取能力。AdaBoost作为一种高效集成学习方法,是提升分类模型不平衡数据分类能力的重要手段之一[11-12],通过调整样本权重和弱分类器权值,将弱分类器组集成为一个强分类器。
宽度学习系统(Broad Learning System,BLS)结构简单且分类精度较高[13]。BLS系统模型结构为数据提取稀疏特征后输入随机向量函数链接神经网络(Random Vector Functional Link Neural Network,RVFLNN)的单层可横向扩展网络[14]。BLS模型相比深度网络模型[10]训练时间短、易于训练与再训练[15]。大量实验结果表明,标准的BLS容易受数据集自身分布的影响,改进的BLS模型相继被提出。XU等[16]提出一种用于预测多元时间序列的R-BLS(Recurrent BLS)模型。CHU等[17]采用加权方式提升了BLS模型对有噪声和异常值工业非线性数据的预测能力。BLS-CCA与CNN的级联模型[18]提升了系统对多模态数据的分类能力。徐鹏飞等[19-20]基于加权极限学习机(Weighted Extreme Learning Machine,WELM),提出一种有效的DDbCs-BLS模型处理不平衡数据,该模型的本质是在训练样本上增加一个额外的权重,以得到更好的分类边界线位置,以改善BLS性能。
为进一步提升BLS的不平衡数据处理能力,本文提出一种可实现权重动态更新的集成加权宽度学习系统(Weighted Broad Learning System,WBLS),在KKT条件下,分析比较BLS与WBLS的优化过程,在误差项上添加对角矩阵权重,降低训练误差,提升分类性能。将WBLS集成到AdaBoost模型中,通过基分类器WBLS数据权重的训练实现WBLS权重的动态更新,获得更符合数据分布特征的权重,并将所有基分类器加权集成为一个具备不平衡数据识别能力的新模型AdaBoost-WBLS。
1 宽度学习系统本节将简要介绍标准BLS结构。与深度学习模型不同,BLS是特征横向排布模型,本质是将数据提取稀疏特征后输入随机向量函数链接神经网络。
当输入数据为
$ {\mathit{\boldsymbol{Z}}}_{m}=\varphi (\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{W}}}_{k}+{\mathit{\boldsymbol{\beta}}}_{k}), m\in (1, {N}_{1}), k\in (1, {N}_{2}) $ | (1) |
其中:
映射提取到的特征可作为RVFLNN层的输入,再经特征选择后得到
$ {\mathit{\boldsymbol{Z}}}_{{e}_{l}}=\xi (\mathit{\boldsymbol{X}}{\mathit{\boldsymbol{W}}}_{{e}_{l}}+{\mathit{\boldsymbol{\beta}}}_{{e}_{l}}), l=\mathrm{1, 2}, \cdots , {N}_{3} $ | (2) |
映射特征层与增强特征层横向扩展为平层宽度特征
$ \mathit{\boldsymbol{A}}=[{\mathit{\boldsymbol{Z}}}_{m}, {\mathit{\boldsymbol{Z}}}_{e}] $ | (3) |
$ \mathit{\boldsymbol{A}}\mathit{\boldsymbol{W}}=\mathit{\boldsymbol{Y}} $ | (4) |
BLS的链接权重
$ \underset{\mathit{\boldsymbol{W}}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\left({||\mathit{\boldsymbol{A}}\mathit{\boldsymbol{W}}-\mathit{\boldsymbol{Y}}||}_{2}^{2}+\lambda {||\mathit{\boldsymbol{W}}||}_{2}^{2}\right) $ | (5) |
$ \mathit{\boldsymbol{W}}=(\lambda \mathit{\boldsymbol{I}}+\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}{)}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{Y}} $ | (6) |
在处理实际数据集时,多数据集都存在不同程度的类别不平衡现象。文献[3, 14]提供了为浅层网络添加敏感损失权重的方法来处理不平衡数据,以实现类间再平衡。与文献[14]的权重形式不同,权值矩阵可采用对角矩阵形式,将权重添加到数据所对应特征上,采用这种权重形式使模型可以与AdaBoost结合。
式(5)与极限学习机(Extreme Learning Machine,ELM)[14]等单层网络最小化训练误差、最大化类间距离的过程相似。与LS-SVM的优化方式相似,本节基于KKT条件[15],对BLS与WBLS约束条件下的凸函数进行优化。通过比较推导结果,分析所添加对角权重
BLS在输入数据
$ \underset{\mathit{\boldsymbol{W}}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\left({||\mathit{\boldsymbol{A}}\mathit{\boldsymbol{W}}-\mathit{\boldsymbol{Y}}||}_{2}^{2}+\lambda {||\mathit{\boldsymbol{W}}||}_{2}^{2}\right) $ | (7) |
$ \mathrm{M}\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{z}\mathrm{e}\left({||\mathit{\boldsymbol{A}}\mathit{\boldsymbol{W}}-\mathit{\boldsymbol{Y}}||}_{2}^{2}+\lambda {||\mathit{\boldsymbol{W}}||}_{2}^{2}\right) $ | (8) |
式(8)可简化如下:
$ \begin{array}{l}\mathrm{M}\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{z}\mathrm{e}\left({||\mathit{\boldsymbol{\xi }}||}_{2}^{2}+\lambda {||\mathit{\boldsymbol{W}}||}_{2}^{2}\right)\\ \mathrm{S}\mathrm{u}\mathrm{b}\mathrm{j}\mathrm{e}\mathrm{c}\mathrm{t}\;\mathrm{ }\mathrm{t}\mathrm{o}\;\mathit{\boldsymbol{A}}\left({\mathit{\boldsymbol{x}}}_{i}\right){\mathit{\boldsymbol{w}}}_{i}={\mathit{\boldsymbol{y}}}_{i}^{\mathrm{T}}-{\xi }_{i}, i=\mathrm{1, 2}, \cdots , u\end{array} $ | (9) |
其中:
在KKT条件下,BLS模型的优化过程可表示如下:
$ {\mathit{\boldsymbol{L }}}_{\mathrm{B}\mathrm{L}\mathrm{S}}=\frac{1}{2}\lambda {||\mathit{\boldsymbol{W}}||}^{2}+\frac{1}{2}\sum\limits_{i=1}^{u}{\xi }_{i}^{2}-\sum\limits_{i=1}^{u}{\alpha }_{i}\left[\mathit{\boldsymbol{A}}\right({\mathit{\boldsymbol{x}}}_{i}){\mathit{\boldsymbol{w}}}_{i}-{\mathit{\boldsymbol{y}}}_{i}+{\xi }_{i}] $ | (10) |
其中:
接下来分别求式(10)中
$ \mathit{\boldsymbol{W}}=[{\mathit{\boldsymbol{w}}}_{1}, {\mathit{\boldsymbol{w}}}_{2}, \cdots , {\mathit{\boldsymbol{w}}}_{u}]={\lambda }^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{\alpha }}={\lambda }^{-1}\sum\limits_{i=1}^{u}\mathit{\boldsymbol{A}}({\mathit{\boldsymbol{x}}}_{i}{)}^{\mathrm{T}}{\alpha }_{i} $ | (11) |
$ \sum\limits_{i=1}^{u}\mathit{\boldsymbol{A}}\left({\mathit{\boldsymbol{x}}}_{i}\right){\mathit{\boldsymbol{w}}}_{i}-{\mathit{\boldsymbol{y}}}_{i}+\sum\limits_{i=1}^{u}{\xi }_{i}=0, i=\mathrm{1, 2}, \cdots , u $ | (12) |
$ {\alpha }_{i}=\sum\limits_{i=1}^{u}{\xi }_{i}, i=\mathrm{1, 2}, \cdots , u $ | (13) |
WBLS的L2范数凸优化目标可表示如下:
$ \underset{\mathit{\boldsymbol{W}}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\left(\frac{1}{2}\times {\mathit{\boldsymbol{W}}}_{p}\times {||\mathit{\boldsymbol{A}}\mathit{\boldsymbol{W}}-\mathit{\boldsymbol{Y}}||}^{2}+\frac{\lambda }{2}{||\mathit{\boldsymbol{W}}||}^{2}\right) $ | (14) |
式(14)可简化如下:
$ \begin{array}{l}\underset{\mathit{\boldsymbol{W}}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\left(\frac{1}{2}\times {\mathit{\boldsymbol{W}}}_{p}\times {||\mathit{\boldsymbol{\xi }}||}^{2}+\frac{\lambda }{2}{||\mathit{\boldsymbol{W}}||}^{2}\right)\\ \mathrm{S}\mathrm{u}\mathrm{b}\mathrm{j}\mathrm{e}\mathrm{c}\mathrm{t}\;\mathrm{ }\mathrm{t}\mathrm{o}\;\mathit{\boldsymbol{A}}\left({\mathit{\boldsymbol{x}}}_{i}\right){\mathit{\boldsymbol{w}}}_{i}={\mathit{\boldsymbol{y}}}_{i}^{\mathrm{T}}-{\xi }_{i}, i=\mathrm{1, 2}, \cdots , u\end{array} $ | (15) |
根据KKT理论,WBLS优化过程可等价表示如下:
$ {\mathit{\boldsymbol{L }}}_{\mathrm{W}\mathrm{B}\mathrm{L}\mathrm{S}}=\frac{\lambda }{2}{||\mathit{\boldsymbol{W}}||}^{2}+\frac{{\mathit{\boldsymbol{W}}}_{p}}{2}\sum\limits_{i=1}^{u}{\xi }_{i}^{2}-\sum\limits_{i=1}^{u}{\alpha }_{i}\left[\mathit{\boldsymbol{A}}\right({\mathit{\boldsymbol{x}}}_{i}){\mathit{\boldsymbol{w}}}_{i}-{\mathit{\boldsymbol{y}}}_{i}+{\xi }_{i}] $ | (16) |
分别对式(16)中的
$ \mathit{\boldsymbol{W}}=[{\mathit{\boldsymbol{w}}}_{1}, {\mathit{\boldsymbol{w}}}_{2}, \cdots , {\mathit{\boldsymbol{w}}}_{u}]={\lambda }^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{\alpha }}={\lambda }^{-1}\sum\limits_{i=1}^{u}\mathit{\boldsymbol{A}}({\mathit{\boldsymbol{x}}}_{i}{)}^{\mathrm{T}}{\alpha }_{i} $ | (17) |
$ \sum\limits_{i=1}^{u}\mathit{\boldsymbol{A}}\left({\mathit{\boldsymbol{x}}}_{i}\right){\mathit{\boldsymbol{w}}}_{i}-{\mathit{\boldsymbol{y}}}_{i}+\sum\limits_{i=1}^{u}{\xi }_{i}=0, i=\mathrm{1, 2}, \cdots , u $ | (18) |
$ {\alpha }_{i}={\mathit{\boldsymbol{w}}}_{{p}_{i}}\sum\limits_{i=1}^{u}{\xi }_{i}, i=\mathrm{1, 2}, \cdots , u $ | (19) |
对比BLS与WBLS在KKT条件下的优化结果的式(13)和式(19)可知,输入数据添加的权重
添加的权重有多种形式,文献[5]采用将敏感损失权重添加到所对应的数据层面。本节直接采用对角矩阵权重
$ {\mathit{\boldsymbol{W}}}_{p}=\left\{\begin{array}{l}g/\#\left({p}_{i}\right), {p}_{i} > \mathrm{A}\mathrm{V}\mathrm{G}\left({p}_{i}\right)\\ 1/\#\left({p}_{i}\right), {p}_{i}\le \mathrm{A}\mathrm{V}\mathrm{G}\left({p}_{i}\right)\end{array}\right. $ | (20) |
其中,
为提升BLS模型对不平衡数据的识别能力,上文从理论上分析了在BLS的误差项上添加权重的作用。为进一步提升模型对于少数类的识别能力,将WBLS集成到AdaBoost.M1框架中,以获得更符合数据分布特征的权重形式。
AdaBoost是一种高效集成学习方法[21],主要思想是在训练空间上生成一个分布D,初始分配每个训练样本的权值为
在AdaBoost原始框架中,训练样本的分布权值是通过动态迭代实现对基分类器的权重更新。在WBLS处理不平衡数据时,添加权重
与传统Boosting类模型集成过程不同,当模型输出数据的类别数为
1)在传统的AdaBoost模型中,第1个基分类器的起始数据的权重通常选用
$ {\mathit{\boldsymbol{D}}}_{1}=\left\{\begin{array}{l}g/(j\times {\mathit{\boldsymbol{W}}}_{p}), {p}_{i} > \mathrm{A}\mathrm{V}\mathrm{G}\left({p}_{i}\right)\\ 1/(1\times {\mathit{\boldsymbol{W}}}_{p}), {p}_{i}\le \mathrm{A}\mathrm{V}\mathrm{G}\left({p}_{i}\right)\end{array}\right. $ | (21) |
其中:
2)在传统Boosting类模型中,集成学习过程是对所有训练样本之间进行归一化迭代处理,而本文模型采用在类别内部归一化的方法,以达到提升类间平衡度的目的,即分布权值
$ {\mathit{\boldsymbol{D}}}_{t+1}=\frac{{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)\mathrm{e}\mathrm{x}\mathrm{p}(-{\alpha }_{t}{H}_{t}({\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right), {\mathit{\boldsymbol{y}}}_{i}\left)\right)}{{Z}_{t}} $ | (22) |
其中:
$ {\alpha }_{t}=\frac{1}{2}\mathrm{l}\mathrm{n}\left(\frac{1-{\varepsilon }_{t}}{{\varepsilon }_{t}}\right)=\frac{1}{2}\mathrm{l}\mathrm{n}\left(\frac{\sum\limits_{i:{\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)={\mathit{\boldsymbol{y}}}_{i}}{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)}{\sum\limits_{i:{\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)\ne {\mathit{\boldsymbol{y}}}_{i}}{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)}\right) $ | (23) |
$ {H}_{t}\left({\mathit{\Omega} }_{t}\right({\mathit{\boldsymbol{x}}}_{i}, {\mathit{\boldsymbol{y}}}_{i}\left)\right)=\left\{\begin{array}{l}1, {\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{t}\right)={\mathit{\boldsymbol{y}}}_{i}\\ -1, {\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{t}\right)\ne {\mathit{\boldsymbol{y}}}_{i}\end{array}\right. $ | (24) |
算法1 AdaBoost-WBLS算法
输入 训练集
输出 对于测试数据
步骤1 初始化权重
步骤2 循环迭代更新
1)
2)
3)训练BLS分类器,输出结果
4)按照类别分别更新权重,对于第j类:
$ {\alpha }_{t}^{j}=\frac{1}{2}\mathrm{l}\mathrm{n}\left(\frac{\sum\limits_{{x}_{i}\in \mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}j:{\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)={\mathit{\boldsymbol{y}}}_{i}}{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)}{\sum\limits_{{x}_{i}\in \mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}j:{\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)\ne {\mathit{\boldsymbol{y}}}_{i}}{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)}\right) $ |
$ \begin{array}{l} \forall {\mathit{\boldsymbol{x}}}_{i}\in \mathrm{ }\mathrm{c}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}j, {\mathit{\boldsymbol{D}}}_{t+1}\left({\mathit{\boldsymbol{x}}}_{i}\right)=\\ \frac{{\mathit{\boldsymbol{D}}}_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right)\mathrm{e}\mathrm{x}\mathrm{p}(-{\alpha }_{t}^{j}{H}_{t}({\mathit{\Omega} }_{t}\left({\mathit{\boldsymbol{x}}}_{i}\right), j\left)\right)}{{Z}_{t}^{j}} \end{array}$ |
其中:
5)令
步骤3 计算第t个BLS基分类器的投票权重
为验证AdaBoost-WBLS性能,将其分别与Boosting类、BLS类模型进行消融实验研究,之后与KMODM[7]、CWsRF[8]、WMODA[9]、CS-DNN[10]这4种不平衡分类模型进行对比研究。实验环境为Windows 10系统,8 GB内存,Intel Core i7 6500 CPU,编程环境为Matlab 2016b。采用
映射特征层节点数、特征层数、增强节点层数、正则化参数取值范围分别为
引入不平衡率(Imbalance Ratio,IR),评价不同的不平衡数据集中数据的分布形式。在二分类中IR的计算公式如下:
$ {I}_{\mathrm{I}\mathrm{R}}=\frac{\#\left(\mathrm{m}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}\right)}{\#\left(\mathrm{ }\mathrm{m}\mathrm{a}\mathrm{j}\mathrm{o}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}\right)} $ | (25) |
其中:
在多分类中IR的计算公式如下:
$ {I}_{\mathrm{I}\mathrm{R}}=\frac{\mathrm{M}\mathrm{i}\mathrm{n}\#\left({p}_{i}\right)}{\mathrm{M}\mathrm{a}\mathrm{x}\#\left({p}_{i}\right)} $ | (26) |
在对数据进行分类时,准确率是分类任务常用的评价指标,但是在不平衡分类任务中,使用准确率作为评价模型性能的唯一指标,不能准确表征模型对少数类的分类能力。以二分类为例,在一些极端的分布中,少数类与多数类的比例可能达到99∶1,模型即使不具备对少数样本的分类能力,依然可以得到较高的准确率,但此时的全局准确率不能用于评价其对于少数类的识别能力。因此,本文还选用G-mean评价指标来评价不平衡数据的分类结果。
在二分类中,将少数类作为正样本(+1),多数类作为负样本(-1),则二分类混淆矩阵如表 1所示。
![]() |
下载CSV 表 1 二分类混淆矩阵 Table 1 Binary confusion matrix |
在表 1中,
准确率(Accuracy)表示所有样本的准确识别率,计算公式如下:
$ {A}_{\mathrm{A}\mathrm{c}\mathrm{c}\mathrm{u}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{y}}=\frac{{T}_{\mathrm{T}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}}{{T}_{\mathrm{T}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}+{F}_{\mathrm{F}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $ | (27) |
召回率(Recall)表示正样本(少数类)的识别率,计算公式如下:
$ {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}^{}} $ | (28) |
特异率(Specificity)表示负样本(多数类)的识别率,计算公式如下:
$ {S}_{\mathrm{S}\mathrm{p}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{f}\mathrm{i}\mathrm{c}\mathrm{i}\mathrm{t}\mathrm{y}}=\frac{{T}_{\mathrm{T}\mathrm{N}}}{{F}_{\mathrm{F}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}} $ | (29) |
G-mean值表示各类别识别率的几何平均值。在二分类任务中,G-mean是召回率与特异率的几何平均值,计算公式如下:
$ G _{\rm{G-mean}} =\sqrt{{R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}\times {S}_{\mathrm{S}\mathrm{p}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{f}\mathrm{i}\mathrm{c}\mathrm{i}\mathrm{t}\mathrm{y}}} $ | (30) |
在多分类任务中,分类目标数大于2。此时,G-mean采用一对多(One-Against-All,OAA)的统计方式,分别计算各类别的识别准确率,再求整体G-mean。当有
$ G _{\rm{G-mean}} =\sqrt{{R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}{\mathrm{l}}_{1}}\times {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}{\mathrm{l}}_{2}}\times \cdots \times {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}{\mathrm{l}}_{j}}} $ | (31) |
选取UCI数据库中15个不平衡数据集作为消融实验与对比实验对象。数据集具体情况如表 2所示,其中,12个数据集是二分类数据集,3个数据集是多分类数据集,不平衡率分布范围为0.007 6~0.912 8。Abalone数据集与Yeast数据集为生物数据集,前者通过物理测量预测鲍鱼的年龄,后者可对核蛋白和非核蛋白的核定位信号进行判别分析。New-thyroid为甲状腺疾病数据集,Glass、Vehicle与Satimage数据集为普通分类数据集。
![]() |
下载CSV 表 2 实验数据集设置 Table 2 Setting of experimental dataset |
本文对宽度学习模型中的正则化参数
实验对象为不平衡数据集Glass4,
![]() |
Download:
|
图 1 Glass4数据集上随 |
根据实验结果可知,在
本文设计一种将WBLS作为基分类器并在AdaBoost框架中嵌入WBLS以提升不平衡数据分类性能的优化方法。设置
在Yeast1vs7数据集上,对AdaBoost-WBLS与传统Boosting框架的BLS迭代过程中G-mean的变化情况进行比较,结果如图 2所示。由图 2可知,AdaBoost-WBLS模型的G-mean曲线上升更快,获取最优基分类的迭代次数更少,稳定性更强,并且峰值更高,表明了学习到的特征更丰富。
![]() |
Download:
|
图 2 Yeast1vs7数据集上AdaBoost-WBLS与Boosting-BLS模型的G-mean Fig. 2 G-mean of AdaBoost-WBLS and Boosting-BLS model on Yeast1vs7 dataset |
在5个数据集上对Boosting-WELM、AdaBoost-WELM、Boosting-WBLS、AdaBoost-WBLS这4种Boosting模型进行性能对比,G-mean结果如表 3所示,Accuracy结果如表 4所示,其中Boosting-WELM和AdaBoost-WELM模型的结果引自文献[3]。BLS参数通过网格搜索设置为最优参数,其中,
![]() |
下载CSV 表 3 Boosting类相关模型消融实验的G-mean Table 3 G-mean of Boosting-related model ablation experiments |
![]() |
下载CSV 表 4 Boosting类相关模型消融实验的Accuracy Table 4 Accuracy of Boosting-related model ablation experiments |
比较表 3、表 4中AdaBoost-WBLS与Boosting-WBLS模型结果可以看出:前者在多数数据集上的G-mean都相对更高,且具有相对较高的Accuracy;在Yeast3数据集上G-mean高0.90个百分点,Accuracy基本相等;在Yeast6数据集上G-mean高5.17个百分点,Accuracy下降了0.98个百分点;在Abalone19数据集上G-mean高1.75个百分点,Accuracy却下降了3.25个百分点,这说明AdaBoost-WBLS模型更关注少数类,而Boosting-WBLS模型更关注多数类的总体准确率。比较表 3、表 4中AdaBoost-WBLS、Boosting-WELM与AdaBoost-WELM模型结果可以得出,在经过网格搜索得出最佳参数后,BLS模型具有更高的G-mean与Accuracy。
3.4.2 BLS类模型实验验证在6个二分类数据集上比较了AdaBoost-WBLS、BLS、DDbCs-BLS模型的G-mean与Accuracy,结果如表 5、表 6所示。由表 5、表 6可以看出:与BLS模型相比,AdaBoost-WBLS模型的G-mean结果均得到了改善,在Yeast3数据集上AdaBoost-WBLS模型提升了9.31个百分点,在Vehicle1数据集上提升了2.38个百分点;与DDbCs-BLS[19]模型相比,AdaBoost-WBLS模型的G-mean在Yeast1数据集上高出3.67个百分点,在Vehicle2数据集上提高了0.8个百分点。由此可见,本文提出的不平衡数据分类方法在结合Boosting模型后,提升了集成模型的局部泛化能力。
![]() |
下载CSV 表 5 BLS类相关模型消融实验的G-mean Table 5 G-mean of Boosting-related model ablation experiments |
![]() |
下载CSV 表 6 BLS类相关模型消融实验的Accuracy Table 6 Accuracy of Boosting-related model ablation experiments |
在Vehicle0、Vehicle3、Yeast3等3个二分类与New-thyriod、Vehicle、Satimage等3个多分类数据集上对比AdaBoost-WBLS与KMODM[7]、CWsRF[8]、WMODA[9]、CS-DNN[10]模型的不平衡数据分类性能。G-mean结果如表 7所示。由表 7可以看出,AdaBoost-WBLS的G-mean明显高于其他4种模型,在Vehicle0数据集上比KMODM模型高出3.74个百分点,在New-thyriod数据集上比CWsRF模型高出3.09个百分点,在Satimage数据集上比WMODA模型高出4.36个百分点,在Vehicle数据集上比CS-DNN模型高出1.15个百分点。实验结果验证了AdaBoost-WBLS模型通过多个加权BLS组合成的新分类器可有效处理不平衡数据。
![]() |
下载CSV 表 7 对比实验的G-mean Table 7 G-mean of contrast experiments |
Accuracy结果如表 8所示,可以看出相比其他4种模型,AdaBoost-WBLS模型的Accuracy相对较高。在New-thyriod数据集上比WMODA模型高出4.65个百分点,达到100%。可见,AdaBoost-WBLS模型在提升对少数类识别能力的同时,具有较高的识别精度。
![]() |
下载CSV 表 8 对比实验的Accuracy Table 8 Accuracy of contrast experiments |
本文研究旨在通过集成AdaBoost与WBLS提升BLS的不平衡数据集处理能力。基于KKT条件推导验证了WBLS的有效性。将加权宽度学习的数据特征与AdaBoost中分类器的权重结合,在算法层面进行AdaBoost与BLS的融合。在AdaBoost-WBLS集成初始化时,WBLS采用基于类别信息的权重,使基分类器具有先验类别信息并且模型更快收敛。在迭代训练过程中,对WBLS基分类器数据权重的更新方式进行调整。对不同类别数据对应的权重采用不同的正则化准则,使权值具有更高的类间区分度,同时显著提升模型的训练效率。实验结果表明,AdaBoost-WBLS模型相比同类模型在二分类与多分类数据集上G-mean均有显著提升,准确率较高,且具有较好的不平衡数据的处理能力。下一步将使用集成BLS的AdaBoost模型,解决多模态数据分类等问题。
[1] |
韩涛, 兰雨晴, 肖利民, 等. 一种增量并行式动态图异常检测算法[J]. 北京航空航天大学学报, 2018, 44(1): 117-124. HAN T, LAN Y Q, XIAO L M, et al. Incremental and parallel algorithm for anomaly detection in dynamic graphs[J]. Journal of Beijing University of Aeronautics and Astronautics, 2018, 44(1): 117-124. (in Chinese) |
[2] |
陈龙, 韩中洋, 赵珺, 等. 数据驱动的综合能源系统运行优化方法研究综述[J]. 控制与决策, 2021, 36(2): 283-294. CHEN L, HAN Z Y, ZHAO J, et al. Review of research of data-driven methods on operational optimization of integrated energy systems[J]. Control and Decision, 2021, 36(2): 283-294. (in Chinese) |
[3] |
LI K, KONG X F, LU Z, et al. Boosting weighted ELM for imbalanced learning[J]. Neurocomputing, 2014, 128: 15-21. DOI:10.1016/j.neucom.2013.05.051 |
[4] |
GUO H X, LI Y J, LI Y N, et al. BPSO-AdaBoost-KNN ensemble learning algorithm for multi-class imbalanced data classification[J]. Engineering Applications of Artificial Intelligence, 2016, 49: 176-193. DOI:10.1016/j.engappai.2015.09.011 |
[5] |
YEN S J, LEE Y S. Cluster-based under-sampling approaches for imbalanced data distributions[J]. Expert Systems with Applications, 2009, 36(3): 5718-5727. DOI:10.1016/j.eswa.2008.06.108 |
[6] |
古平, 杨炀. 面向不均衡数据集中少数类细分的过采样算法[J]. 计算机工程, 2017, 43(2): 241-247. GU P, YANG Y. Oversampling algorithm oriented to subdivision of minority class in imbalanced data set[J]. Computer Engineering, 2017, 43(2): 241-247. (in Chinese) |
[7] |
ZHANG X G, WANG D X, ZHOU Y C, et al. Kernel modified optimal margin distribution machine for imbalanced data classification[J]. Pattern Recognition Letters, 2019, 125: 325-332. DOI:10.1016/j.patrec.2019.05.005 |
[8] |
ZHU M, XIA J, JIN X Q, et al. Class weights random forest algorithm for processing class imbalanced medical data[J]. IEEE Access, 2018, 6: 4641-4652. DOI:10.1109/ACCESS.2018.2789428 |
[9] |
SUN J, LI H, FUJITA H, et al. Class-imbalanced dynamic financial distress prediction based on AdaBoost-SVM ensemble combined with SMOTE and time weighting[J]. Information Fusion, 2020, 54: 128-144. DOI:10.1016/j.inffus.2019.07.006 |
[10] |
KHAN S H, HAYAT M, BENNAMOUN M, et al. Cost-sensitive learning of deep feature representations from imbalanced data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 29(8): 3573-3587. |
[11] |
XING H J, LIU W T. Robust AdaBoost based ensemble of one-class support vector machines[J]. Information Fusion, 2020, 55: 45-58. DOI:10.1016/j.inffus.2019.08.002 |
[12] |
张旭, 周新志, 赵成萍, 等. 基于犹豫模糊决策树的非均衡数据分类[J]. 计算机工程, 2019, 45(8): 75-79, 91. ZHANG X, ZHOU X Z, ZHAO C P, et al. Unbalanced data classification based on hesitant fuzzy decision tree[J]. Computer Engineering, 2019, 45(8): 75-79, 91. (in Chinese) |
[13] |
CHEN C L P, LIU Z L. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(1): 10-24. DOI:10.1109/TNNLS.2017.2716952 |
[14] |
ZHANG L, SUGANTHAN P N. A comprehensive evaluation of random vector functional link networks[J]. Information Sciences, 2016, 367/368: 1094-1105. DOI:10.1016/j.ins.2015.09.025 |
[15] |
JIN J W, CHEN C L. Regularized robust broad learning system for uncertain data modeling[J]. Neurocomputing, 2018, 322: 58-69. DOI:10.1016/j.neucom.2018.09.028 |
[16] |
XU M L, HAN M, CHEN C L P, et al. Recurrent broad learning systems for time series prediction[J]. IEEE Transactions on Cybernetics, 2020, 50(4): 1405-1417. DOI:10.1109/TCYB.2018.2863020 |
[17] |
CHU F, LIANG T, CHEN C L P, et al. Weighted broad learning system and its application in nonlinear industrial process modeling[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(8): 3017-3031. DOI:10.1109/TNNLS.2019.2935033 |
[18] |
王召新, 续欣莹, 刘华平, 等. 基于级联宽度学习的多模态材质识别[J]. 智能系统学报, 2020, 15(4): 787-794. WANG Z X, XU X Y, LIU H P, et al. Cascade broad learning for multi-modal material recognition[J]. CAAI Transactions on Intelligent Systems, 2020, 15(4): 787-794. (in Chinese) |
[19] |
徐鹏飞, 王敏, 刘金平, 等. 基于数据分布特性的代价敏感宽度学习系统[J]. 控制与决策, 2021, 36(7): 1686-1692. XU P F, WANG M, LIU J P, et al. Data distribution-based cost-sensitive broad learning system[J]. Control and Decision, 2021, 36(7): 1686-1692. (in Chinese) |
[20] |
ZONG W W, HUANG G B, CHEN Y Q. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101: 229-242. DOI:10.1016/j.neucom.2012.08.010 |
[21] |
TOH K A. Deterministic neural classification[J]. Neural Computation, 2008, 20(6): 1565-1595. DOI:10.1162/neco.2007.04-07-508 |