开放科学(资源服务)标志码(OSID):
高维数据在实际应用中普遍存在,这些数据通常被用来构建高质量的机器学习模型,随后进行数据挖掘分析,但高维数据具有计算时间长、存储成本高等问题[1-2]。为了解决这些问题,研究人员提出特征选择、主成分分析等降维方法[3-4]。特征选择是数据挖掘过程中的重要步骤,特别是在许多生物信息学任务中,有效的鲁棒特征选择方法可以提取有意义的特征并且消除有噪声的特征。
现有的特征选择方法大多以数据是完整的或几乎完整的为前提。但在许多实际应用中,例如生物信息学[5]和遥感网络普遍存在数据缺失,现有的特征选择方法大部分不能直接用于包含缺失值的数据集。
对不完整数据集进行特征选择,最直接的方法是对不完整数据集进行一定处理使其保持形式上的完整,然后再做特征选择。处理缺失数据最简单易行的方法是完整样本分析(Complete Case Analysis,CCA),即删除包含缺失值的样本或特征[6]。该方法虽然简单易行,但在缺失样本比例较高和样本总量较小时有很大的局限性,进而影响后续机器学习的准确性。对缺失位置进行填充是另一种较为直接的缺失数据处理方法,应用普遍的是均值填充。均值填充是指以特征观测值的均值作为缺失值的估计值[7],但该方法会使特征不确定性或方差减小。还有一种基于统计学的缺失填补方法是期望最大化(EM)填补法[8],该方法利用现有数据的边缘分布对缺失数据进行极大似然估计,从而得到相应的填补值。ZHANG等[9]提出了k近邻填充,该方法基于近邻样本的特征值相近的假设,以近邻样本的均值作为缺失值的估计值。之后一些改进的k近邻填补方法被提出,其引入灰色关联分析和互信息来更进一步地提高分类精度和填补效果[10-13]。近邻填充的关键在于准确地度量近邻关系,这也带来了一些不足:不同的特征在相似度度量中的重要性是不同的,而k近邻填充中的距离计算将所有特征同等对待;当数据特征数目较多即在高维特征空间中时,样本分布趋于均匀,此时距离并不能反映样本相似性。
在不填充直接进行特征研究方面,LOU等[14]提出基于类间隔的不完整数据特征选择(Feature Selection in Incomplete Data,SID)方法,定义了基于类间隔的目标函数,对其优化使每个样本在其相关子空间中的类间隔最大化,以权重范数比为系数降低缺失样本对于类间隔计算的贡献,该方法不再将某个样本的近邻样本当作是固定的,而是去计算所有样本是某个样本近邻样本的概率。SID特征选择最终学习出一个特征权重向量
本文针对不完整数据中含有未被观察信息和存在异常值的特点,提出一种基于概率矩阵分解(Probability Matrix Decomposition,PMF)技术的鲁棒特征选择方法,使用指示矩阵并利用不完整数据集中的所有信息进行缺失值近似估计。在特征选择算法上基于鲁棒特征选择(Robust Feature Selection,RFS)方法,在损失函数和正则化项中联合使用ℓ2, 1范数[15-16],将ℓ2, 1范数作为损失函数可减轻异常值影响,提升特征选择的鲁棒性。
1 基于矩阵分解的缺失值填充方法考虑不完整数据集
由于直接使用不完整数据集中所有实例来预估缺失值计算量较大,本文首先使用原始标签将原始数据集分簇,将相似度较高的样本分为一簇,假设第
$ \mathit{\boldsymbol{X}}^{i}=\left\{{x}_{n}\left|{y}_{n}=i\right.\right\}, n=\mathrm{1, 2}, \cdots , N $ | (1) |
其包含
$ \mathit{\boldsymbol{X}}^{i}=\left[ {\begin{array}{*{20}{c}} {x_1^i\left( 1 \right)}& \cdots &{x_1^i\left( j \right)}\\ \vdots &{}& \vdots \\ {x_q^i\left( 1 \right)}& \cdots &{x_q^i\left( j \right)} \end{array}} \right] $ | (2) |
其中:
本文基于这样一个假设:同一簇内两个样本相似度比不同簇的两个样本高,以达到在减少计算量的基础上不降低填充准确性的目的,之后分别对每簇中的缺失值进行估计。
在计算过程中利用指示矩阵对未观察到的信息进行过滤,从而达到利用完整和不完整样本中所有有效信息的目的。对于给定的不完整数据集
$ {I}_{n}\left(j\right)=\left\{\begin{array}{l}1, \mathrm{当}{x}_{n}\left(j\right)\mathrm{可}\mathrm{观}\mathrm{测}\mathrm{时}\\ 0, \mathrm{当}{x}_{n}\left(j\right)\mathrm{缺}\mathrm{失}\mathrm{时}\end{array}\right. $ | (3) |
则第
寻找第
$ \widehat{\mathit{\boldsymbol{X}}}^{i}=\left[ {\begin{array}{*{20}{c}} {\hat x_1^i\left( 1 \right)}& \cdots &{\hat x_1^i\left( j \right)}\\ \vdots &{}& \vdots \\ {\hat x_q^i\left( 1 \right)}& \cdots &{\hat x_q^i\left( j \right)} \end{array}} \right] $ | (4) |
将近似矩阵
$ \widehat{\mathit{\boldsymbol{X}}}^{i}=\mathit{\boldsymbol{U}} \cdot {\mathit{\boldsymbol{V}}}^{\mathrm{T}}=\left[ {\begin{array}{*{20}{c}} {\hat x_1^i\left( 1 \right)}& \cdots &{\hat x_1^i\left( j \right)}\\ \vdots &{}& \vdots \\ {\hat x_q^i\left( 1 \right)}& \cdots &{\hat x_q^i\left( j \right)} \end{array}} \right] $ | (5) |
其中:
均方根误差(RMSE)可以用来衡量真实值与预估值之前的差距,本文通过计算目标矩阵
$ {R}_{\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}}=\sum\limits_{q=1}^{L}\sum\limits_{j=1}^{M}{I}_{q}^{i}\left(j\right)\left({x}_{q}^{i}\right(j)-{\widehat{x}}_{q}^{i}{\left(j\right))}^{2} $ | (6) |
由式(5)得:
$ {\widehat{x}}_{q}^{i}\left(j\right)={\mathit{\boldsymbol{U}}}_{q}{\mathit{\boldsymbol{V}}}_{j}^{\mathrm{T}} $ | (7) |
代入式(6)得:
$ {R}_{\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}}=\sum\limits_{q=1}^{L}\sum\limits_{j=1}^{M}{I}_{q}^{i}\left(j\right)\left({x}_{q}^{i}\right(j)-{\mathit{\boldsymbol{u}}}_{q}{\mathit{\boldsymbol{v}}}_{j}^{\mathrm{T}}{)}^{2} $ | (8) |
RMSE值越小则表示填补效果越好。本文通过求解一组
$ \mathrm{m}\mathrm{i}\mathrm{n}\sum\limits_{q=1}^{L}\sum\limits_{j=1}^{M}{I}_{q}^{i}\left(j\right)\left({x}_{q}^{i}\right(j)-{\mathit{\boldsymbol{u}}}_{q}{\mathit{\boldsymbol{v}}}_{j}^{\mathrm{T}}{)}^{2} $ | (9) |
至此,将上述问题转化为一个无约束优化问题,本文采用梯度下降法[18]迭代计算
$ \frac{\partial R}{\partial {\mathit{\boldsymbol{u}}}_{q}}=\sum\limits_{j=1}^{M}{I}_{q}^{i}\left(j\right)(-2{x}_{q}^{i}(j){\mathit{\boldsymbol{v}}}_{j}^{\rm{T}}+2{\mathit{\boldsymbol{u}}}_{q}{{\mathit{\boldsymbol{v}}}_{j}^{\rm{T}}}^{2}) $ | (10) |
更新
$ {\mathit{\boldsymbol{u}}}_{q}^{(t+1)}={\mathit{\boldsymbol{u}}}_{q}^{\left(t\right)}+\alpha \left[\sum\limits_{j=1}^{M}{I}_{q}^{i}\left(j\right)(-2{x}_{q}^{i}(j){\mathit{\boldsymbol{v}}}_{j}^{\rm{T}}+2{\mathit{\boldsymbol{u}}}_{q}{{\mathit{\boldsymbol{v}}}_{j}^{\rm{T}}}^{2})\right] $ | (11) |
其中:
固定
$ \frac{\partial R}{\partial {\mathit{\boldsymbol{v}}}_{j}}=\sum\limits_{q=1}^{L}{I}_{q}^{i}\left(j\right)(-2{x}_{q}^{i}(j){\mathit{\boldsymbol{u}}}_{q}+2{\mathit{\boldsymbol{u}}}_{q}^{2}{\mathit{\boldsymbol{v}}}_{j}^{\rm{T}}) $ | (12) |
更新
$ {\mathit{\boldsymbol{v}}}_{j}^{(t+1)}={\mathit{\boldsymbol{v}}}_{j}^{\left(t\right)}+\alpha \left[\sum\limits_{q=1}^{L}{I}_{q}^{i}\left(j\right)(-2{x}_{q}^{i}(j){\mathit{\boldsymbol{u}}}_{q}+2{\mathit{\boldsymbol{u}}}_{q}^{2}{\mathit{\boldsymbol{v}}}_{j}^{\rm{T}})\right] $ | (13) |
重复式(11)与式(13),迭代优化
遍历所有
$ {I}_{o}=\sum\limits_{n=1}^{N}\sum\limits_{j=1}^{M}{I}_{n}\left(j\right) $ | (14) |
为提升算法精度以及降低算法运算复杂度,本文将上述的矩阵分解扩展为概率矩阵分解。假设数据集第
$ p\left(\mathit{\boldsymbol{U}}\left|{\sigma }_{\mathit{\boldsymbol{U}}}^{2}\right.\right)=\prod\limits _{n=1}^{N}N\left({\mathit{\boldsymbol{U}}}_{i}\left|0, \right.{\sigma }_{\mathit{\boldsymbol{U}}}^{2}\mathit{\boldsymbol{I}}\right) $ | (15) |
$ p\left(\mathit{\boldsymbol{V}}\left|{\sigma }_{\mathit{\boldsymbol{V}}}^{2}\right.\right)=\prod\limits _{j=1}^{M}N\left({\mathit{\boldsymbol{V}}}_{j}\left|0, \right.{\sigma }_{\mathit{\boldsymbol{V}}}^{2}\mathit{\boldsymbol{I}}\right) $ | (16) |
该先验概率可使式(11)和式(13)最终的收敛值不会远离0,从而避免了矩阵
综合上述两个先验概率,可将数据集X上的取值条件概率分布定义为:
$ p\left(\mathit{\boldsymbol{X}}\left|\mathit{\boldsymbol{U}}, \mathit{\boldsymbol{V}}, {\sigma }^{2}\right.\right)={\prod\limits _{n=1}^{N}\prod\limits _{j=1}^{M}\left[N\left({X}_{nj}\left|{\mathit{\boldsymbol{U}}}_{n}^{\mathrm{T}}{\mathit{\boldsymbol{V}}}_{j}, {\sigma }^{2}\right.\right)\right]}^{{I}_{nj}} $ | (17) |
其中:
基于式(15)、式(16)、式(17)的概率密度函数,利用经典的后验概率推导可以得到
为了计算方便,对后验概率取对数,在观测噪声方差和先验方差保持固定的情况下,最大化该对数后验分布等价于使用二次正则化项使误差平方和最小。最后,为了限制数据集中数据的取值范围,对高斯函数的均值施加logistic函数
$ E=\frac{1}{2}\sum\limits_{n=1}^{N}\sum\limits_{j=1}^{M}{I}_{nj}({X}_{nj}-{\mathit{\boldsymbol{U}}}_{i}^{\mathrm{T}}{\mathit{\boldsymbol{V}}}_{j}{)}^{2} $ | (18) |
至此,可以使用梯度下降方法,求解
为增强算法面对异常值时的鲁棒性,本文采用基于ℓ2, 1范数的损失函数来去除异常值,而不使用对异常值敏感的ℓ2范数损失函数。以最小二乘回归为例,使用ℓ2, 1鲁棒损失函数后目标函数如式(19)所示:
$ \mathop {{\rm{min}}}\limits_\mathit{\boldsymbol{W}} \frac{1}{\gamma }{||\mathit{\boldsymbol{X}}^{\mathrm{T}}\mathit{\boldsymbol{W}}-\mathit{\boldsymbol{Y}}||}_{\mathrm{2, 1}}+{||\mathit{\boldsymbol{W}}||}_{\mathrm{2, 1}} $ | (19) |
其中:
将上述目标函数变为带约束的形式,如式(20)所示:
$ \underset{\mathit{\boldsymbol{W}}, \mathit{\boldsymbol{E}}}{\mathrm{m}\mathrm{i}\mathrm{n}}{||\mathit{\boldsymbol{E}}||}_{\mathrm{2, 1}}+{||\mathit{\boldsymbol{W}}||}_{\mathrm{2, 1}}\;\;\mathrm{s}.\mathrm{t}.\;\mathit{\boldsymbol{X}}^{\mathrm{T}}\mathit{\boldsymbol{W}}+\gamma \mathit{\boldsymbol{E}}=\mathit{\boldsymbol{Y}} $ | (20) |
将上述的问题改写为:
$ \underset{\mathit{\boldsymbol{W}}, \mathit{\boldsymbol{E}}}{\mathrm{m}\mathrm{i}\mathrm{n}}{||\left[\begin{array}{l}\mathit{\boldsymbol{W}}\\ \mathit{\boldsymbol{E}}\end{array}\right]||}_{\mathrm{2, 1}}\;\;\mathrm{s}.\mathrm{t}.\;\left[\mathit{\boldsymbol{X}}^{\mathrm{T}}\;\gamma \mathit{\boldsymbol{H}}\right]\left[\begin{array}{l}\mathit{\boldsymbol{W}}\\ \mathit{\boldsymbol{E}}\end{array}\right]=\mathit{\boldsymbol{Y}} $ | (21) |
使
$ \underset{\mathit{\boldsymbol{B}}}{\mathrm{m}\mathrm{i}\mathrm{n}}{||\mathit{\boldsymbol{B}}||}_{\mathrm{2, 1}}\;\;\mathrm{s}.\mathrm{t}.\;\mathit{\boldsymbol{A}}\mathit{\boldsymbol{B}}=\mathit{\boldsymbol{Y}} $ | (22) |
RFS使用一个非常简单的方法来求解式(22),同时这种方法也很容易应用到其他一般的ℓ2, 1范数最小化问题中。
该算法主要基于拉格朗日方法,构造拉格朗日函数如下:
$ L\left(\mathit{\boldsymbol{B}}\right)={||\mathit{\boldsymbol{B}}||}_{\mathrm{2, 1}}-\mathrm{T}\mathrm{r}\left({\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}}^{\mathrm{T}}\right(\mathit{\boldsymbol{A}}\mathit{\boldsymbol{B}}-\mathit{\boldsymbol{Y}}\left)\right) $ | (23) |
求上式对
$ \frac{\partial L\left(\mathit{\boldsymbol{B}}\right)}{\partial \mathit{\boldsymbol{B}}}=2\mathit{\boldsymbol{D}}\mathit{\boldsymbol{B}}-{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}=0 $ | (24) |
其中:
第
$ {d}_{n}\left(n\right)=\frac{1}{2{||{b}_{n}||}_{2}} $ | (25) |
在式(24)两边同乘
$ \begin{array}{l}2\mathit{\boldsymbol{A}}\mathit{\boldsymbol{B}}-\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{D}}}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}=0\Rightarrow 2\mathit{\boldsymbol{Y}}-\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{D}}}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}=0\Rightarrow \\ \mathit{\boldsymbol{ \boldsymbol{\varLambda} }}=2(\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{D}}}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}{)}^{-1}\mathit{\boldsymbol{Y}}\end{array} $ | (26) |
将式(26)代入式(24),得:
$ \mathit{\boldsymbol{B}}={\mathit{\boldsymbol{D}}}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}(\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{D}}}^{-1}{\mathit{\boldsymbol{A}}}^{\mathrm{T}}{)}^{-1}\mathit{\boldsymbol{Y}} $ | (27) |
由于式(22)中的问题是一个凸问题,当且仅当满足式(27)时,
算法1 基于概率矩阵分解的不完整数据集特征选择算法
输入 不完整数据集
输出
初始化U和V,初始化D为单位阵
1.根据式(1)将原始数据集分簇,读取第
重复
2.根据式(11)更新U。
3.根据式(13)更新V。
直到
4.遍历所有
重复
5.计算
6计算对角阵D,其元素取值为
直到收敛
2.2 算法分析本文提出的算法在每次迭代计算中都单调地减少式(22)中问题的目标。
引入以下引理对其进行证明:
引理1 对于任意非零向量
$ {||\mathit{\boldsymbol{b}}||}_{2}-\frac{{||\mathit{\boldsymbol{b}}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}||}_{2}}\le {||{\mathit{\boldsymbol{b}}}_{t}||}_{2}-\frac{{||{\mathit{\boldsymbol{b}}}_{t}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}||}_{2}} $ | (28) |
证明 从
算法的收敛性总结为以下定理:
$ \begin{array}{l}{\left(\sqrt{v}-\sqrt{{v}_{t}}\right)}^{2}\ge 0\Rightarrow v-2\sqrt{v{v}_{t}}+{v}_{t}\ge 0\Rightarrow \\ \sqrt{v}-\frac{v}{2\sqrt{{v}_{t}}}\le \frac{\sqrt{{v}_{t}}}{2}\Rightarrow \sqrt{v}-\frac{v}{2\sqrt{{v}_{t}}}\le \sqrt{{v}_{t}}-\frac{{v}_{t}}{2\sqrt{{v}_{t}}}\end{array} $ | (29) |
将式(29)中的
定理1 算法每次迭代都会单调地降低式(22)中问题的目标,并收敛于问题的全局最优。
证明 可以验证式(27)是以下问题的解:
$ \underset{\mathit{\boldsymbol{B}}}{\mathrm{m}\mathrm{i}\mathrm{n}\mathrm{T}\mathrm{r}}\left({\mathit{\boldsymbol{B}}}^{\mathrm{T}}\mathit{\boldsymbol{D}}\mathit{\boldsymbol{B}}\right)\;\;\mathrm{s}.\mathrm{t}.\;\mathit{\boldsymbol{A}}\mathit{\boldsymbol{B}}=\mathit{\boldsymbol{Y}} $ | (30) |
因此在
$ {\mathit{\boldsymbol{B}}}_{t+1}=\underset{\mathit{\boldsymbol{B}}}{\mathrm{a}\mathrm{r}\mathrm{g}}\underset{\mathit{\boldsymbol{A}}\mathit{\boldsymbol{B}}=\mathit{\boldsymbol{Y}}}{\mathrm{m}\mathrm{i}\mathrm{n}}\mathrm{T}\mathrm{r}{\mathit{\boldsymbol{B}}}^{\mathrm{T}}{\mathit{\boldsymbol{D}}}_{t}\mathit{\boldsymbol{B}} $ | (31) |
这表明:
$ \mathrm{T}\mathrm{r}\left({\mathit{\boldsymbol{B}}}_{t+1}^{\mathrm{T}}{\mathit{\boldsymbol{D}}}_{t}{\mathit{\boldsymbol{B}}}_{t+1}\right)\le \mathrm{T}\mathrm{r}\left({\mathit{\boldsymbol{B}}}_{\mathrm{t}}^{\mathrm{T}}{\mathit{\boldsymbol{D}}}_{t}{\mathit{\boldsymbol{B}}}_{t}\right) $ | (32) |
即:
$ \sum\limits_{i=1}^{m}\frac{{||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}}\le \sum\limits_{i=1}^{m}\frac{{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}} $ | (33) |
其中:向量
根据引理1,对每个
$ {||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}-\frac{{||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}}\le {||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}-\frac{{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}} $ | (34) |
因此,以下不等式成立:
$ \sum\limits_{i=1}^{m}\left({||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}-\frac{{||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}}\right)\le \sum\limits_{i=1}^{m}\left({||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}-\frac{{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}^{2}}{2{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2}}\right) $ | (35) |
结合式(33)和式(35)可以得到:
$ \sum\limits_{i=1}^{m}{||{\mathit{\boldsymbol{b}}}_{t+1}^{i}||}_{2}\le \sum\limits_{i=1}^{m}{||{\mathit{\boldsymbol{b}}}_{t}^{i}||}_{2} $ | (36) |
即:
$ {||{\mathit{\boldsymbol{B}}}_{t+1}||}_{\mathrm{2, 1}}\le {||{\mathit{\boldsymbol{B}}}_{t}||}_{\mathrm{2, 1}} $ | (37) |
因此,本文提出的算法在每次迭代中将单调地降低式(22)中问题的目标。在收敛性上,
为了检验所提算法的有效性,本节分别在合成数据集和真实数据集上进行实验,在不完整数据集中比较了本文提出的PMF、SID算法、传统的先填充再进行特征选择算法,其中传统方法中的填充算法分别为概述中介绍的均值填充(mean)、KNN填充、EM填充,特征选择算法为本文使用的鲁棒特征选择算法RFS和两种基于边缘的特征选择算法:Simba[19]和Relief[20],分别将以上几种算法交叉组合形成9套完整的针对不完整数据集进行特征选择的流程,以评估本文所提算法在高维数据上的分类性能。
本节使用分类精度(ACC)作为评估指标。ACC表示样本分类正确的百分比,即:
$ {A}_{\mathrm{A}\mathrm{C}\mathrm{C}}=\frac{{N}_{c}}{N} $ | (38) |
其中:
本实验环境为MATLAB2019a,为了观察缺失率对算法的影响,本节人工随机地向数据集注入不同比例的缺失值。缺失率范围为5%~65%,以10%为间隔递增,本文缺失率定义为缺失值占所有值的百分比。在此仅考虑缺失机制为完全随机缺失的情况。为了体现特征选择算法的效果,具体地,本文会向特征较少的数据集中添加一些无关特征,实验中向数据中添加的无关特征并不被注入缺失。
如前所述,K为矩阵
![]() |
Download:
|
图 1 不同K值时均方根误差随迭代次数的变化 Fig. 1 Variation of root mean square error with iteration times at different K values |
不止K的取值,学习速率
![]() |
Download:
|
图 2 不同α值均方根误差随迭代次数变化 Fig. 2 Variation of root mean square error with iteration times at different α values |
本节通过设计合成数据集来评价本文算法在存在大量不相关变量的不完整数据中填充缺失值后选择出相关特征的能力。合成数据集包含500个实例和100维特征。其中两维特征是随机产生的0、1序列,将这两维特征做异或运算,产生结果即为合成数据集的标签,剩下的98个特征服从于以0为均值、1为方差的标准正态分布。
本节以所选择的无关特征数目为标准评价特征选择方法。为了简便期间,只比较本文提出的算法与SID算法,以及使用LBFS算法作为特征选择算法的3种传统方法,实验结果如图 3所示。
![]() |
Download:
|
图 3 无关特征数随缺失率的变化 Fig. 3 Variation of irrelevant feature number with deletion rate |
由图 3可以看出,在该数据集上,KNN填充的方法选择出的无关特征数目最多,效果最差,本文提出的算法PMF效果最好,在缺失比例较高的情况下依然能选择出较少的无关特征。SID算法在缺失率较低的情况下效果较好,但在缺失率较高时不如PMF。
3.3 真实数据集本节分别从LIBSVM数据网站、UCI website[21]、肯特岗生物医学数据集等网站下载DLBCL、Mnist、Splice、Wpbc、USPS、Arcene 6个真实数据集。由于生物医学方面数据集往往包含大量冗余特征,更能体现出特征选择的作用,本节选用的数据集大部分与生物医学有关。DLBCL为弥漫大B细胞淋巴瘤基因的相关数据集,Splice是关于识别DNA序列中两种类型的剪接点的数据集,Wpbc数据集则取自威斯康辛大学校医院的乳腺癌病例数据库,Arcene原始数据来自于美国国家癌症研究中心和东维多利亚医学院,收集了通过SELDI技术采集的癌症病人和健康人的质谱信息,用于癌症预测。由于Splice和Wpbc数据集特征较少,这里人为的向其添加2 000个无关特征,无关特征的特征值均通过从正态分布N(0,1)中抽样得到。数据集详细信息如表 1所示。
![]() |
下载CSV 表 1 数据集详细信息 Table 1 Datasets detailed information |
对于真实数据集,因为无法预知其中特征的重要性,所以使用分类准确率为标准评价特征选择方法。在训练集上先进行特征选择,之后对所选特征进行分类,分类准确率高说明特征选择的效果越好。
使用交叉验证方式[22]选择最佳参数组合,将原始数据集分为70%的训练集和30%的测试集,其中训练集的类标签是已知的,假设测试集的类标签未知,通过在训练集上训练得到分类器来预测测试实例的类标签,比较预测得到的类标签与真实的类标签就可以得到该分类器的分类精度。本实验使用SVM分类器进行训练。对于基于KNN填充进行的特征选择,本文选取k=5。
各算法在DLBCL数据集上的分类效果柱状图如图 4所示,其中纵坐标为分类准确率,横坐标依次展示11种不同的算法,不同底纹代表不同的缺失率,这里选取了缺失率为25%、35%和55%时的分类结果,可以看到,本文提出的算法在不同缺失率时准确率都高于其他10个算法,均值填充的3种算法在该数据集上的整体表现略高于KNN填充和EM填充,并且3种不同的特征选择算法效果相差不大,SID算法效果仅次于PMF,因为其利用了不完整数据集中的全部信息,但该算法没有考虑异常值的影响。
![]() |
Download:
|
图 4 不同缺失率下DLBCL数据集的分类准确率 Fig. 4 Classification accuracy of DLBCL dataset under different miss rates |
各算法在Mnist数据集上的分类效果如图 5所示,可以看到,在缺失率较高的情况下,本文提出的算法依然能达到90%的准确率,在该数据集中用KNN填充的3种算法效果较差,可能是该数据集比较稀疏导致近邻关系度量不够准确,EM填充与SID算法效果相差不大,略高于均值填充。
![]() |
Download:
|
图 5 不同缺失率下Mnist数据集的分类准确率 Fig. 5 Classification accuracy of Mnist dataset under different miss rates |
各算法在Splice数据集上的分类效果柱状图如图 6所示,可以看到,基于KNN填充的算法效果较差,在缺失率为25%时只可以达到70%左右的准确率,PMF在相同缺失率时可以达到80%以上的准确率,可见PMF在该数据集上效果有了较大的提升。基于均值填充的算法和SID算法效果较为接近。
![]() |
Download:
|
图 6 不同缺失率下Splice数据集的分类准确率 Fig. 6 Classification accuracy of Splice dataset under different miss rates |
各算法在Wpbc数据集上的分类效果柱状图如图 7所示,可以看到,在该数据集上各个算法的分类准确率普遍较低。在该数据集上基于KNN填充的算法效果较差,均值填充在25%缺失率时的效果较好,在KNN填充和均值填充上RFS特征选择算法的效果比Simba和Relief略高。相比其他算法,本文提出的算法在该数据集上效果依然是最好的。
![]() |
Download:
|
图 7 不同缺失率下Wpbc数据集的分类准确率 Fig. 7 Classification accuracy of Wpbc dataset under different miss rates |
各算法在USPS数据集上的分类效果柱状图如图 8所示,可以看到,本文提出的算法在该数据集上效果较好。在缺失率为5%时,所有算法的分类准确率都高达92%左右,但是随着缺失率增大到55%,其他算法的分类效果有了明显下降,此时本文提出的算法优势更加明显。相比之前的基于填充的算法,SID算法在该数据集上并不具有明显的优势。
![]() |
Download:
|
图 8 不同缺失率下USPS数据集的分类准确率 Fig. 8 Classification accuracy of USPS dataset under different miss rates |
各算法在Arcene数据集上的分类效果如图 9所示,可以看到,本文提出的算法在该数据集上的优势非常明显,其他10种算法在所有缺失比例时的准确率基本都在60%左右,然而PMF算法可以达到90%左右的准确率,可见本文提出的算法非常适用于该数据集,这应该与数据集本身有关。
![]() |
Download:
|
图 9 不同缺失率下Arcene数据集的分类准确率 Fig. 9 Classification accuracy of Arcene dataset under different miss rates |
本节使用3.2节中的合成数据集进行异常值检测,为了方便展示,人工随机地向数据集注入不同比例的异常值,这里使用固定值来模拟异常值。分别在异常值比率为1%、2%、3%时进行实验求无关特征,异常值比率定义为注入异常值的数量占整个数据集的百分比,结果如表 2所示,本文固定缺失值比率为5%。从表 2的数据可以看出,在异常值比例较低时,本算法能筛选出所有的重要特征,随着异常值比率增加,筛选出的无关特征数目有所增加,但仍然保持较低的数量,可见本文算法可以在一定程度上应对不完整数据集中异常值带来的影响。
![]() |
下载CSV 表 2 不同比例异常值与无关特征数目 Table 2 Different proportion outliers and irrelevant features number |
综上所述,基于KNN填充算法在Mnist和Splice数据集上效果较差,虽然该算法利用样本近邻关系来进行填充,在一定程度上更多地利用了不完整数据集的信息,但是近邻关系度量的准确性也会对填充效果造成影响。基于均值填充算法与EM填充算法效果略高于KNN填充算法、SID算法效果仅次于本文算法,因为该算法使用指示矩阵利用了不完整数据集中的全部信息,但是它没有考虑数据集中异常值的影响。PMF算法效果最好,因为其不仅充分利用了不完整数据集中的所有有效信息,还使用ℓ2, 1范数作为损失函数,增强了其应对异常值的鲁棒性,所以与其他算法相比,在所有数据集上分类准确率都有所提升。
4 结束语高维数据集中通常包含缺失值和离群值,对其进行降维是数据挖掘的重要步骤之一。本文针对不完整数据中含有未被观察信息和存在异常值的特点,提出一种基于概率矩阵分解技术的鲁棒特征选择方法。该方法引入指示矩阵利用数据集中全部信息,对不完整数据集进行近似估计,在考虑异常值情形下,利用ℓ2, 1范数对数据点中异常值具有鲁棒性的特点,将其作为回归损失函数,实现鲁棒特征选择。实验结果表明,该方法能够充分利用不完整数据集中的所有信息,避免繁琐的距离运算,可有效应对不完整数据集中异常值带来的影响。下一步考虑将概率矩阵分解填充拓宽到半监督或无监督的特征选择流程上,在数据集标签有缺失甚至无标签的情况下,提升特征选择的效果。
[1] |
ZHU X F, LI X L, ZHANG S C, et al. Robust joint graph sparse coding for unsupervised spectral feature selection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(6): 1263-1275. DOI:10.1109/TNNLS.2016.2521602 |
[2] |
ZHANG Z, LIU L, SHEN F M, et al. Binary multi-view clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(7): 1774-1782. DOI:10.1109/TPAMI.2018.2847335 |
[3] |
ZHU X F, ZHANG S C, ZHU Y H, et al. Self-weighted multi-view fuzzy clustering[J]. ACM Transactions on Knowledge Discovery from Data, 2020, 14(4): 1-17. |
[4] |
HU R Y, ZHU X F, ZHU Y H, et al. Robust SVM with adaptive graph learning[J]. World Wide Web, 2020, 23(3): 1945-1968. DOI:10.1007/s11280-019-00766-x |
[5] |
TSAGRIS M, PAPADOVASILAKIS Z, LAKIOTAKI K, et al. The γ-OMP algorithm for feature selection with application to gene expression data[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 99(1): 1-10. DOI:10.1109/TCBB.2020.3029952 |
[6] |
CISMONDI F, FIALHO A S, VIEIRA S M, et al. Missing data in medical databases: impute, delete or classify?[J]. Artificial Intelligence in Medicine, 2013, 58(1): 63-72. DOI:10.1016/j.artmed.2013.01.003 |
[7] |
GARCIA C, LEITE D, ŠKRJANC I. Incremental missing-data imputation for evolving fuzzy granular prediction[J]. IEEE Transactions on Fuzzy Systems, 2020, 28(10): 2348-2362. DOI:10.1109/TFUZZ.2019.2935688 |
[8] |
SIMONE R. An accelerated EM algorithm for mixture models with uncertainty for rating data[J]. Computational Statistics, 2021, 36(1): 691-714. DOI:10.1007/s00180-020-01004-z |
[9] |
ZHANG S C, LI X L, ZONG M, et al. Efficient kNN classification with different numbers of nearest neighbors[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5): 1774-1785. DOI:10.1109/TNNLS.2017.2673241 |
[10] |
PAN R L, YANG T S, CAO J H, et al. Missing data imputation by K nearest neighbours based on grey relational structure and mutual information[J]. Applied Intelligence, 2015, 43(3): 614-632. DOI:10.1007/s10489-015-0666-x |
[11] |
SEFIDIAN A M, DANESHPOUR N. Missing value imputation using a novel grey based fuzzy c-means, mutual information based feature selection, and regression model[J]. Expert Systems with Applications, 2019, 115: 68-94. DOI:10.1016/j.eswa.2018.07.057 |
[12] |
HUANG C C, LEE H M. A grey-based nearest neighbor approach for missing attribute value prediction[J]. Applied Intelligence, 2004, 20(3): 239-252. DOI:10.1023/B:APIN.0000021416.41043.0f |
[13] |
TIAN J, YU B, YU D, et al. Missing data analyses: a hybrid multiple imputation algorithm using gray system theory and entropy based on clustering[J]. Applied Intelligence, 2014, 40(2): 376-388. DOI:10.1007/s10489-013-0469-x |
[14] |
LOUS, OBRADOVIC Z. Margin-based feature selection in incomplete data[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. 1.]: AAAI Press, 2012: 125-136.
|
[15] |
NIE F, HUANG H, XIAO C, et al. Efficient and robust feature selection via joint ℓ2, 1-norms minimization[C]//Proceedings of International Conference on Neural Information Processing Systems. [S. 1.]: Curran Associates Inc., 2010: 389-397.
|
[16] |
YU H Y, GAO L R, LIAO W Z, et al. Global spatial and local spectral similarity-based manifold learning group sparse representation for hyperspectral imagery classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3043-3056. DOI:10.1109/TGRS.2019.2947032 |
[17] |
ZHANG C K, WANG C. Probabilistic matrix factorization recommendation of self-attention mechanism convolutional neural networks with item auxiliary information[J]. IEEE Access, 2020, 8: 208311-208321. DOI:10.1109/ACCESS.2020.3038393 |
[18] |
MA C, LI Y X, CHI Y J. Beyond procrustes: balancing-free gradient descent for asymmetric low-rank matrix sensing[J]. IEEE Transactions on Signal Processing, 2021, 69(1): 867-877. |
[19] |
GILAD-BACHRACH R, NAVOT A, TISHBY N. Margin based feature selection-theory and algorithms[C]// Proceedings of the 21st International Conference on Machine Learning. New York, USA: ACM Press, 2004: 452-466.
|
[20] |
KIRA K, RENDELL L A. Feature selection problem: traditional methods and a new algorithm[C]//Proceedings of the 20th IEEE National Conference on Artificial Intelligence. Washington D. C., USA: IEEE Press, 1992: 129-134.
|
[21] |
AMINI M R, USUNIER N, GOUTTE C. Uci-dataset-url[EB/OL]. [2021-03-20]. https://dblp.org/rec/journals/prl/Brito.
|
[22] |
LIU Y, JIANG Z S, XIANG J W. An adaptive cross-validation thresholding de-noising algorithm for fault diagnosis of rolling element bearings under variable and transients conditions[J]. IEEE Access, 2020, 8: 67501-67518. DOI:10.1109/ACCESS.2020.2986265 |