开放科学(资源服务)标志码(OSID):
特征选择作为处理高维数据分类的主要方法,在算法学习过程中不仅能够减少训练时间,而且能避免维度灾难与过拟合等问题[1-3],同时是近年来机器学习领域的研究热点之一。与单标签数据一样,多标签数据存在多个特征[4],在分类问题中同样面临维度灾难问题,但与传统单标签特征选择不同,多标签特征选择不仅要考虑样本与标签间的关系,而且要考虑标签与标签间的关系。现有多标签特征选择方法大致可分为过滤式、封装式、嵌入式[5]等3类,其中嵌入式方法是将特征选择过程嵌入学习过程中,综合了过滤式与封装式的优势。
由于多标签分类数据的连续性与标签的离散性,因此一些学者认为多标签数据中,数据与标签的关系可以用logistic回归模型来学习,并通过不同正则项的约束来改进算法的性能,从而进行多标签特征选择。文献[6]提出一种用于多标签图像分类的相关logistic回归模型(CorrLog),将传统的logistic回归模型扩展到多标签情况。文献[7]提出混合整数优化logistic回归的特征子集选择算法,给出一个混合整数线性优化问题,使用标准的整数优化软件求解,并对logistic回归的损失函数进行分段线性逼近。文献[8]提出一种基于
近年来,流形学习快速发展,并逐渐渗透到人们生活以及工业生产等各个领域。为了能够学习到数据特征的基层流形结构,文献[9-10]提出流形学习方法,发现在特征选择的过程中,特征流形结构能够促使特征选择学习到更优的回归系数矩阵。文献[11]提出一个图形学习框架来保持数据的局部和全局结构,该方法利用样本的自表达性来捕获全局结构,使用自适应邻域方法来保持局部结构。文献[12]提出一种新的鲁棒图学习方法,该方法通过自适应地去除原始数据中的噪声和错误,从真实的噪声数据中学习出可靠的图。文献[13]通过数据的自表示性质构建相似矩阵,并运用流形结构和稀疏正则项来约束相似矩阵,从而构建无监督特征选择模型。文献[14]通过将其定义的代价距离代入现有的特征选择模型中,并使用流形结构约束得到一个新的代价敏感特征选择方法。文献[15]使用logistic回归模型,并利用标签流形结构与
假设一个多标签数据集
$ \mathrm{P}\mathrm{r}\left(\left.{y}_{ij}=1\right|{\boldsymbol{x}}_{i}\right)=g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)}{1+\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)} $ | (1) |
样本
$ \mathrm{P}\mathrm{r}\left(\left.{y}_{ij}=0\right|{\boldsymbol{x}}_{i}\right)=1-g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)=\frac{1}{1+\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)} $ | (2) |
其中:
使用极大似然估计法对系数矩阵进行估计,则logistic回归关于多标签数据集的似然函数(联合概率分布)如下:
$ P\left(\boldsymbol{W}\right)=\underset{\boldsymbol{W}}{\mathrm{m}\mathrm{a}\mathrm{x}}\prod \limits_{j=1}^{m}\prod \limits_{i=1}^{n}g{\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)}^{{y}_{ij}}{\left[1-g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)\right]}^{1-{y}_{ij}} $ | (3) |
由于求解式(3)较为困难,因此可以将式(3)转化为利用求解logistic回归的负对数似然函数式(4)的极小值来求解W。
$ \begin{array}{l}L\left(\boldsymbol{W}\right)=\\ -\sum\limits _{j=1}^{m}\sum\limits _{i=1}^{n}\left[{y}_{ij}\mathrm{l}\mathrm{n}\left(g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)\right)+\left(1-{y}_{ij}\right)\mathrm{l}\mathrm{n}\left(1-g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)\right)\right]=\\ -\sum\limits _{j=1}^{m}\sum\limits _{i=1}^{n}\left[{y}_{ij}\cdot {\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}-\mathrm{l}\mathrm{n}\left(1+g\left({\boldsymbol{x}}_{i}{\boldsymbol{w}}_{j}\right)\right)\right]\end{array} $ | (4) |
又因为logistic回归模型可能会出现过拟合、多重共线性、无限解等不适定问题,所以导致系数矩阵估计不正确[16]。为了解决这一问题,一种广泛使用的策略是在式(4)中引入稀疏惩罚项,因此带有惩罚项的logistic回归模型的表达式如下:
$ \underset{\boldsymbol{W}}{\mathrm{m}\mathrm{i}\mathrm{n}}L\left(\boldsymbol{W}\right)+\frac{\beta }{2}R\left(\boldsymbol{W}\right) $ | (5) |
其中:
近年来,流形学习被广泛应用于协同聚类[17]、特征选择、维数约简[18]等任务中。在特征选择算法中,流形学习通常是被用作正则项来约束回归系数矩阵,以便回归系数矩阵拟合数据特征的基层流形结构,但流形学习在特征选择算法中的使用方式并不局限于此。
在本文研究中,将使用流形学习来拟合数据特征的权重矩阵,为学习得到更好的特征权重矩阵并更有效地利用标签信息,进行如下假设:
1)通过学习数据间的相似矩阵Z来探究数据基层结构。例如,标签相似矩阵Z可以通过核函数学习,如式(6)所示:
$ {Z}_{ij}=\left\{\begin{array}{l}\mathrm{e}\mathrm{x}\mathrm{p}\left(-\frac{{‖{\boldsymbol{y}}_{i}-{\boldsymbol{y}}_{j}‖}_{2}^{2}}{t}\right), {\boldsymbol{y}}_{i}\subset {N}_{k}\left({\boldsymbol{y}}_{j}\right)\left|{\boldsymbol{y}}_{j}\subset {N}_{k}\left({\boldsymbol{y}}_{i}\right)\right.\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (6) |
其中:
2)通过学习得到标签F。因为F需要拟合原始标签Y的基层结构,所以
3)理论上认为:
根据以上假设构建标签流形学习模型,其表达式如下:
$ \begin{array}{l}\frac{1}{2}\sum\limits _{i=1}^{n}\sum\limits _{j=1}^{n}{‖{\boldsymbol{x}}_{i}\boldsymbol{U}-{\boldsymbol{x}}_{j}\boldsymbol{U}‖}_{2}^{2}{Z}_{ij}=\\ \sum\limits _{i=1}^{n}{\boldsymbol{x}}_{i}\boldsymbol{U}{\left({\boldsymbol{x}}_{i}\boldsymbol{U}\right)}^{T}{P}_{ii}-\sum\limits _{i=1}^{n}\sum\limits _{j=1}^{n}{\boldsymbol{x}}_{i}\boldsymbol{U}{\left({\boldsymbol{x}}_{j}\boldsymbol{U}\right)}^{\mathrm{T}}{Z}_{ij}=\\ \mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}{\boldsymbol{X}}^{\mathrm{T}}\left(\boldsymbol{P}-\boldsymbol{Z}\right)\boldsymbol{X}\boldsymbol{U}\right)=\\ \mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{\varLambda }\boldsymbol{U}\right)\end{array} $ | (7) |
其中:
同样地,引入相应的惩罚项,以便在学习过程中约束特征权重矩阵,使其能够很好地拟合标签的基层流形结构。因此,标签流形学习模型也可写成以下形式:
$ \mathrm{O}\mathrm{b}\mathrm{j}=\mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{\varLambda }\boldsymbol{U}\right)+\frac{\beta }{2}R\left(\boldsymbol{U}\right) $ | (8) |
通过式(5)和式(8)可以看出,针对特征选择中的惩罚函数
1)惩罚函数
2)惩罚函数
3)在一般情况下,在特征选择的过程中要能够清晰地区分特征的好坏,通常要求能够代表特征的矩阵要行内稳定、行间稀疏。因此,惩罚函数
选取L2,1-范数作为惩罚函数,即
根据要求2,考虑到稀疏矩阵W和权重矩阵U较为相似,且都能用于进行特征选择,初步认为
综上,本文设计柔性结合标签流形结构与logistic回归模型的多标签特征选择算法FSML,其目标优化问题可以改写如下:
$ \mathrm{O}\mathrm{b}\mathrm{j}=L\left(\boldsymbol{W}\right)+\frac{\alpha }{2}\mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{\varLambda }\boldsymbol{U}\right)+\\ \ \ \ \ \ \ \ \frac{\beta }{2}{‖\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}‖}_{\mathrm{2, 1}} $ | (9) |
其中:
针对L2,1-范数的求解,根据文献[20],当
$ {H}_{ii}=\frac{1}{2{‖{\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)}_{i}‖}_{2}} $ | (10) |
因此,可以利用上述优化问题来求出式(9)的近似解,从而将目标函数转变如下:
$ \begin{array}{l}\mathrm{O}\mathrm{b}\mathrm{j}=L\left(\boldsymbol{W}\right)+\frac{\alpha }{2}\mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{\varLambda }\boldsymbol{U}\right)+\\ \frac{\beta }{2}\mathrm{T}\mathrm{r}\left({\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)}^{\mathrm{T}}\boldsymbol{H}\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)\right)\end{array} $ | (11) |
对于该问题,可给定一个H,将W、U与当前的H进行计算,然后根据当前计算出的W、U对H进行更新。
2.2 给定H、W的U求解根据式(11),当固定H和W时,关于U和b的目标函数可改写如下:
$ \begin{array}{l}\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{U}, \boldsymbol{b}\right)=\frac{\alpha }{2}\mathrm{T}\mathrm{r}\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{\varLambda }\boldsymbol{U}\right)+\\ \frac{\beta }{2}\mathrm{T}\mathrm{r}\left({\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)}^{\mathrm{T}}\boldsymbol{H}\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)\right)\end{array} $ | (12) |
利用
$ \frac{\partial \left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{U}, \boldsymbol{b}\right)\right)}{\partial \boldsymbol{b}}=\boldsymbol{b}{\bf{1}}_{d}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{d}+{\boldsymbol{W}}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{n}-{\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{d}=0 $ | (13) |
根据式(13)可计算得出:
$ \boldsymbol{b}=\left({\boldsymbol{U}}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{d}-{\boldsymbol{W}}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{d}\right){\left({\bf{1}}_{\mathrm{d}}^{\mathrm{T}}\boldsymbol{H}{\bf{1}}_{d}\right)}^{-1} $ | (14) |
利用
$ \frac{\partial \left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{U}, \boldsymbol{b}\right)\right)}{\partial \boldsymbol{U}}=\partial \boldsymbol{\varLambda }\boldsymbol{U}+\beta \boldsymbol{H}\boldsymbol{D}\boldsymbol{U}-\beta \boldsymbol{H}\boldsymbol{D}\boldsymbol{W}=0 $ | (15) |
其中:D为中心矩阵,
$ \boldsymbol{U}={\left(\alpha \boldsymbol{\varLambda }+\beta \boldsymbol{H}\boldsymbol{D}\right)}^{-1}\beta \boldsymbol{H}\boldsymbol{D}\boldsymbol{W} $ | (16) |
根据式(11),当固定H和U时,关于W的目标函数可改写如下:
$ \begin{array}{l}\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{W}\right)=L\left(\boldsymbol{W}\right)+\\ \frac{\beta }{2}\mathrm{T}\mathrm{r}\left({\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)}^{\mathrm{T}}\boldsymbol{H}\left(\boldsymbol{W}+{\bf{1}}_{d}{\boldsymbol{b}}^{\mathrm{T}}-\boldsymbol{U}\right)\right)\end{array} $ | (17) |
由于式(17)是可微的,因此可以通过Newton-Raphson算法进行求解,式(17)对W的一阶导如下:
$ \frac{\partial \left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{W}\right)\right)}{\partial \boldsymbol{W}}=-\boldsymbol{X}\boldsymbol{T}\left[\boldsymbol{Y}-g\left(\boldsymbol{X}\boldsymbol{W}\right)\right]+\beta \boldsymbol{H}\boldsymbol{D}\left(\boldsymbol{W}-\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \boldsymbol{U}\right) $ | (18) |
式(17)对W的二阶导如下:
$ \frac{{\partial }^{2}\left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{W}\right)\right)}{\partial \boldsymbol{W}\partial {\boldsymbol{W}}^{\mathrm{T}}}={\boldsymbol{X}}^{\mathrm{T}}\boldsymbol{V}\boldsymbol{X}+\beta \boldsymbol{H}\boldsymbol{D} $ | (19) |
$ \boldsymbol{V}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\sum\limits _{j=1}^{m}\left[\left(1-g\left({x}_{i}{w}_{j}\right)\right)g\left({x}_{i}{w}_{j}\right)\right] $ | (20) |
其中:
W更新公式如下:
$ {\boldsymbol{W}}^{t+1}={\boldsymbol{W}}^{t}-{\left(\frac{{\partial }^{2}\left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{W}\right)\right)}{\partial \boldsymbol{W}\partial {\boldsymbol{W}}^{T}}\right)}^{-1}\frac{\partial \left(\mathrm{O}\mathrm{b}\mathrm{j}\left(\boldsymbol{W}\right)\right)}{\partial \boldsymbol{W}} $ | (21) |
通过以上问题的优化与求解,柔性结合标签流形结构与logistic回归模型的多标签特征选择算法FSML具体描述如下:
算法1 FSML算法
输入 数据矩阵
输出 特征选择结果I
1)根据式(6)计算特征相似矩阵Z并计算
2)初始化中心矩阵D;令
3)初始化系数矩阵
4)计算并排序
FSML算法的目的主要是计算并更新W与U,每次迭代的时间复杂度为
FSML算法的收敛性分析类似于
![]() |
Download:
|
图 1 FSML算法在不同数据集上的收敛性结果 Fig. 1 Convergence results of FSML algorithm on different datasets |
采用5个经典数据集进行FSML算法有效性验证,并将其与SCLS[21]、MDMR[22]、PMU[23]、FIMF[24]、CMLS[25]算法以及Baseline(选择所有特征)进行性能比较,同时选择ML-KNN[26]算法作为代表性的多标签分类算法进行实验。
3.1 数据集与实验设置实验中采用的5个经典数据集来自木兰图书馆(http://mulan.sourceforge.net/datasets.html),具体信息如表 1所示。
![]() |
下载CSV 表 1 数据集信息 Table 1 Dataset information |
实验操作系统环境为Microsoft Windows 7,处理器为Intel® CoreTM i5-4210U CPU @ 1.70 GHz 2.40 GHz,内存为4.00 GB,编程软件为Matlab R2016a。
实验参数设置如下(设置1和设置2均为对应算法的默认设置):
1)在ML-KNN算法中,设置平滑参数
2)在FIMF、MDMR和PMU算法中,利用等宽区间对数据集进行离散化处理[27],并且在FIMF算法中,设置
3)将所有特征选择算法(除ML-KNN算法以外)的最近邻参数设为
4)所有算法的正则化参数通过网格搜索策略进行调整,搜索范围设置为
与单标签学习系统的性能评价不同,多标签学习系统的评价指标更为复杂。假设一个测试数据集
1)汉明损失(Hamming Loss)。度量的是错分的标签比例,即正确标签没有被预测以及错误标签被预测的标签占比。值越小,表现越好。Hamming Loss计算公式如下:
$ {H}_{\mathrm{H}\mathrm{a}\mathrm{m}\mathrm{m}\mathrm{i}\mathrm{n}\mathrm{g} \ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}\left(D\right)=\frac{1}{n}\sum\limits _{i=1}^{n}\frac{1}{m}{‖\boldsymbol{h}\left({d}_{i}\right)\mathrm{\Delta }{\boldsymbol{y}}_{i}‖}_{1} $ | (22) |
其中:
2)排名损失(Ranking Loss)。度量的是反序标签对的占比,即不相关标签比相关标签的相关性还要大的情况。值越小,表现越好。Ranking Loss计算公式如下:
$ \begin{array}{l}{R}_{\mathrm{R}\mathrm{a}\mathrm{n}\mathrm{k}\mathrm{i}\mathrm{n}\mathrm{g} \ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}}\left(D\right)=\frac{1}{n}\sum\limits _{i=1}^{n}\frac{1}{{\bf{1}}_{m}^{\mathrm{T}}{y}_{i}{\bf{1}}_{m}^{\mathrm{T}}\overline{{y}_{i}}}\cdot \\ \sum\limits _{l:{y}_{i}^{l}=1}^{}\sum\limits _{l':{y}_{i}^{l'}=0}\left(\delta \left(\mathrm{r}\mathrm{a}\mathrm{n}{\mathrm{k}}_{i}\left(l\right)\right.\right.\left.\left.\ge \mathrm{r}\mathrm{a}\mathrm{n}{\mathrm{k}}_{i}\left(l'\right)\right)\right)\end{array} $ | (23) |
其中:
3)1-错误率(One-Error)。度量的是预测到的最相关的标签不在真实标签中的样本占比。值越小,表现越好。One-Error计算公式如下:
$ {O}_{\mathrm{O}\mathrm{n}\mathrm{e}-\mathrm{E}\mathrm{r}\mathrm{r}\mathrm{o}\mathrm{r}}\left(D\right)=\frac{1}{n}\sum\limits _{i=1}^{n}\delta \left({y}_{i}^{{l}_{i}}=0\right) $ | (24) |
其中:
4)覆盖率(Coverage)。度量的是排序好的标签列表平均需要移动多少步才能覆盖真实的相关标签集。值越小,表现越好。Coverage计算公式如下:
$ {C}_{\mathrm{C}\mathrm{o}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{g}\mathrm{e}}\left(D\right)=\frac{1}{n}\sum\limits _{i=1}^{n}\underset{l:{y}_{i}^{l}=1}{\mathrm{a}\mathrm{r}\mathrm{g} \ \mathrm{m}\mathrm{a}\mathrm{x}} \ \text{ran}{k}_{i}\left(l\right)-1 $ | (25) |
其中:
5)平均精度(Average Precision)。度量的是比特定标签更相关的那些标签的排名占比。值越大,表现越好。平均精度计算公式如下:
$ {A}_{\mathrm{A}\mathrm{v}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{g}\mathrm{e} \ \mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}\left(D\right)=\frac{1}{n}\sum\limits _{i=1}^{n}\frac{1}{{\bf{1}}_{m}^{\mathrm{T}}{\boldsymbol{y}}_{i}}\sum\limits _{l:{y}_{i}^{l}=1}^{}\frac{\mathrm{p}\mathrm{r}\mathrm{e}{\mathrm{c}}_{i}\left(l\right)}{\mathrm{r}\mathrm{a}\mathrm{n}{\mathrm{k}}_{i}\left(l\right)} $ | (26) |
其中:
本文提出的FSML算法在5个经典数据集上进行实验,并考虑Hamming Loss、Ranking Loss、One-Error、Coverage、Average Precision评价指标对FSML算法与对比算法的性能进行比较。表 2~表 6给出了所有特征选择算法在最优参数时的最优结果,其中,最优结果用粗体标出,次优结果用下划线标出。从表 2~表 6可以看出:大多数的最优结果出现在FSML算法上,从而证明FSML算法的可行性;具体而言,FSML算法虽然在Scene数据集上的所有指标相对于Baseline均略有不足,但在Computers、Health、Scene数据集上的所有指标,以及Yeast数据集上的Ranking Loss、One-Error、Coverage、Average Precision均优于对比算法,并且在Emotion、Computers、Health、Yeast数据集上的所有指标甚至优于Baseline。
![]() |
下载CSV 表 2 各数据集上不同算法的Hamming Loss数据对比 Table 2 Data comparison of Hamming Loss among different algorithms on various datasets |
![]() |
下载CSV 表 3 各数据集上不同算法的Ranking Loss数据对比 Table 3 Data comparison of Ranking Loss among different algorithms on various datasets |
![]() |
下载CSV 表 4 各数据集上不同算法的One-Error数据对比 Table 4 Data comparison of One-Error among different algorithms under various datasets |
![]() |
下载CSV 表 5 各数据集上不同算法的Coverage数据对比 Table 5 Data comparison of Coverage among different algorithms on various datasets |
![]() |
下载CSV 表 6 各数据集上不同算法的Average Precision数据对比 Table 6 Data comparison of Average Precision among different algorithms on various datasets |
综上,FSML算法在各种实验指标上的性能均明显优于FIMF算法、PMU算法、MDMR算法和SCLS算法,在Computers、Health、Scene数据集上明显优于CMLS算法,在Emotion数据集上略优于CMLS算法,并在除Scene数据集以外的其他实验数据集上的指标均优于Baseline。
为能更直观地展示FSML算法与对比算法以及Baseline的性能对比,图 2~图 6给出了所有算法在各种数据集上的性能评价指标。从图 2~图 6可以看出:FSML算法在Scene数据集上的性能表现虽然略次于Baseline,但在其他数据集上的性能表现很好,尤其是在Health数据集上的性能表现最好,明显优于对比算法和Baseline。通过FSML算法与对比算法的比较结果可以看出,FSML算法的实验结果通常优于对比算法,可见将logistic回归模型与流形结构柔性结合,能更准确地学习到数据与标签间的关系;通过与Baseline的比较结果可以看出,FSML算法在大多数数据集上的实验结果都优于Baseline,能够有效去除不相关的特征和冗余特征。
![]() |
Download:
|
图 2 各数据集上不同算法的Hamming Loss曲线对比 Fig. 2 Curve comparison of Hamming Loss among different algorithms on various datasets |
![]() |
Download:
|
图 3 各数据集上不同算法的Ranking Loss曲线对比 Fig. 3 Curve comparison of Ranking Loss among different algorithms on various datasets |
![]() |
Download:
|
图 4 各数据集上不同算法的One-Error曲线对比 Fig. 4 Curve comparison of One-Error among different algorithms on various datasets |
![]() |
Download:
|
图 5 各数据集上不同算法的Coverage曲线对比 Fig. 5 Curve comparison of Coverage among different algorithms on various datasets |
![]() |
Download:
|
图 6 各数据集上不同算法的Average Precision曲线对比 Fig. 6 Curve comparison of Average Precision among different algorithms on various datasets |
为研究FSML算法对参数的敏感程度:一方面,设置近邻参数
![]() |
Download:
|
图 7 参数α、β对FSML算法的影响 Fig. 7 Influence of parameters α and β on FSML algorithm |
![]() |
Download:
|
图 8 近邻参数K对FSML算法的影响 Fig. 8 Influence of parameter K on FSML algorithm |
如图 9所示,横坐标轴表示在各评价指标下各多标签特征选择算法的排序,从左到右,算法的性能越来越好,同时还给出了Bonferroni-Dunn测试结果的平均秩图,并将无显著差异
![]() |
Download:
|
图 9 Bonferroni-Dunn检验结果的平均秩图 Fig. 9 Average rank graph of Bonferroni-Dunn test results |
本文基于L2,1-范数将标签流形结构与logistic回归模型柔性结合,构建多标签特征选择算法FSML,并在多个经典多标签数据集上与现有多标签特征选择算法进行性能对比。实验结果证明了FSML算法的有效性。但由于近邻参数K不能自适应学习,导致同一个K值不一定能够较好地学习到每个数据标签的基层流形结构,从而限制了FSML算法的应用范围。下一步将对相似矩阵学习进行研究,使近邻参数K能够实现自适应学习,并扩展该自适应学习方法在半监督多标签特征选择中的应用与研究。
[1] |
BERMINGHAM M L, PONG-WONG R, SPILIOPOULOU A, et al. Application of high-dimensional feature selection: evaluation for genomic prediction in man[J]. Scientific Reports, 2015, 5: 10312. DOI:10.1038/srep10312 |
[2] |
FRANKLIN J. The elements of statistical learning: data mining, inference and prediction[J]. The Mathematical Intelligencer, 2005, 27(2): 83-85. |
[3] |
SUN X, LIU Y H, LI J, et al. Using cooperative game theory to optimize the feature selection problem[J]. Neurocomputing, 2012, 97: 86-93. DOI:10.1016/j.neucom.2012.05.001 |
[4] |
KONG X N, YU P S. gMLC: a multi-label feature selection framework for graph classification[J]. Knowledge and Information Systems, 2012, 31(2): 281-305. DOI:10.1007/s10115-011-0407-3 |
[5] |
ZHANG R, NIE F P, LI X L, et al. Feature selection with multi-view data: a survey[J]. Information Fusion, 2019, 50: 158-167. DOI:10.1016/j.inffus.2018.11.019 |
[6] |
LI Q, XIE B, YOU J, et al. Correlated logistic model with elastic net regularization for multilabel image classification[J]. IEEE Transactions on Image Processing, 2016, 25(8): 3801-3813. DOI:10.1109/TIP.2016.2577382 |
[7] |
SATO T, TAKANO Y, MIYASHIRO R, et al. Feature subset selection for logistic regression via mixed integer optimization[J]. Computational Optimization and Applications, 2016, 64(3): 865-880. DOI:10.1007/s10589-016-9832-2 |
[8] |
YANG Z Y, LIANG Y, ZHANG H, et al. Robust sparse logistic regression with the Lq(0 < q < 1) regularization for feature selection using gene expression data[J]. IEEE Access, 2018, 6: 68586-68595. DOI:10.1109/ACCESS.2018.2880198 |
[9] |
SHI J B, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888-905. DOI:10.1109/34.868688 |
[10] |
ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323-2326. DOI:10.1126/science.290.5500.2323 |
[11] |
KANG Z, PENG C, CHENG Q, et al. Structured graph learning for clustering and semi-supervised classification[J]. Pattern Recognition, 2021, 110: 107627. DOI:10.1016/j.patcog.2020.107627 |
[12] |
KANG Z, PAN H Q, HOI S C H, et al. Robust graph learning from noisy data[J]. IEEE Transactions on Cybernetics, 2020, 50(5): 1833-1843. DOI:10.1109/TCYB.2018.2887094 |
[13] |
周婉莹, 马盈仓, 郑毅, 等. 稀疏回归和流形学习的无监督特征选择算法[J]. 计算机应用研究, 2020, 37(9): 2634-2639. ZHOU W Y, MA Y C, ZHENG Y, et al. Unsupervised feature selection algorithm based on sparse regression and manifold learning[J]. Application Research of Computers, 2020, 37(9): 2634-2639. (in Chinese) |
[14] |
黄天意, 祝峰. 基于流形学习的代价敏感特征选择[J]. 山东大学学报(理学版), 2017, 52(3): 91-96. HUANG T Y, ZHU F. Cost-sensitive feature selection via manifold learning[J]. Journal of Shandong University(Natural Science), 2017, 52(3): 91-96. (in Chinese) |
[15] |
TANG B G, ZHANG L. Local preserving logistic Ⅰ-Relief for semi-supervised feature selection[J]. Neurocomputing, 2020, 399: 48-64. DOI:10.1016/j.neucom.2020.02.098 |
[16] |
LIU H W, ZHANG S C, WU X D. MLSLR: multilabel learning via sparse logistic regression[J]. Information Sciences, 2014, 281: 310-320. DOI:10.1016/j.ins.2014.05.013 |
[17] |
GU Q Q, ZHOU J. Co-clustering on manifolds[C]//Proceedings of 2009 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2009: 359-368.
|
[18] |
BELKIN M, NIYOGI P. Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic. New York, USA: ACM Press, 2001: 585-591.
|
[19] |
NIE F P, HUANG H, CAI X, et al. Efficient and robust feature selection via joint L2, 1-norms minimization[EB/OL]. [2020-11-05]. https://blog.csdn.net/taylent/article/details/105352427.
|
[20] |
HE R, TAN T N, WANG L, et al. L2, 1 regularized correntropy for robust feature selection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2012: 2504-2511.
|
[21] |
LEE J, KIM D W. SCLS: multi-label feature selection based on scalable criterion for large label set[J]. Pattern Recognition, 2017, 66: 342-352. DOI:10.1016/j.patcog.2017.01.014 |
[22] |
LIN Y J, HU Q H, LIU J H, et al. Multi-label feature selection based on max-dependency and Min-redundancy[J]. Neurocomputing, 2015, 168: 92-103. DOI:10.1016/j.neucom.2015.06.010 |
[23] |
LEE J, KIM D W. Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34(3): 349-357. DOI:10.1016/j.patrec.2012.10.005 |
[24] |
LEE J, KIM D W. Fast multi-label feature selection based on information-theoretic feature ranking[J]. Pattern Recognition, 2015, 48(9): 2761-2771. DOI:10.1016/j.patcog.2015.04.009 |
[25] |
陈红, 杨小飞, 万青, 等. 基于相关熵和流形学习的多标签特征选择算法[J]. 山东大学学报(工学版), 2018, 48(6): 27-36. CHEN H, YANG X F, WAN Q, et al. Multi-label feature selection algorithm based on correntropy and manifold learning[J]. Journal of Shandong University(Engineering Science), 2018, 48(6): 27-36. (in Chinese) |
[26] |
ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048. DOI:10.1016/j.patcog.2006.12.019 |
[27] |
DOUGHERTY J, KOHAVI R, SAHAMI M. Supervised and unsupervised discretization of continuous features[C]//Proceedings of the 12th International Conference on Machine Learning. Berlin, Germany: Springer, 1995: 194-202.
|
[28] |
DEMIAR J, SCHUURMANS D. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7(1): 1-30. |