2. 闽南师范大学计算机学院, 福建 漳州 363000
2. College of Computer, Minnan Normal University, Zhangzhou, Fujian 363000, China
开放科学(资源服务)标志码(OSID):
在传统的单标记监督学习中,样本仅由一个标记属性描述,这种假设常违背现实生活的真实情况。在一类非互斥属性中,样本的标记属性可能同时包含多个语义信息,例如,一部电影可能是喜剧电影的同时也是爱情电影,在这种情况下,单一属性标记无法有效地对样本进行类别划分,因此一种多标记学习框架[1-3]被提出。相对于单标记学习,在多标记学习中,每一个样本具有多个以上的属性标记,在非分层任务中,样本在属性标记下仅有二值取值,即为正或负,将样本所有标记中具有正值的标记称为标记集合,样本的标记集合即构成了对样本属性的完整描述。随着数据挖掘技术与移动互联网技术的发展,数据的规模不断增长,描述样本属性的标记集合的规模也随之增长,而丰富的标记集合往往需要高维的特征空间描述[4]。但过高的特征维度会使得学习器的消耗提升,同时一些噪声特征也会对分类结果产生影响,最终降低分类精度[5]。因此,高维特征带来的维度灾难[6]已经成为多标记学习面临的重要挑战之一。
作为一种有效的特征降维技术,特征选择[7]的目的是在保持学习器性能不改变太多的前提下能够有效地约简数据集的维度。目前,针对多标记学习任务的特征选择算法已有很多,这些算法按照与学习器的关系可以分为过滤式[7-9]、包装式[10]和嵌入式3种。其中过滤式不依赖于学习器,而是寻找独立指标来评价每个特征对分类能力的贡献大小,以此过滤出含有更丰富信息的特征子集[11-12],或以某个评价指标结合搜索算法来搜索特征子集[13-14],前者需要预设阈值,而后者可根据搜索策略自动结束算法;相对于过滤式特征选择算法,包装式特征选择算法以特征子集在分类器上的分类性能作为搜索指标指导搜索方向,嵌入式特征选择算法在进行特征选择的过程中即同时进行了学习器的训练。因此,在算法运行时间和计算资源的消耗以及模型的普适性上,过滤式特征选择算法具有更大的优势。
Fisher Score(FS)作为一种基于距离度量的特征评价指标,通过计算类间散度与类内聚度的关系度量特征分类能力的强弱,在单标记监督学习中已有了较多的研究与应用。XIE等[15]提出一种基于改进的F-score和支持向量机的包装式特征选择方法,以SVM分类器的分类结果指导搜索方向;SONG等[16]提出了不均匀分布下的FS特征选择算法,以两两类别之间的距离代替类与总体中心的距离作为类间散度的计算方式;MUHAMMED[17]等提出一种结合FS评价准则和贪心搜索的特征选择算法,在阿尔茨海默病的分类上取得了较好的结果;SONG[16]等提出一种基于Fisher判别分析(FDA)和F-score的特征排序方法用以多类样本分类,BEHESHTI[18]提出一种集合FS评价准则和T检验分数来寻找最优的特征集的特征选择算法。
然而,以上的算法都忽略了样本极值对类中心带来的偏差影响,以距离度量的类中心的意义仅在统计学上得以体现,在实际应用中很容易被异常值影响,当方差很小的一类样本中加入一个相对量纲较大的样本时,会使得该类样本的中心发生偏移,此时需要对该异常值进行处理以避免最终FS得分产生误差。同时,上述算法都仅能应用于单标记特征选择,而多标记任务更能体现生活中的实际情况,因此将单标记任务下的FS算法应用于多标记任务具有一定的实际研究意义。基于此,本文提出一种多标记FS特征选择算法,计算每个样本在各个标记下经过去极值后的特征集合的FS得分,若多标记任务中标记包含信息对分类的贡献,则根据样本具有的标记数量可以得到该样本标记集合的标记权值,以此更新样本在特征空间下的FS得分。
1 相关知识FS是一种经典的评价特征对分类贡献能力的指标,特征的FS得分越高,表明在该特征下类内样本间间距尽可能得小,类间样本间距尽可能得大,即类间样本间距与类内样本间距的比值越大。在传统单标记学习中FS的相关描述如下:
假设存在一个决策系统
$ {\rm{dis}}_{{\rm{inner}}}^j = \sum\limits_{k = 1}^l {\left| {{E_k}} \right|} \sum\limits_{s = 1}^{\left| {{E_k}} \right|} {{{\left\| {{{\left( {^{\left( k \right)}x_s^j{ - ^{\left( k \right)}}{\mu ^j}} \right)}^p}} \right\|}^{1/p}}} $ | (1) |
$ \mathrm{d}\mathrm{i}{\mathrm{s}}_{\mathrm{o}\mathrm{u}\mathrm{t}\mathrm{e}\mathrm{r}}^{j}={\sum\limits _{k=1}^{l}‖{\left({}^{\left(k\right)}{\mu }^{j}-{\mu }^{j}\right)}^{p}‖}^{1/p}\left|{E}_{k}\right| $ | (2) |
其中:
$ {F}_{\mathrm{F}\mathrm{S}}^{j}=\frac{\mathrm{d}\mathrm{i}{\mathrm{s}}_{\mathrm{o}\mathrm{u}\mathrm{t}\mathrm{e}\mathrm{r}}^{j}}{\mathrm{d}\mathrm{i}{\mathrm{s}}_{\mathrm{i}\mathrm{n}\mathrm{n}\mathrm{e}\mathrm{r}}^{j}}=\frac{\sum\limits _{k=1}^{l}\left|{E}_{k}\right|\cdot {‖({}^{\left(k\right)} {\mu }^{j}-{\mu }^{j}{)}^{p}‖}^{1/p}}{\sum\limits _{k=1}^{l}\left|{E}_{k}\right|\cdot \sum\limits _{s=1}^{\left|{E}_{k}\right|}{‖({}^{\left(k\right)}{x}_{s}^{j}-{}^{\left(k\right)}\mu {\mu }^{j}{)}^{p}‖}^{1/p}} $ | (3) |
式(3)为单个特征下的FS得分计算公式,若以单个特征的FS得分作为评价指标,则可计算出所有特征的FS得分,通过设置阈值筛选出特征子集。若采用启发式搜索的方式筛选特征子集,则需要设置合适的搜索策略,不断迭代搜索当前候选子集中的最优特征,直至满足搜索终止条件,得到最终的特征子集。相对于启发式搜索,前者的时间复杂度更低,算法性能消耗更少。
2 基于多标记FS的特征选择模型式(3)给出了在单标记学习下任意特征的FS得分的计算公式,但都是直接对一类样本计算其均值作为类中心,并没考虑到极值带来的方差增大的影响,假设某一特征下所有样本的划分情况如图 1所示。其中,直线两边表示各自不同的一类样本,圆圈选中的样本代表多数真实样本的分布,圆圈的圆心代表这些样本的中心点,而圆圈外样本会使得类样本的中心点发生偏移,极端值样本距离多数样本越远,偏移程度越大,而在理想状况下是同类样本尽可能分布在一起,因此,需要根据类别样本的分布情况对已划分的样本进行处理,去除其中距离多数样本较远的样本,再对剩下的样本进行FS得分计算。
![]() |
Download:
|
图 1 类中心偏差示意图 Fig. 1 Schematic diagram of class center deviation |
同时式(3)仅能应用于单标记特征选择,但在更复杂的多标记学习中,式(3)无法直接应用,若将多标记任务简单地分解为多个单标记任务再应用式(3),则会损失多标记任务中标记集合之间的关联信息,基于此,考虑从样本角度对标记集合进行遍历,且针对各个标记对整体标记集合的贡献值,将样本的标记集合下的全体特征的FS得分与根据样本本身具有的标记集合所得出的标记权值系数相乘,以此更新FS的计算公式。
下文将给出相关定义来描述本文算法模型。假设存在一个决策系统
定义1 假设存在一个随机样本
$ y\_\mathrm{t}\mathrm{r}\mathrm{u}{\mathrm{e}}_{i}=\left\{k\left|{y}_{i}^{k}\right.=\mathrm{1, 1}\le k\le l\right\} $ | (4) |
定义2 假设存在一个随机样本
$ {U}^{k}=U/k=\left\{{E}_{0}^{k}\text{,}{E}_{1}^{k}\right\} $ | (5) |
$ {E}_{c}^{k}=\left\{{x}_{r}\left|{y}_{r}^{k}=c, c\in \left\{\mathrm{0, 1}\right\}\right.\right\} $ | (6) |
其中:
$ {U}_{i}=\left\{{U}^{k}\left|{y}_{i}^{k}=\mathrm{1, 1}\le k\le l\right.\right\} $ | (7) |
定义3 假设存在一个随机样本
$ {\overline{{E}_{c}^{k}}}^{j} = \sum\limits _{r=1}^{\left|{E}_{k}\right|}{x}_{r}^{j} $ | (8) |
${\mathit{\boldsymbol{x}}_{{\rm{max}}}} = {\rm{argmax}}{\left\| {{{\left( {x_{{\rm{max}}}^j - {{\overline {E_c^k} }^j}} \right)}^p}} \right\|^{1/p}}, {\mathit{\boldsymbol{x}}_{{\rm{max}}}} \in E_c^k$ | (9) |
定义4 假设存在一个随机样本
$ Ef_c^k = \left\{ {{x_r}{{\left| {\left\| {{{(x_r^j - {{\overline {E_c^k} }^j})}^p}} \right\|} \right.}^{1/p}}} \right.\left. { \le {\rm{dis}}\_{x_{{\rm{max}}}} \cdot \delta , {x_r} \in E_c^k} \right\} $ | (10) |
其中:
定义5 假设存在一个随机样本
$ \mathrm{F}{{\mathrm{S}}_{i}^{k}}^{j} = \frac{{{{\left\| {{{\left( {{{\overline {Ef_0^k} }^j} - {{\overline {Ef_1^k} }^j}} \right)}^p}} \right\|}^{1/p}}}}{{\sum\limits_{c = 0}^1 {\left| {Ef_c^k} \right|} \cdot \sum\limits_{r = 1}^{\left| {Ef_c^k} \right|} {{{\left\| {{{(x_r^j - {{\overline {Ef_c^k} }^j})}^p}} \right\|}^{1/p}}} }} \cdot \omega _i^k $ | (11) |
其中:分子表示类间散度,相对于原始的每一类减去总体中心,在类别之间计算距离可以避免不均匀分布情况下的类间散度差异;
定义6 假设存在一个随机样本
$ \mathrm{F}{\mathrm{S}}_{i}^{j}=\sum\limits _{\mathrm{i}\mathrm{f}k\mathrm{i}\mathrm{n}y\_\mathrm{t}\mathrm{r}\mathrm{u}{\mathrm{e}}_{i}}^{l}\mathrm{F}{{\mathrm{S}}_{i}^{k}}^{j} $ | (12) |
根据式(12)可得出特征
$ \mathrm{F}{\mathrm{S}}^{j}=\sum\limits _{i=1}^{n}\mathrm{F}{\mathrm{S}}_{i}^{j} $ | (13) |
式(13)是单个特征的FS得分,则最终全体特征集合
$ \mathrm{F}\mathrm{S}=\left\{\mathrm{F}{\mathrm{S}}^{1}, \mathrm{F}{\mathrm{S}}^{2}, \cdots , \mathrm{F}{\mathrm{S}}^{m}\right\} $ | (14) |
式(14)为全体特征的FS得分分布,对
上述定义中之所以采用全体采样,是因为对全体样本的遍历使得所提算法的结果具有较强的鲁棒性,避免随机采样所导致结果产生不确定性。定义3和定义4对一类样本进行了中心偏移操作,前提是该类样本数量较多,因为数量较少时,并不足以准确地决定多数样本的类中心,但并不是全部数据集中每个标记下每类的样本数量都足够多,基于此在后续实验中进行到中心偏移操作前都会对该类样本数量进行检测,当该类样本数量占总体样本数量比例小于0.05时,即不进行中心偏移操作。式(11)中类间散度计算没有采用原始FS计算类间散度的方式,而是改用了文献[18]中提出的方式,该计算方式如式(15)所示:
$ D\left({f}_{i}\right)=\sum\limits _{1\le p < q\le C}\left(({n}_{p}+{n}_{q})/N\right){\left({\mu }_{i}^{\left(p\right)}-{\mu }_{i}^{\left(q\right)}\right)}^{2} $ | (15) |
其中:
算法1 MLFS算法
输入 决策系统
输出
1.初始化
2.遍历全体标记
3. 根据式(12)~式(14)计算标记
4.遍历全体样本
5.遍历样本
6.
7.对
在算法MLFS中,主要的计算消耗在于对每个标记
为验证本文算法的有效性,选取MuLan库中的8个公开多标记数据集进行实验。由于数据集在MuLan库中已经分好,训练集和测试集会直接采用已经分好的结果,在训练集中对所提算法进行特征选择,再将特征选择结果应用于测试集进行分类测试,数据集的详细信息如表 1所示。
![]() |
下载CSV 表 1 多标记数据集 Table 1 Multi-label datasets |
实验运行环境为Pycharm Professional 2019.2.3+Python 3.7.1 64位,硬件环境为Inter® Xeon® CPU E5-26xx series 2.49 Hz,16 GB内存,操作系统为Windows10 64位。实验采用5种评价指标[14]:Average Precision,Hamming Loss,One Error,Ranking Loss,Coverage,分别简写为AP、HL、OE、RL、Cov,其中,HL、OE的计算基于标记预测,AP、RL、Cov基于标记排序,AP指标表示数值越高,分类性能越好,其余指标表示数值越低,分类性能越好。
3.3 相关参数设置及算法选择本文算法是通过设置半径系数
为比较本文算法的有效性,选择了各类型的多标记特征选择算法作为对比算法,分别为基于蚁群优化的多标签特征选择算法(MLACO)[19]、多标记ReliefF特征选择算法(MLRF)[8]、基于多变量互信息的多标记特征选择算法(PMU)[9]和多标签朴素贝叶斯分类的特征选择算法(MLNB)[14],其中MLACO为PANIRI等提出的一种基于蚁群算法(ACO)的多标记特征选择算法,通过同时引入计算标记相关性的有监督启发式函数与计算特征空间冗余性的无监督启发式函数在特征空间迭代搜索最优子集,是一种最新的性能优异的多标记特征选择算法;MLRF算法是基于距离度量的多标记ReliefF算法,通过引入汉明距离在标记集合上寻找样本的同类与异类近邻;PMU算法是LEE等提出的基于互信息度量的特征选择算法,通过三元互信息度量特征子集与标记集合间的相关性;MLNB是ZHOU等提出的基于主成分提取PCA和遗传算法(GA)的混合型特征降维算法。
上述算法兼顾各种类型,便于本文所提算法与各类型算法进行比较。在对比算法的参数设置上,MLACO算法参数与原文保持不变;MLRF采用全体采样方式,近邻个数设为5;PMU算法需要先进行离散化,以PMU算法离散化方式为标准对实验数据预先进行了两折离散化;MLNB设置一阶段预留特征比例ratio为0.7,平滑因子默认为1。在特征数量的选择上,由于MLNB算法可以直接得到一个特征子集,而其他算法得到排序后的特征集,则按照MLNB算法得到的特征子集数量,在其他算法排序后的特征子集上取相同数量的特征子集进行对比。
此外,实验所采用的分类器为MLKNN[20]分类器,默认近邻个数为10,平滑因子为1。
3.4 实验结果本文首先比较所提算法中参数
![]() |
Download:
|
图 2 各数据集上不同半径系数随着特征比例变化的情况 Fig. 2 Variation of different radius coefficients with feature proportion on each datasets |
图 2中选择了Computer、Health、Recreation 3个数据集,在每一类数据集中,横线表示不做中心偏移的算法取全部特征的分类结果。可以看出,在文本类数据集中,基本符合半径系数越大分类性能越好的预期,这是由于文本类数据集中特征空间较为稀疏,在半径系数较小时会损失多数样本,而期望效果是仅去除小部分极端值样本,因此分类结果较差。随着半径系数的增大,Computer数据集中分类性能逐渐提升,而其余数据集中并没有很明显的变化,这是由于半径系数是基于离类中心点最远样本的比例确定的,可能存在一种情况,当该样本离类中心点足够远时,此时半径系数选择0.5或者0.9,而筛选的样本数量是一样的,对于这种情况,可以选择加入数量判定,当不同比例下半径系数筛选的样本数量不变时,选择原有类别样本数量的80%或者90%作为新的一类样本。但所提的算法模型是基于全体样本遍历的,且在多标记任务下每个标记的划分情况不同,尽管上述异常情况可能出现,但在全体样本数量
综合以上分析可以得出,半径系数的确定需要预先知道平均类样本的分布情况,而在多数文本数据集中,特征空间是较为稀疏的,这使得在文本数据集中可以预先设定较大的半径系数,基于此,在后续实验中,将所有实验数据集的半径系数设定为0.9。
为了更加详细地验证所提算法的有效性,将所提算法与4种对比算法在所有数据集中进行实验,实验结果如表 2~表 7所示,其中加粗字体为结果最优。
![]() |
下载CSV 表 2 各数据集选择特征数 Table 2 Numbers of selected features of each datasets |
![]() |
下载CSV 表 3 AP评价指标下各算法的性能比较 Table 3 Performance comparison of each algorithms under AP evaluation index |
![]() |
下载CSV 表 4 HL评价指标下各算法的性能比较 Table 4 Performance comparison of each algorithms under HL evaluation index |
![]() |
下载CSV 表 5 Cov评价指标下各算法的性能比较 Table 5 Performance comparison of each algorithms under Cov evaluation index |
![]() |
下载CSV 表 6 OE评价指标下各算法的性能比较 Table 6 Performance comparison of each algorithms under OE evaluation index |
![]() |
下载CSV 表 7 RL评价指标下各算法的性能比较 Table 7 Performance comparison of each algorithms under RL evaluation index |
由以上实验结果可以看出,本文MLFS算法在Art、Business、Computer、Education、Enter、Health、Recreation、Reference等8个数据集中的各项指标的平均值都为最优,表明所提算法在整体上相对其余算法具有一定优势,对比各个指标可以发现:
1)在AP指标上,MLFS算法仅在Reference数据集中排名第2,在其余数据集中都是排名第1,且平均排序结果排名第1。综合比较4种对比算法,MLFS算法选择的特征子集分类性能达到最优。
2)在HL指标上,MLFS算法仅在Computer数据集中排名第2,在其余数据集中都是排名第1,且平均排序结果排名第1。综合比较4种对比算法,MLFS算法选择的特征子集分类性能达到最优。
3)在Cov指标上,MLFS算法仅在Art、Health数据集中排名第2,在其余数据集中都是排名第1,且平均排序结果排名第1。综合比较4种对比算法,MLFS算法选择的特征子集分类性能达到最优。
4)在OE指标上,MLFS算法仅在Reference数据集中排名第2,在其余数据集中都是排名第1,且平均排序结果排名第1。综合比较4种对比算法,MLFS算法选择的特征子集分类性能达到最优。
5)在RL指标上,MLFS算法在Art、Computer、Health数据集中排名第2,在其余数据集中都是排名第1,且平均排序结果排名第1。综合比较4种对比算法,MLFS算法选择的特征子集分类性能达到最优。
6)在约简特征数量上,MLFS算法相对于原始特征空间约简了70%以上的特征比例仍具有较好的效果,表明所提算法实现了特征选择的降维目标。
7)综合比较8个数据集在5个指标上的40种分类情况,所提算法MLFS具有最优结果的有32种,占比80%,表明所提算法具有较好的稳定性。
上述实验结果表明,所提算法选择的特征子集在后续的分类结果的各个指标上相比其余4种算法具有领先优势,同时具有较高的约简比例,验证了所提算法的有效性和鲁棒性。
为避免出现局部优势带来的误差影响,下文将给出部分数据集各特征选择算法在不同特征比例下的分类情况,由于所选数据集较多,且针对每一种指标共有40种对比情况,限于篇幅,只选择了其中6个数据集在5种指标上的结果进行展示,其中,MLNB算法因为只能得到一个特征子集,并不能与其他算法一起比较特征比例上的分类性能,所以未给出变化情况。变化趋势如图 3~图 7所示。
![]() |
Download:
|
图 3 AP评价指标下各算法分类性能的变化情况 Fig. 3 Change situation of classification performance of each algorithms under AP evaluation index |
![]() |
Download:
|
图 4 HL评价指标下各算法分类性能的变化情况 Fig. 4 Change situation of classification performance of each algorithms under HL evaluation index |
![]() |
Download:
|
图 5 Cov评价指标下各算法分类性能的变化情况 Fig. 5 Change situation of classification performance of each algorithms under Cov evaluation index |
![]() |
Download:
|
图 6 OE评价指标下各算法分类性能的变化情况 Fig. 6 Change situation of classification performance of each algorithms under OE evaluation index |
![]() |
Download:
|
图 7 RL评价指标下各算法分类性能的变化情况 Fig. 7 Change situation of classification performance of each algorithms under RL evaluation index |
从图 3~图 7的变化趋势可以看出:本文算法MLFS在各个指标上均优于其余算法,且在AP、HL指标中的优势较为明显,在其余指标中除MLACO算法外,均大幅优于其余算法。在选取的特征比例上,本文算法在特征比例较小时即能达到较好的分类性能,表明本文算法基本能够实现特征选择的目标。
为从统计学意义上进一步检测所提算法与4种对比算法在各项指标上是否存在显著差异,将采用显著性水平为10%的Nemenyi test[18]对所提算法和其余算法进行比较。根据表 3~表 7获得各个算法在所有数据上的平均排序,排序结果如表 8所示。
![]() |
下载CSV 表 8 各算法在不同评价指标下的平均排序 Table 8 Average ranking of each algorithm under different evaluation indexes |
在表 8中,若2个算法在所有数据集上的平均排序的差值小于临界差值(Critical Difference,CD),则认为2个算法并没有性能上的显著性差异,由于实验所采用数据集个数为8,总算法个数为5,根据临界差值计算公式可以得出CD为1.944,则根据临界差值给出各算法在不同指标上的临界差值图,其中算法根据平均排名在坐标轴中由左向右排列,且与所提算法没有明显性能差异的算法用一根加粗的实线相连,临界差值如图 8所示。从图 8可以看出,本文算法在5种评价指标中性能均排名第1,在除RL指标外的其余指标中,本文算法与MLNB、PMU、MLRF算法具有显著的性能差异,与MLACO算法没有显著差异,在RL指标中,本文算法与MLNB、MLRF算法具有显著的性能差异,与PMU、MLACO算法没有显著的性能差异。综合上述情况,本文算法与4种对比算法的统计结果中,性能处于最优,表明所提算法的有效性和鲁棒性。
![]() |
Download:
|
图 8 各算法综合性能比较 Fig. 8 Comprehensive performance comparison of each algorithms |
此外,由于不同的特征选择算法应有其适用的学习任务,在实际应用中应根据不同的情况选择适合的算法。在上述实验中,本文算法与其他算法均是在Yahoo网页文本数据集上进行实验,数据类型较为单一,为验证所提算法的普适性,本文选择2个不同类型的数据集Scene和Yeast进行实验。Scene数据集是一类语义索引类图像数据集,样本数为2 407,特征数为294,标记数为6,Yeast是一类关于酵母菌基因的生物数据集,样本数量为2 417,特征数为103,标记数为14。由于未知数据集特征空间的密集程度,因此无法事先确定所提算法中的半径系数
![]() |
Download:
|
图 9 非文本数据集的AP指标比较 Fig. 9 Comparison of AP index in non text datasets |
此外,对于非文本类数据集,可以使用基于距离排序的方式去除极值样本,以此避免未知样本分布情况下的半径系数的确定问题。距离排序是指对某一类样本中每一个样本到该类样本中心点的距离进行排序,然后去除恒定数量的样本。相对于半径系数的方式,距离排序的计算复杂度较高。假设现在存在某一类样本,该类样本数量是
![]() |
Download:
|
图 10 基于距离排序的模型与对比算法的AP指标比较 Fig. 10 AP index comparison between model based on distance ranking and comparison algorithms |
从图 10可以看出,本文算法在特征比例较少时并没有显著优势,但是随着特征比例逐渐提升,分类性能逐渐提高。在Birds数据集中当特征比例超过0.45时即超过原始特征下的分类性能,且在特征比例为0.6时达到最优,同时领先其余算法;在Emotion数据集中当特征比例超过0.35时即超过原始特征下的分类性能,且在特征比例为0.9时达到最优,同时领先其余算法。这表明所提算法在使用距离排序去除极值样本上具有一定效果,能够一定程度应用在非文本数据集上。
综上实验可以得出,本文算法主要适用在样本分布较为稀疏的文本类数据集上,在此类数据集上,每一维特征的重要度都较小,但是却可能与标记集合中某一个标记有关联信息,所以无法轻易去除特征。而本文算法能够有效计算每一维特征下样本被标记划分后的两类样本的区分程度,根据区分程度可以过滤出对整体分类贡献能力弱的特征,但本文算法的局限性在于无法去除特征子集中的冗余特征,当数据集中存在大量冗余特征时,本文算法将无法有效地应对这种情况。
4 结束语本文通过改进单标记下的FS计算方式,去除一类样本中的极端值,使得在统计意义上的样本中心更符合实际生活中的样本集合,即通过原始数据的中心偏移完成样本的过滤,并结合标记的权值系数,将其应用于多标记任务。实验结果证明了所提算法具有一定的有效性和鲁棒性。但本文在实验过程中还存在算法难以适用较密集数据集,以及对于多标记权值系数的确定较为简单等问题,这将是下一步需要完善的工作。
[1] |
DING W, LIN C T, CAO Z. Deep neuro-cognitive co-evolution for fuzzy attribute reduction by quantum leaping PSO with nearest-neighbor memeplexes[J]. IEEE Transactions on Cybernetics, 2019, 49(7): 2744-2757. DOI:10.1109/TCYB.2018.2834390 |
[2] |
GIBAJA E, VENTURA S. A tutorial on multilabel learning[J]. ACM Computing Surveys, 2015, 47(3): 1-38. |
[3] |
KASHEF S, NEZAMABADI-POUR H. A label-specific multi-label feature selection algorithm based on the Pareto dominance concept[J]. Pattern Recognition, 2019, 88: 654-667. DOI:10.1016/j.patcog.2018.12.020 |
[4] |
LIU H, LI X, ZHANG S. Learning instance correlation functions for multilabel classification[J]. IEEE Transactions on Cybernetics, 2017, 47(2): 499-510. DOI:10.1109/TCYB.2016.2519683 |
[5] |
CHE X Y, CHEN D G, MI J S. A novel approach for learning label correlation with application to feature selection of multi-label data[J]. Information Sciences, 2020, 512(8): 795-812. |
[6] |
HUANG M M, SUN L, XU J C, et al. Multilabel feature selection using relief and minimum redundancy maximum relevance based on neighborhood rough sets[J]. IEEE Access, 2020, 8: 62011-62031. DOI:10.1109/ACCESS.2020.2982536 |
[7] |
CHEN S B, ZHANG Y M, DING Q C H, et al. Extended adaptive lasso for multi-class and multi-label feature selection[J]. Knowledge-Based Systems, 2019, 173: 28-36. DOI:10.1016/j.knosys.2019.02.021 |
[8] |
SPOLAÔR N, CHERMAN E A, MONARD M C, et al. Relief for multi-label feature selection[C]//Proceedings of 2013 Brazilian Conference on Intelligent Systems. Fortaleza, Brazil: [s. n. ], 2014: 19-24.
|
[9] |
LEE J, KIM D W. Feature selection for multi-label classification using multivariate mutual information[J]. Pattern Recognition Letters, 2013, 34(3): 349-357. DOI:10.1016/j.patrec.2012.10.005 |
[10] |
ZHANG M L, PENA J M, ROBLES V. Feature selection for multi-label naive Bayes classification[J]. Information Sciences, 2009, 179(19): 3218-3229. DOI:10.1016/j.ins.2009.06.010 |
[11] |
LI L, LIU H W, MA Z J, et al. Multi-label feature selection via information gain[C]//Proceedings of International Conference on Advanced Data Mining and Applications. Washington D.C., USA: IEEE Press, 2014: 345-355.
|
[12] |
LIN Y J, HU Q H, LIU J H, et al. Multi-label feature selection based on max_dependency and min_redundancy[J]. Neurocomputing, 2015, 168: 92-103. DOI:10.1016/j.neucom.2015.06.010 |
[13] |
姚二亮, 李德玉, 李艳红, 等. 基于双空间模糊辨识关系的多标记特征选择[J]. 模式识别与人工智能, 2019, 32(8): 709-717. YAO E L, LI D Y, LI Y H, et al. Multi-label feature selection based on fuzzy discernibility relations in double spaces[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(8): 709-717. (in Chinese) |
[14] |
LIN Y J, LIN Y W, WANG C X, et al. Attribute reduction for multi-label learning with fuzzy rough set[J]. Knowledge-based systems, 2018, 152: 51-61. DOI:10.1016/j.knosys.2018.04.004 |
[15] |
谢娟英, 王春霞, 蒋帅, 等. 基于改进的F-score与支持向量机的特征选择方法[J]. 计算机应用, 2010, 30(4): 993-996. XIE J Y, WANG C X, JIANG S, et al. Feature selection method combing improved F-score and support vector machine[J]. Journal of Computer Applications, 2010, 30(4): 993-996. (in Chinese) |
[16] |
SONG Q J, JIANG H Y, LIU J. Feature selection based on FDA and F-score for multi-class classification[J]. Expert Systems with Applications, 2017, 81(1): 22-27. |
[17] |
MUHAMMED NIYAS K P, THIYAGARAJAN P. Feature selection using efficient fusion of Fisher score and greedy searching for Alzheimer's classification[J]. Journal of King Saud University-Computer and Information Sciences, 2021, 33(10): 125-136. |
[18] |
BEHESHTI I, DEMIREL H. Feature-ranking-based Alzheimer's disease classification from structural MRI[J]. Magnetic Resonance Imaging, 2016, 34(3): 252-263. DOI:10.1016/j.mri.2015.11.009 |
[19] |
MOHSEN P, MOHAMMAD B D, HOSSEIN N. MLACO: a multi-label feature selection algorithm based on ant colony optimization[J]. Knowledge-Based Systems, 2020, 192: 105-118. |
[20] |
ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048. DOI:10.1016/j.patcog.2006.12.019 |