基于关联特征扩展的特征选择算法

doi:10.3969/j.issn.1000-3428.2007.16.052

计算机工程 ›› 2007, Vol. 33 ›› Issue (16): 150-152. doi: 10.3969/j.issn.1000-3428.2007.16.052

基于关联特征扩展的特征选择算法

古平，朱庆生，何希平，李云峰

（重庆大学计算机学院，重庆 400044）

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-08-20 发布日期:2007-08-20

Feature Selection Algorithm Based on Association Features Enhancement

GU Ping, ZHU Qing-sheng, HE Xi-ping, LI Yun-feng

(School of Computer Science, Chongqing University, Chongqing 400044)

Received:1900-01-01 Revised:1900-01-01 Online:2007-08-20 Published:2007-08-20

摘要/Abstract

摘要： 特征选择是文档分类中常见的预处理工作，通过对文档特征空间降维，可以提高文档的分类性能。针对多数特征选择算法不考虑特征词共现关系的问题，该文提出了一种利用关联特征来增强文档分类性能的方法，针对特征扩展后产生的高维向量空间设计了一种快速冗余特征去除和选择算法，以满足实际应用中对增强特征分类性能和执行效率的需要。实验采用朴素贝叶斯网作为分类器，从特征降维效果、分类性能以及算法执行效率等方面与其他算法进行了比较。

关键词: 文档分类, 特征选择, 关联特征

Abstract: Feature selection is frequently used as a preprocessing step to text classification, which is effective in reducing dimensionality and increasing classification accuracy. However, most feature selection algorithms fail to take advantage of the co-occurrence of words. This paper explores the use of association features to enhance the performance of primitive features and proposes a new fast algorithm for identifying relevant features as well as redundancy among high dimensional features. The experiment are conducted with Naïve Bayes, it compares the method with other feature selection algorithms with respect to the feature numbers, accuracy and effectiveness.

Key words: text classification, feature selection, association feature

中图分类号:

TP18

古平;朱庆生;何希平;李云峰. 基于关联特征扩展的特征选择算法[J]. 计算机工程, 2007, 33(16): 150-152.

GU Ping; ZHU Qing-sheng; HE Xi-ping; LI Yun-feng. Feature Selection Algorithm Based on Association Features Enhancement[J]. Computer Engineering, 2007, 33(16): 150-152.

http://www.ecice06.com/CN/Y2007/V33/I16/150

[1]	杨璇, 马建敏, 赵曼君. 基于邻域互信息的高维时序数据特征选择[J]. 计算机工程, 2023, 49(7): 135-142.
[2]	刘利, 张德生, 肖燕婷. 基于隶属度的模糊加权k近质心近邻算法[J]. 计算机工程, 2022, 48(7): 122-129.
[3]	艾成豪, 高建华, 黄子杰. 混合特征选择和集成学习驱动的代码异味检测[J]. 计算机工程, 2022, 48(7): 168-176,198.
[4]	范林歌, 武欣嵘, 童玮, 曾维军. 基于概率矩阵分解的不完整数据集特征选择方法[J]. 计算机工程, 2022, 48(6): 57-64.
[5]	张要, 马盈仓, 朱恒东, 李恒, 陈程. 结合流形学习与逻辑回归的多标签特征选择[J]. 计算机工程, 2022, 48(3): 90-99,106.
[6]	汪正凯, 沈东升, 王晨曦. 基于文本分类的Fisher Score快速多标记特征选择算法[J]. 计算机工程, 2022, 48(2): 113-124.
[7]	黄奕轩, 杜世强, 余瑶, 肖庆江, 宋金梅. 基于特征选择与鲁棒图学习的多视图聚类[J]. 计算机工程, 2022, 48(12): 95-103.
[8]	王俊红, 赵彬佳. 基于不平衡数据的特征选择算法研究[J]. 计算机工程, 2021, 47(11): 100-107.
[9]	王旭, 陈永乐, 王庆生, 陈俊杰. 结合特征选择与集成学习的密码体制识别方案[J]. 计算机工程, 2021, 47(1): 139-145,153.
[10]	袁哲明, 杨晶晶, 陈渊. 基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程, 2020, 46(8): 101-105.
[11]	吴昌明, 赵兴涛, 柳可鑫. 基于三元组排序局部性的SOCFS改进算法[J]. 计算机工程, 2020, 46(5): 47-53.
[12]	陈良臣, 高曙, 刘宝旭, 陶明峰. 网络流量异常检测中的维数约简研究[J]. 计算机工程, 2020, 46(2): 11-20.
[13]	刘洁, 王铮, 王辉. 基于IMI-WNB算法的垃圾邮件过滤技术研究[J]. 计算机工程, 2020, 46(12): 299-304,312.
[14]	朱文峰, 于舒娟, 何伟. 基于IG_CDmRMR的二阶段特征选择方法[J]. 计算机工程, 2019, 45(9): 183-187,193.
[15]	张波, 周从华, 张付全, 张婷, 蒋跃明. 一种面向SNP选择的模糊聚类算法[J]. 计算机工程, 2019, 45(8): 66-74.

选择文件类型/文献管理软件名称

选择包含的内容

基于关联特征扩展的特征选择算法

Feature Selection Algorithm Based on Association Features Enhancement

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于关联特征扩展的特征选择算法

Feature Selection Algorithm Based on Association Features Enhancement

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价