基于关联分析的文本分类特征选择算法

doi:10.3969/j.issn.1000-3428.2010.22.066

计算机工程 ›› 2010, Vol. 36 ›› Issue (22): 184-186. doi: 10.3969/j.issn.1000-3428.2010.22.066

基于关联分析的文本分类特征选择算法

张彪1,2，刘贵全1,2

(1. 中国科学技术大学计算机科学与技术学院，合肥 230027；2. 安徽省计算与通讯软件重点实验室，合肥 230027)

出版日期:2010-11-20 发布日期:2010-11-18
作者简介:张彪(1981－)，男，硕士研究生，主研方向：机器学习，数据挖掘；刘贵全，副教授、博士

Feature Selection Method Based on Association Analysis for Text Classification

ZHANG Biao1,2, LIU Gui-quan1,2

(1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China;2. Anhui Province Key Laboratory for Computing and Communication Software, Hefei 230027, China)

Online:2010-11-20 Published:2010-11-18

摘要/Abstract

摘要： 提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘，找出那些对类别有重要影响的特征词组，而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验，将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。

关键词: 特征选择, 交叉熵, 文本分类, 关联挖掘

Abstract: This paper proposes a method, which considers the relationship between two words in feature selection. The relationship between two words which have significant impact on classification is mined, and two-word-sets are found out. Some words in these sets may be discarded due to low scores achieved through the conventional feature selection methods. The algorithm is compared with other conventional feature selection approaches: Information Gain(IG), CHI, etc. Experimental results on Ruters21578 dataset and 20Newsgroup dataset prove that the proposed method is effective to others.

Key words: feature selection, cross-entropy, text classification, association mining

中图分类号:

TP391

张彪, 刘贵全. 基于关联分析的文本分类特征选择算法[J]. 计算机工程, 2010, 36(22): 184-186.

ZHANG Biao, LIU Gui-Quan. Feature Selection Method Based on Association Analysis for Text Classification[J]. Computer Engineering, 2010, 36(22): 184-186.

http://www.ecice06.com/CN/Y2010/V36/I22/184

[1]	付雪, 朱良宽, 黄建平, 王璟瑀, ARYSTANRyspayev. 基于改进北方苍鹰优化算法的多阈值图像分割[J]. 计算机工程, 2023, 49(7): 232-241.
[2]	杨璇, 马建敏, 赵曼君. 基于邻域互信息的高维时序数据特征选择[J]. 计算机工程, 2023, 49(7): 135-142.
[3]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[4]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[5]	刘利, 张德生, 肖燕婷. 基于隶属度的模糊加权k近质心近邻算法[J]. 计算机工程, 2022, 48(7): 122-129.
[6]	艾成豪, 高建华, 黄子杰. 混合特征选择和集成学习驱动的代码异味检测[J]. 计算机工程, 2022, 48(7): 168-176,198.
[7]	范林歌, 武欣嵘, 童玮, 曾维军. 基于概率矩阵分解的不完整数据集特征选择方法[J]. 计算机工程, 2022, 48(6): 57-64.
[8]	陈可嘉, 刘惠. 基于改进BiGRU-CNN的中文文本分类方法[J]. 计算机工程, 2022, 48(5): 59-66,73.
[9]	张恒, 陈晓红, 蓝宇翔, 李舜酩. 基于深度学习的监督型典型相关分析[J]. 计算机工程, 2022, 48(5): 222-228.
[10]	张要, 马盈仓, 朱恒东, 李恒, 陈程. 结合流形学习与逻辑回归的多标签特征选择[J]. 计算机工程, 2022, 48(3): 90-99,106.
[11]	李冉冉, 刘大明, 刘正, 常高祥. 融合笔画特征的胶囊网络文本分类[J]. 计算机工程, 2022, 48(3): 69-73,80.
[12]	汪正凯, 沈东升, 王晨曦. 基于文本分类的Fisher Score快速多标记特征选择算法[J]. 计算机工程, 2022, 48(2): 113-124.
[13]	黄奕轩, 杜世强, 余瑶, 肖庆江, 宋金梅. 基于特征选择与鲁棒图学习的多视图聚类[J]. 计算机工程, 2022, 48(12): 95-103.
[14]	武娇, 洪彩凤, 顾永春, 顾兴全, 金世举. 基于类邻域字典的线性回归文本分类[J]. 计算机工程, 2021, 47(8): 93-99,108.
[15]	彭俊利, 谷雨, 张震, 耿小航. 融合单词贡献度与Word2Vec词向量的文档表示[J]. 计算机工程, 2021, 47(4): 62-67.

选择文件类型/文献管理软件名称

选择包含的内容

基于关联分析的文本分类特征选择算法

Feature Selection Method Based on Association Analysis for Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于关联分析的文本分类特征选择算法

Feature Selection Method Based on Association Analysis for Text Classification

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价