基于类别区分度和关联性分析的综合特征选择

doi:10.3969/j.issn.1000-3428.2012.09.056

计算机工程 ›› 2012, Vol. 38 ›› Issue (9): 186-188,192. doi: 10.3969/j.issn.1000-3428.2012.09.056

基于类别区分度和关联性分析的综合特征选择

陈建华，王治和，蒋芸

(西北师范大学数学与信息科学学院，兰州 730070)

收稿日期:2011-07-08 出版日期:2012-05-05 发布日期:2012-05-05
作者简介:陈建华(1988－)，女，硕士研究生，主研方向：数据挖掘；王治和，教授；蒋芸，副教授
基金资助:
国家自然科学基金资助项目(60873196)；甘肃省自然科学基金资助项目(1010RJZA022)；西北师范大学2010年第三期知识与创新工程科研骨干基金资助项目(nwnu-kjcxgc-03-67)

Syntaxic Feature Selection Based on Category Discrimination Degree and Correlation Analysis

CHEN Jian-hua, WANG Zhi-he, JIANG Yun

(College of Mathematics and Information Science, Northwest Normal University, Lanzhou 730070, China)

Received:2011-07-08 Online:2012-05-05 Published:2012-05-05

摘要/Abstract

摘要： 提出一种基于类别区分度和关联性分析的综合特征选择算法。利用类别区分度提取具有较强类别区分能力的特征词，降低特征空间的稀疏性，通过特征的关联性分析衡量特征与类别的相关性及特征之间的冗余度，选出具有类别代表性且相互之间不存在冗余的特征词。实验结果表明，该算法能有效提高分类器性能。

关键词: 文本分类, 特征选择, 关联性分析, 类别区分度, 相关独立度

Abstract: This paper proposes a syntaxic feature selection algorithm based on category discrimination degree and correlation analysis. The algorithm uses discrimination degree to extract the features that reveal larger differences among categories to reduce the sparsity of feature spaces, and emploies correlation analysis of features to measure relativity between features and categories and redundancy among features, so it can acquire the feature subsets which are more representative and have no redundancy between each other. Experimental results show that the proposed algorithm can improve the performance of the classifier effectively.

Key words: text categorization, feature selection, correlation analysis, category discrimination degree, relevant independence degree

中图分类号:

TP391

陈建华, 王治和, 蒋芸. 基于类别区分度和关联性分析的综合特征选择[J]. 计算机工程, 2012, 38(9): 186-188,192.

CHEN Jian-Hua, WANG Chi-He, JIANG Yun. Syntaxic Feature Selection Based on Category Discrimination Degree and Correlation Analysis[J]. Computer Engineering, 2012, 38(9): 186-188,192.

https://www.ecice06.com/CN/Y2012/V38/I9/186

[1]	刘畅, 梁冰雪, 田荣坤, 秦玉华. 基于多特征融合和混合神经网络的医疗健康问题分类[J]. 计算机工程, 2026, 52(2): 342-355.
[2]	吴国霞, 邱雅茹, 江峰. 基于邻域粒度条件熵的动态萤火虫特征选择算法[J]. 计算机工程, 2026, 52(1): 144-153.
[3]	王春东, 赵智航, 杨伟杰, 方顺尧. 基于字词重现的中文文本对抗样本生成方法[J]. 计算机工程, 2026, 52(1): 303-313.
[4]	夏倪明, 张洁. 基于自适应集束搜索算法的中文对抗样本生成[J]. 计算机工程, 2025, 51(8): 131-140.
[5]	周莎, 车生兵, 考友琛, 张旭, 郭甚驿. 基于特征选择和时空特征的网络入侵检测[J]. 计算机工程, 2025, 51(7): 223-231.
[6]	马思远, 江粼, 李春林, 胡钦太, 武继刚. 基于Gabor滤波器和改进线性判别分析的掌纹识别方法[J]. 计算机工程, 2025, 51(6): 320-326.
[7]	郑诚, 李鹏飞. 基于双超图神经网络特征融合的文本分类[J]. 计算机工程, 2025, 51(6): 127-135.
[8]	杨翰林, 黄瑞章, 秦永彬. 融合标签关系与法条逻辑的案情要素识别方法[J]. 计算机工程, 2025, 51(12): 119-129.
[9]	刘闻凯, 凌青华, 王智超. 基于决策空间多样性增强的两阶段多模态多目标粒子群优化特征选择算法[J]. 计算机工程, 2025, 51(12): 171-179.
[10]	李俊仪, 李向阳, 龙朝勋, 李海燕, 李红松, 余鹏飞. 基于多级区域选择与跨层特征融合的野生菌分类[J]. 计算机工程, 2024, 50(9): 179-188.
[11]	张健, 张博. 基于生物入侵的特征选择算法[J]. 计算机工程, 2024, 50(9): 46-53.
[12]	钱来, 赵卫伟. 基于对比学习和注意力机制的文本分类方法[J]. 计算机工程, 2024, 50(7): 104-111.
[13]	刘仲民, 严梁. 融合动态特征与注意力的敦煌壁画修复模型[J]. 计算机工程, 2024, 50(5): 342-353.
[14]	游奔, 李晓红, 姚锦, 冯绍杰. 基于多粒度图与注意力机制的半监督短文本分类[J]. 计算机工程, 2024, 50(5): 83-90.
[15]	赵洁, 叶文浩, 梁周扬, 陈建新, 董振宁. 基于不一致近邻的模糊粗糙集特征选择[J]. 计算机工程, 2024, 50(1): 110-119.

选择文件类型/文献管理软件名称

选择包含的内容

基于类别区分度和关联性分析的综合特征选择

Syntaxic Feature Selection Based on Category Discrimination Degree and Correlation Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于类别区分度和关联性分析的综合特征选择

Syntaxic Feature Selection Based on Category Discrimination Degree and Correlation Analysis

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价