一种改进的不平衡数据集分类方法

doi:10.3969/j.issn.1000-3428.2011.15.038

计算机工程 ›› 2011, Vol. 37 ›› Issue (15): 122-124. doi: 10.3969/j.issn.1000-3428.2011.15.038

一种改进的不平衡数据集分类方法

赵秀宽¹，阳建宏²，黎敏²，徐金梧²

(1. 中国科学院地质与地球物理研究所，北京 100029；2. 北京科技大学机械工程学院，北京 100083)

收稿日期:2011-02-17 出版日期:2011-08-05 发布日期:2011-08-05
作者简介:赵秀宽(1982－)，男，工程师、博士，主研方向：模式识别，智能监测；阳建宏，副教授、博士；黎敏，讲师、博士；徐金梧，教授、博士
基金资助:
国家自然科学基金资助项目(50705069, 50905013, 509340 07)；高等学校博士学科点专项科研基金资助项目(2009000612000 7)；中央高校基本科研业务费专项基金资助项目(FRF-TP-09-014A)

Improved Unbalanced Dataset Classification Method

ZHAO Xiu-kuan ¹, YANG Jian-hong², LI Min ², XU Jin-wu ²

(1. Institute of Geology and Geophysics, Chinese Academy of Sciences, Beijing 100029, China; 2. School of Mechanical Engineering, University of Science and Technology Beijing, Beijing 100083, China)

Received:2011-02-17 Online:2011-08-05 Published:2011-08-05

摘要/Abstract

摘要： 传统的机器学习方法在解决不平衡分类问题时，得到的分类器具有很大的偏向性，表现为少数类识别率远低于多数类。为此，在旋转森林分类方法的基础上，提出一种改进的不平衡数据处理方法——偏转森林。通过对少数类进行过抽样改变训练数据的分布以减小数据的不平衡，采用随机抽取的方式确保生成偏转矩阵的样本间存在差异，从而提高集成分类器的分类精度。实验结果表明，该方法能取得较好的分类性能，具有较高的少数类识别正确率和较低的多数类识别错误率。

关键词: 不平衡数据集, 偏转森林, 集成分类器, 过抽样

Abstract: Referring to unbalanced dataset, the traditional machine learning methods will achieve biased performance. Using traditional methods, the recognition rate of minority class will be lower than the recognition rate of majority class. In this paper, based on rotation forest, it proposes an improved unbalanced dataset learning method, which is called deflection forest. It reduces data unbalance by over-sampling the data of minority class. It uses random resampling to increase diversity of samples which generate the deflection matrix and then improves the accuracy rate. Experimental results show that the deflection forest method achieves better performance, which carries out higher recognition rate of minority class and also lower recognition error rate of majority class.

Key words: unbalanced dataset, deflection forest, integrated classifier, over-sampling

中图分类号:

TP393

赵秀宽, 阳建宏, 黎敏, 徐金梧. 一种改进的不平衡数据集分类方法[J]. 计算机工程, 2011, 37(15): 122-124.

DIAO Xiu-Kuan, YANG Jian-Hong, LI Min, XU Jin-Wu. Improved Unbalanced Dataset Classification Method[J]. Computer Engineering, 2011, 37(15): 122-124.

http://www.ecice06.com/CN/Y2011/V37/I15/122

[1]	王春香,李丽宏,张帝. 基于深度信念网络的集成分类器在气体识别中的应用[J]. 计算机工程, 2016, 42(10): 318-321.
[2]	张银峰，郭华平，职为梅，范明. 一种面向不平衡数据分类的组合剪枝方法[J]. 计算机工程, 2014, 40(6): 157-161,165.
[3]	王超学, 潘正茂, 马春森, 董丽丽, 张涛. 改进型加权KNN算法的不平衡数据集分类[J]. 计算机工程, 2012, 38(20): 160-163.
[4]	许丹丹, 蔡立军, 王勇. 一种改进的少数类样本过抽样算法[J]. 计算机工程, 2012, 38(04): 67-69.
[5]	方景龙, 王万良, 何伟成. 用于不平衡数据分类的FE-SVDD算法[J]. 计算机工程, 2011, 37(6): 157-158.
[6]	马婕;樊玮;袁红玉. 基于数据场的SVM技术在雷暴预报中的应用[J]. 计算机工程, 2009, 35(19): 263-265.
[7]	曹苏群;王士同;陈晓峰. 基于后验概率的不平衡数据集特征选择算法[J]. 计算机工程, 2008, 34(19): 1-3.
[8]	韩慧;王文渊;毛炳寰. 不均衡数据集中基于Adaboost的过抽样算法[J]. 计算机工程, 2007, 33(10): 207-209.

选择文件类型/文献管理软件名称

选择包含的内容

一种改进的不平衡数据集分类方法

Improved Unbalanced Dataset Classification Method

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 8

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种改进的不平衡数据集分类方法

Improved Unbalanced Dataset Classification Method

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 8

编辑推荐

Metrics

本文评价