一种不平衡数据渐进学习算法

doi:10.3969/j.issn.1000-3428.2010.24.058

计算机工程 ›› 2010, Vol. 36 ›› Issue (24): 161-163. doi: 10.3969/j.issn.1000-3428.2010.24.058

一种不平衡数据渐进学习算法

董元方^1,2a，李雄飞¹，李军^1,2b

(1. 吉林大学符号计算与知识工程教育部重点实验室，长春 130012；2. 长春理工大学 a. 经济管理学院；b. 数学系，长春 130022)

出版日期:2010-12-20 发布日期:2010-12-14
作者简介:董元方(1975－)，女，讲师、博士研究生，主研方向：粗糙集理论，数据挖掘；李雄飞，教授、博士生导师；李军，副教授、博士研究生
基金资助:
国家科技支撑计划基金资助项目(2006BAK01A33)；吉林省科技发展计划基金资助项目(20070321, 20090704)

Gradually Learning Algorithm for Imbalanced Data

DONG Yuan-fang ^1,2a, LI Xiong-fei ¹, LI Jun ^1,2b

(1. Key Laboratory of Symbolic Computation and Knowledge Engineering for Ministry of Education, Jilin University, Changchun 130012, China; 2a. School of Economics and Management; 2b. Dept. of Mathematics, Changchun University of Science and Technology,Changchun 130022, China)

Online:2010-12-20 Published:2010-12-14

摘要/Abstract

摘要：

针对不平衡数据学习问题，提出一种采用渐进学习方式的分类算法。根据属性值域分布，逐步添加合成少数类样例，并在阶段分类器出现误分时，及时删除被误分的合成样例。当数据达到预期的平衡程度时，用原始数据和合成数据训练学习算法，得到最终分类器。实验结果表明，该算法优于C4.5算法，并在多数数据集上优于SMOTEBoost和DataBoost-IM。

关键词: 分类, 不平衡数据, 渐进学习

Abstract:

For problem of imbalanced data learning, a gradually learning classification algorithm is proposed. This classification algorithm gradually adds the synthetic minority class examples according to attribute value-range distribution, and removes timely the synthetic examples which the stage classifier misclassifies. As the data achieves the desired degree of balance, the method uses raw data and synthetic data training learning algorithm, and gets the final classifier. Experimental results show that the gradually learning algorithm is better than C4.5, and better than SMOTEBoost and DataBoost-IM on most data sets.

Key words: classification, imbalanced data, gradually learning

中图分类号:

TP181

董元方, 李雄飞, 李军. 一种不平衡数据渐进学习算法[J]. 计算机工程, 2010, 36(24): 161-163.

DONG Yuan-Fang, LI Xiong-Fei, LI Jun. Gradually Learning Algorithm for Imbalanced Data[J]. Computer Engineering, 2010, 36(24): 161-163.

http://www.ecice06.com/CN/Y2010/V36/I24/161

[1]	刘金硕, 王代辰, 邓娟, 王丽娜. 基于长尾分类算法的网络不良信息分类[J]. 计算机工程, 2023, 49(8): 13-19, 28.
[2]	杨燕燕, 谢明轩, 曹江峡, 王学宾, 柳厅文, 杜彦辉. 基于原型网络的中文分类模型对抗样本生成[J]. 计算机工程, 2023, 49(8): 54-62.
[3]	杨祖赫, 黎智辉, 唐云祁, 晏于文, 宋华青. 结合语义与图像信息的行人属性识别算法[J]. 计算机工程, 2023, 49(8): 215-222, 231.
[4]	余长宏, 陆雅, 王海鑫, 高明. 基于滑动时间窗的物联网设备流量分类算法[J]. 计算机工程, 2023, 49(7): 259-268.
[5]	曹坪, 杨怀志, 薄一军, 尤嘉, 张淳杰, 李丹勇. 面向低质量裂缝图像的多知识蒸馏分类[J]. 计算机工程, 2023, 49(7): 204-213.
[6]	谢虹, 姜文刚. RRA-InceptionV3结合鲁棒稀疏表示的表情识别方法[J]. 计算机工程, 2023, 49(7): 196-203.
[7]	殷文君, 黄建华, 纪元法. 基于改进密集卷积网络的皮肤肿瘤分类方法[J]. 计算机工程, 2023, 49(7): 288-294.
[8]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[9]	王其涵, 庞建民, 岳峰, 祝迪, 沈莉, 肖谦. 面向申威架构的KNN并行算法实现与优化[J]. 计算机工程, 2023, 49(5): 286-294.
[10]	石进, 徐杨, 曹斌. 基于自适应三线性池化网络的细粒度图像分类[J]. 计算机工程, 2023, 49(5): 239-246,254.
[11]	袁立宁, 胡皓, 刘钊. 基于多通道图卷积自编码器的图表示学习[J]. 计算机工程, 2023, 49(2): 150-160,174.
[12]	王松, 买日旦·吾守尔, 古兰拜尔·吐尔洪, 薛源. 基于知识架构的持续学习情感分类方法[J]. 计算机工程, 2023, 49(2): 112-118.
[13]	杨红菊, 靳新宇. 一个实体关系与事件抽取的通用模型[J]. 计算机工程, 2023, 49(2): 143-149.
[14]	王春东, 孙嘉琪, 杨文军. 基于矫正理解的中文文本对抗样本生成方法[J]. 计算机工程, 2023, 49(2): 37-45.
[15]	韩彦岭, 沈思扬, 徐利军, 王静, 张云, 周汝雁. 面向深度学习图像分类的GPU并行方法研究[J]. 计算机工程, 2023, 49(1): 191-200.

选择文件类型/文献管理软件名称

选择包含的内容

一种不平衡数据渐进学习算法

Gradually Learning Algorithm for Imbalanced Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

一种不平衡数据渐进学习算法

Gradually Learning Algorithm for Imbalanced Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价