基于聚类和遗传交叉的少数类样本生成方法

doi:10.3969/j.issn.1000-3428.2009.22.062

计算机工程 ›› 2009, Vol. 35 ›› Issue (22): 182-184. doi: 10.3969/j.issn.1000-3428.2009.22.062

基于聚类和遗传交叉的少数类样本生成方法

杜娟，衣治安，周颖

(大庆石油学院计算机与信息技术学院，大庆 163318)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2009-11-20 发布日期:2009-11-20

Generation Method for Samples of Minority Class Based on Clustering and Genetic Crossover

DU Juan, YI Zhi-an, ZHOU Ying

(Institute of Computer and Information Technology, Daqing Petroleum Institute, Daqing 163318)

Received:1900-01-01 Revised:1900-01-01 Online:2009-11-20 Published:2009-11-20

摘要/Abstract

摘要： 传统的分类算法在处理不均衡样本数据时，分类器预测倾向于多数类，样本数量少的类别分类误差大。针对该问题，提出一种基于聚类和遗传交叉的少数类样本上采样方法，通过K-means算法将少数类样本聚类分组，在每个聚类内使用遗传交叉获取新样本，并进行有效性验证。基于K-最近邻及支持向量机分类器的实验结果证明了该方法的有效性。

关键词: 不均衡数据集, 分类, 聚类, 遗传交叉

Abstract: Prediction results of classification with traditional classify algorithm are towards the class with more samples when training imbalanced data sets. The classification error of the minority class is grave. Aiming at the problem, this paper proposes an over-sampling method based on clustering and genetic crossover. The samples of minority class are grouped by using K-means clustering algorithm. Genetic crossover algorithm is used in each cluster to gain new samples and confirm the validity. The validity of the method is proved through the experiments of K-Nearest Neighbor(KNN) and Support Vector Machine(SVM) classification.

Key words: imbalanced data set, classification, clustering, genetic crossover

中图分类号:

TP391

杜娟;衣治安;周颖. 基于聚类和遗传交叉的少数类样本生成方法[J]. 计算机工程, 2009, 35(22): 182-184.

DU Juan; YI Zhi-an; ZHOU Ying. Generation Method for Samples of Minority Class Based on Clustering and Genetic Crossover[J]. Computer Engineering, 2009, 35(22): 182-184.

http://www.ecice06.com/CN/Y2009/V35/I22/182

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	刘金硕, 王代辰, 邓娟, 王丽娜. 基于长尾分类算法的网络不良信息分类[J]. 计算机工程, 2023, 49(8): 13-19, 28.
[3]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[4]	杨燕燕, 谢明轩, 曹江峡, 王学宾, 柳厅文, 杜彦辉. 基于原型网络的中文分类模型对抗样本生成[J]. 计算机工程, 2023, 49(8): 54-62.
[5]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[6]	杨祖赫, 黎智辉, 唐云祁, 晏于文, 宋华青. 结合语义与图像信息的行人属性识别算法[J]. 计算机工程, 2023, 49(8): 215-222, 231.
[7]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[8]	余长宏, 陆雅, 王海鑫, 高明. 基于滑动时间窗的物联网设备流量分类算法[J]. 计算机工程, 2023, 49(7): 259-268.
[9]	曹坪, 杨怀志, 薄一军, 尤嘉, 张淳杰, 李丹勇. 面向低质量裂缝图像的多知识蒸馏分类[J]. 计算机工程, 2023, 49(7): 204-213.
[10]	谢虹, 姜文刚. RRA-InceptionV3结合鲁棒稀疏表示的表情识别方法[J]. 计算机工程, 2023, 49(7): 196-203.
[11]	殷文君, 黄建华, 纪元法. 基于改进密集卷积网络的皮肤肿瘤分类方法[J]. 计算机工程, 2023, 49(7): 288-294.
[12]	张博旭, 蒲智, 程曦. 基于提示学习的维吾尔语文本分类研究[J]. 计算机工程, 2023, 49(6): 292-299,313.
[13]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[14]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[15]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.

选择文件类型/文献管理软件名称

选择包含的内容

基于聚类和遗传交叉的少数类样本生成方法

Generation Method for Samples of Minority Class Based on Clustering and Genetic Crossover

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于聚类和遗传交叉的少数类样本生成方法

Generation Method for Samples of Minority Class Based on Clustering and Genetic Crossover

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价