K-means Clustering Ensemble Based on MapReduce

doi:10.3969/j.issn.1000-3428.2013.09.018

Computer Engineering

Previous Articles Next Articles

K-means Clustering Ensemble Based on MapReduce

JI Su-qin, SHI Hong-bo

(School of Information Management, Shanxi University of Finance & Economics, Taiyuan 030031, China)

Received:2012-08-27 Online:2013-09-15 Published:2013-09-13

基于MapReduce的K-means聚类集成

冀素琴，石洪波

(山西财经大学信息管理学院，太原 030031)

作者简介:冀素琴(1972－)，女，讲师、硕士、CCF会员，主研方向：数据挖掘，分布式技术；石洪波，教授、博士
基金资助:
国家自然科学基金资助项目(60873100)；山西省自然科学基金资助项目(2010011022-1)

Abstract

Abstract: Aiming at the problem of the clustering analysis on massive data for traditional clustering algorithm, this paper proposes a K-means clustering ensemble algorithm based on MapReduce. It generates component clustering results with different number of cluster by the K-means algorithm, improves co-association matrix, and gets a final result automatically via the number of times sample pair co-occurred. Experimental results show that this algorithm can effectively improve the quality of clustering, and has good scalability, fits to clustering analysis on massive data.

Key words: massive dada, clustering, MapReduce framework, K-means algorithm, co-association matrix, clustering ensemble

摘要： 针对传统聚类算法难以高效进行海量数据聚类分析的问题，提出一种基于MapReduce框架的K-means聚类集成算法。利用K-means算法生成不同聚簇数目的基聚类结果，改进共协关系矩阵，依据数据点对出现次数进行集成，自动得出最终聚类结果。实验结果表明，该算法能够有效地改善聚类质量，具有良好的扩展性，适用于海量数据的聚类分析。

关键词: 海量数据, 聚类, MapReduce框架, K-means算法, 共协关系矩阵, 聚类集成

CLC Number:

TP311

JI Su-qin, SHI Hong-bo. K-means Clustering Ensemble Based on MapReduce[J]. Computer Engineering.

冀素琴，石洪波. 基于MapReduce的K-means聚类集成[J]. 计算机工程.

/ Recommend / Download Citations

URL:

https://www.ecice06.com/EN/Y2013/V39/I9/84

[1]	GUO Jipeng, XU Shilong, LONG Jiahao, WANG Youqing, SUN Yanfeng, YIN Baocai. Multi-view Subspace Clustering Based on Dual Cross-view Correlation Detection [J]. Computer Engineering, 2025, 51(4): 27-36.
[2]	LI Qiwen, WANG Zhihe, DU Hui, LU Depeng. Adaptive Density Peak Clustering Algorithm Based on Gaussian Distribution [J]. Computer Engineering, 2025, 51(4): 137-148.
[3]	NIE Lei, HU Zisheng, BAO Haizhou. Heterogeneous Vehicular Network Selection Method Based on RSU-assisted and Adaptive Clustering [J]. Computer Engineering, 2025, 51(3): 162-171.
[4]	Hongjiao LI, Baojin WANG, Zhaohui WANG, Renhao HU. Dual-Client Selection Algorithm Based on Model Similarity and Local Loss [J]. Computer Engineering, 2024, 50(8): 153-164.
[5]	HU Aoran, CHEN Xiaohong. One-step Multi-view Clustering Based on Diversity and Consistency [J]. Computer Engineering, 2024, 50(5): 51-61.
[6]	Yue MA, Mi WEN. Spatial Load Forecasting Method Based on Multiscale LDTW and TCN [J]. Computer Engineering, 2024, 50(3): 106-113.
[7]	Huawei SONG, Shengqi LI, Fangjie WAN, Yuping WEI. Federated Learning Optimization Method in Non-IID Scenarios [J]. Computer Engineering, 2024, 50(3): 166-172.
[8]	Lijuan WANG, Jinping XING, Ming YIN, Zhifeng HAO, Ruichu CAI, Wen WEN. Weight Adaptive Multi-view Spectral Clustering Algorithm Based on Consistent Graphs [J]. Computer Engineering, 2024, 50(2): 122-131.
[9]	PAN Wei, HUANG Ruizhang, REN Lina, XUE Jingjing. Deep Document Clustering Based on Adaptive Structural Learning [J]. Computer Engineering, 2024, 50(11): 89-97.
[10]	ZHANG Yujie, GAO Han. Image Segmentation Algorithm for Stamping Defects Based on Improved FCM [J]. Computer Engineering, 2024, 50(10): 342-351.
[11]	LIU Daxing, GU Naijie, HUANG Zhangjin, SU Junjie, QI Dongsheng. A Sampling Algorithm for Software Prefetching Using Memory Access Traces [J]. Computer Engineering, 2024, 50(10): 362-369.
[12]	ZHANG Junna, HAN Chaochen, CHEN Jiawei, ZHAO Xiaoyan, YUAN Peiyan. A Method for Joint Edge Server Deployment and Service Placement [J]. Computer Engineering, 2024, 50(10): 266-280.
[13]	Sihui LIU, Quanxue GAO, Wei SONG, Deyan XIE. Multiview Spectral Clustering Based on Weighted Tensor Low-Rank Constraint [J]. Computer Engineering, 2024, 50(1): 129-137.
[14]	Yuyan JIANG, Chengfeng TAO, Ping LI. Deep Subspace Clustering Algorithm with Data Augmentation and Adaptive Self-Paced Learning [J]. Computer Engineering, 2023, 49(8): 96-103, 110.
[15]	Meiguang ZHENG, Yong YANG. Personalized Federated Learning Algorithm Based on Mutual Information and Soft Clustering [J]. Computer Engineering, 2023, 49(8): 20-28.

Please choose a citation manager

Content to export

K-means Clustering Ensemble Based on MapReduce

基于MapReduce的K-means聚类集成

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments

模态框（Modal）标题

Please choose a citation manager

Content to export

K-means Clustering Ensemble Based on MapReduce

基于MapReduce的K-means聚类集成

PDF

Knowledge

Cited

Abstract

Cite this article

share this article

References

Related Articles 15

Recommended Articles

Metrics

Comments