分批处理的K-means算法并行实现

doi:10.3969/j.issn.1000-3428.2012.13.043

计算机工程 ›› 2012, Vol. 38 ›› Issue (13): 145-147,151. doi: 10.3969/j.issn.1000-3428.2012.13.043

分批处理的K-means算法并行实现

兰远东，刘宇芳，徐涛

(惠州学院计算机科学系，广东惠州 516007)

收稿日期:2011-10-18 出版日期:2012-07-05 发布日期:2012-07-05
作者简介:兰远东(1975－)，男，博士研究生，主研方向：模式识别，机器学习；刘宇芳，副教授；徐涛，博士研究生
基金资助:
国家“863”先进制造领域基金资助重点项目(2006AA04A120)；广东高校优秀青年创新人才培养计划基金资助项目(LYM09128)

Parallel Implementation of K-means Algorithm with Batch Processing

LAN Yuan-dong, LIU Yu-fang, XU Tao

(Department of Computer Science, Huizhou University, Huizhou 516007, China)

Received:2011-10-18 Online:2012-07-05 Published:2012-07-05

摘要/Abstract

摘要： 为解决K-means 算法计算量大、收敛缓慢、运算耗时长等问题，给出一种新的K-means算法的并行实现方法。在通用计算图形处理器架构上，使用统一计算设备架构(CUDA)加速K-means算法。采用分批原则，更合理地运用CUDA提供的各种存储器，避免访问冲突，同时减少对数据集的访问次数，以提高算法效率。在大规模数据集中的实验结果表明，该算法具有较快的聚类速度。

关键词: 数据挖掘, K-means算法, 统一计算设备架构, 并行算法, 聚类分析, 图形处理器

Abstract: K-means algorithm is computationally intensive, time consuming and convergence slow. In order to solve the problem of K-means algorithm, a new set of parallel solution of K-means algorithm is presented. In the General Purpose computation on Graphics Processing Unit(GPGPU) architecture, Compute Unified Device Architecture(CUDA) is used to accelerate K-means algorithm. Based on batch principle, the algorithm uses CUDA’s memory more rationally, to avoid access conflict, reduce the number of times of visits for data sets, and improve the efficiency of K-means algorithm. Experimental result in large-scale data set shows that the algorithm has a faster clustering speed.

Key words: data mining, K-means algorithm, Compute Unified Device Architecture(CUDA), parallel algorithm, clustering analysis, Graphics Processing Unit(GPU)

中图分类号:

TP301.6

兰远东, 刘宇芳, 徐涛. 分批处理的K-means算法并行实现[J]. 计算机工程, 2012, 38(13): 145-147,151.

LAN Yuan-Dong, LIU Yu-Fang, XU Chao. Parallel Implementation of K-means Algorithm with Batch Processing[J]. Computer Engineering, 2012, 38(13): 145-147,151.

http://www.ecice06.com/CN/Y2012/V38/I13/145

[1]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[2]	李博, 黄东强, 贾金芳, 吴利, 王晓英, 黄建强. 基于CPU与GPU的异构模板计算优化研究[J]. 计算机工程, 2023, 49(4): 131-137.
[3]	林琳, 祝爱琦, 赵明璨, 张帅, 叶炎昊, 徐骥, 韩林, 赵荣彩, 侯超峰. 晶硅分子动力学模拟的GPU加速算法优化[J]. 计算机工程, 2023, 49(4): 166-173.
[4]	李靖, 祝爱琦, 韩林, 侯超峰. 基于GPU的固态晶体硅分子动力学算法优化[J]. 计算机工程, 2023, 49(3): 288-295.
[5]	席荣康, 蔡满春, 芦天亮. 基于数据增强与流数据处理的Tor流量分析模型[J]. 计算机工程, 2023, 49(3): 177-184.
[6]	陈璐瑶, 刘奇龙, 许云霞, 陈震. 基于超图正则化非负Tucker分解的图像聚类算法[J]. 计算机工程, 2022, 48(4): 197-205.
[7]	谷青竹, 董红斌. PPDM中面向k-匿名的MI Loss评估模型[J]. 计算机工程, 2022, 48(4): 143-147.
[8]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[9]	张攀, 高丰, 周逸, 饶涵宇, 毛冬, 李静. 一种在线实时微服务调用链异常检测方法[J]. 计算机工程, 2022, 48(11): 161-169.
[10]	吴军, 欧阳艾嘉, 张琳. 面向置换检验的冗余对比模式过滤算法[J]. 计算机工程, 2022, 48(1): 75-84.
[11]	吴军, 欧阳艾嘉, 张琳. 面向对比序列模式发现的独立精确置换检验算法[J]. 计算机工程, 2021, 47(8): 45-53,61.
[12]	肖汉, 郭宝云, 李彩林, 周清雷. 面向异构架构的传递闭包并行算法[J]. 计算机工程, 2021, 47(8): 131-139.
[13]	张海涛, 秦鹏程. 基于GMS与FPME的视频目标跟踪方法[J]. 计算机工程, 2021, 47(7): 226-231.
[14]	闫成起, 赵利华, 陈梦婕, 周军. 基于统计聚类方法的儿童下肢肌电信号周期识别[J]. 计算机工程, 2021, 47(5): 273-276,284.
[15]	孙静勇, 马福民. 基于邻域归属信息混合度量的粗糙K-Means算法[J]. 计算机工程, 2021, 47(3): 109-116.

选择文件类型/文献管理软件名称

选择包含的内容

分批处理的K-means算法并行实现

Parallel Implementation of K-means Algorithm with Batch Processing

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

分批处理的K-means算法并行实现

Parallel Implementation of K-means Algorithm with Batch Processing

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价