面向海量数据的改进最近邻优先吸收聚类算法

doi:10.3969/j.issn.1000-3428.2018.04.006

计算机工程

所属专题：大数据专题；

面向海量数据的改进最近邻优先吸收聚类算法

宁可¹,孙同晶¹,徐洁洁²

(1.杭州电子科技大学自动化学院,杭州 310018; 2.浙江省电子信息产品检验所,杭州 310007)

收稿日期:2017-04-07 出版日期:2018-04-15 发布日期:2018-04-15
作者简介:宁可(1992—),男,硕士研究生,主研方向为海量数据挖掘;孙同晶,副教授、博士;徐洁洁,工程师。
基金资助:
浙江省信息安全重点实验室基金(KYZ066816004)。

Improved Nearest Neighbor Absorption First Clustering Algorithm for Massive Data

NING Ke¹,SUN Tongjing¹,XU Jiejie²

(1.School of Automation,Hangzhou Dianzi University,Hangzhou 310018,China;2.Zhejiang Province Electronic Information Products Testing Institute,Hangzhou 310007,China)

Received:2017-04-07 Online:2018-04-15 Published:2018-04-15

摘要/Abstract

摘要： 针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。

关键词: 海量数据, 聚类, MapReduce框架, 最近邻优先吸收聚类算法, Canopy算法, 并行化

Abstract: Aiming at the problem that the Nearest Neighbor Absorption First(NNAF) clustering algorithm is difficult to be applied in the massive data clustering process,an improved algorithm is proposed based on MapReduce.By introducing MapReduce parallel programming framework and using Canopy coarse clustering,it optimizes the calculation process and improves the process of clustering the intersection.Three different data sets are used to compare the K-means algorithm,the improved NNAF clustering algorithm and the NNAF clustering algorithm.Experimental results show that the improved algorithm can guarantee the clustering quality to a certain extent and has higher running speed.It is suitable for clustering analysis of massive data.

Key words: massive data, clustering, MapReduce framework, Nearest Neighbor Absorption First(NNAF) clustering lgorithm, Canopy algorithm, parallelization

中图分类号:

TP391

宁可,孙同晶,徐洁洁. 面向海量数据的改进最近邻优先吸收聚类算法[J]. 计算机工程, doi: 10.3969/j.issn.1000-3428.2018.04.006.

NING Ke,SUN Tongjing,XU Jiejie. Improved Nearest Neighbor Absorption First Clustering Algorithm for Massive Data[J]. Computer Engineering, doi: 10.3969/j.issn.1000-3428.2018.04.006.

http://www.ecice06.com/CN/Y2018/V44/I4/35

参考文献

参考文献［1］牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究［J］.计算机科学,2012,39(1):134-137. ［2］陈东明,刘健,王冬琦,等.基于MapReduce的分布式网络数据聚类算法［J］.计算机工程,2013,39(7):76-82. ［3］JI Yanqing,TIAN Yun,SHEN Fangyang,et al.Leveraging MapReduce to efficiently extract associations between biomedical concepts from large text data［J］.Micro-processors and Microsystems,2016,46(B):202-210. ［4］PULGAR-RUBIO F,RIVERA-RIVAS A J,PREZ-GODOY M D,et al.MEFASD-BD:multi-objective evolutionary fuzzy algorithm for subgroup discovery in big data environments-a MapReduce solution［J］.Knowledge-Based Systems,2017,117(1):70-78. ［5］TSAI C F,LIN W C,KE S W.Big data mining with parallel computing:a comparison of distributed and MapReduce methodologies［J］.The Journal of Systems and Software,2016,122(1):83-92. ［6］冯丽娜.并行K-means聚类方法在简历数据中的应用研究［J］.计算机科学,2009,36(8):276-279. ［7］谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法［J］.计算机工程,2014,40(8):205-211,223. ［8］SHAHRIVARI S,JALILI S.Single-pass and linear-time K-means clustering based on MapReduce［J］.Information Systems,2016,60(C):1-12. ［9］冀素琴,石洪波.基于MapReduce的K-means聚类集成［J］.计算机工程,2013,39(9):84-87. ［10］赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法［J］.电子科技,2014,2(7):29-31. ［11］胡建军,唐常杰,李川,等.基于最近邻优先的高效聚类算法［J］.四川大学学报(工程科学版),2004,6(4):93-99. ［12］王鑫,王洪国,张建喜,等.基于数据分区的最近邻优先聚类算法［J］.计算机科学,2005,12(9):188-190. ［13］程苗,陈华平.基于Hadoop的Web日志挖掘［J］.计算机工程,2011,41(11):37-39. ［14］SANDEEP P,MORGAN F,CAWLEY S,et al.Modular neural tile architecture for compact embedded hardware spiking neural network［J］.Neural Processing Letters,2013,38(2):131-153. ［15］冀素琴,石洪波.面向海量数据的K-means聚类优化算法［J］.计算机工程与应用,2014,14(1):143-147. 编辑金胡考

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[3]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[4]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[5]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[6]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[7]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[8]	李晓腾, 张盼盼, 勾智楠, 高凯. 基于多任务学习的多模态命名实体识别方法[J]. 计算机工程, 2023, 49(4): 114-119.
[9]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[10]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.
[11]	蔡瑞初, 伍运金, 陈薇, 郝志峰. 面向多元时间序列的群体因果关系发现算法[J]. 计算机工程, 2023, 49(2): 127-135.
[12]	袁立宁, 胡皓, 刘钊. 基于多通道图卷积自编码器的图表示学习[J]. 计算机工程, 2023, 49(2): 150-160,174.
[13]	孙扬威, 戚湧. 基于聚类混合采样与PSO-Stacking的车载CAN入侵检测方法[J]. 计算机工程, 2023, 49(1): 138-145.
[14]	李林珂, 康昭, 龙波. 基于黎曼流形的多视角谱聚类算法[J]. 计算机工程, 2023, 49(1): 113-120,129.
[15]	李海林, 夏燕燕, 邹金串. 基于CPET时序聚类的中长跑耐力运动员选拔方法[J]. 计算机工程, 2022, 48(9): 262-268.

选择文件类型/文献管理软件名称

选择包含的内容

面向海量数据的改进最近邻优先吸收聚类算法

Improved Nearest Neighbor Absorption First Clustering Algorithm for Massive Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

面向海量数据的改进最近邻优先吸收聚类算法

Improved Nearest Neighbor Absorption First Clustering Algorithm for Massive Data

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价