面向大规模数据集的近邻传播聚类

doi:10.3969/j.issn.1000-3428.2010.23.008

计算机工程 ›› 2010, Vol. 36 ›› Issue (23): 22-24. doi: 10.3969/j.issn.1000-3428.2010.23.008

面向大规模数据集的近邻传播聚类

谷瑞军1，汪加才1，陈耿1,2，陈圣磊1

(1. 南京审计学院信息科学学院，南京 210029； 2. 江苏大学计算机科学与通信工程学院，江苏镇江 212013)

出版日期:2010-12-05 发布日期:2010-12-14
作者简介:谷瑞军(1979-)，男，讲师、博士，主研方向：数据挖掘，商务智能；汪加才，教授、博士；陈耿，教授、博士生导师；陈圣磊，讲师、博士
基金资助:
国家自然科学基金资助项目(70971067/G0112)；江苏省高校自然科学基金资助项目(09KJD520006)；校级预研课题基金资助项目(NSK2009/A04)

Affinity Propagation Clustering for Large Scale Dataset

GU Ruijun1，WANG Jiacai1，CHEN Geng1,2，CHEN Shenglei1

(1. School of Information Science, Nanjing Audit University, Nanjing 210029, China; 2. School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang 212013, China)

Online:2010-12-05 Published:2010-12-14

摘要/Abstract

摘要： 近邻传播聚类在计算过程中需构建相似度矩阵，该矩阵的规模随样本数急剧增长，限制了算法在大规模数据集上的直接应用。为此，提出一种改进的近邻传播聚类算法，利用数据点的局部分布，借鉴半监督聚类的思想构造稀疏化的相似度矩阵，并对聚类结果中的簇代表点再次或多次聚类，直至得到合适的簇划分。实验结果表明，该算法在处理能力和运算速度上优于原算法。

关键词: 近邻传播聚类, 大规模数据集, 数据挖掘

Abstract: Affinity Propagation(AP)clustering takes the full similarity matrix to perform propagation, which limits its application in large scale dataset. An improved affinity propagation clustering is proposed specially for processing large dataset, which fully utilizes local distribution to add constraint like semisupervised clustering to construct sparse similarity matrix. AP runs on sparse similarity matrix to obtain an initial cluster partition, and runs iteratively on the exemplars until it obtains a reasonable partition. Experimental results demonstrate that improved affinity propagation performs better both in processing scale and processing time.

Key words: affinity propagation clustering, large scale dataset, data mining

中图分类号:

TP391

谷瑞军, 汪加才, 陈耿, 陈圣磊. 面向大规模数据集的近邻传播聚类[J]. 计算机工程, 2010, 36(23): 22-24.

GU Rui-Jun, HONG Jia-Cai, CHEN Geng, CHEN Ku-Lei. Affinity Propagation Clustering for Large Scale Dataset[J]. Computer Engineering, 2010, 36(23): 22-24.

http://www.ecice06.com/CN/Y2010/V36/I23/22

[1]	席荣康, 蔡满春, 芦天亮. 基于数据增强与流数据处理的Tor流量分析模型[J]. 计算机工程, 2023, 49(3): 177-184.
[2]	谷青竹, 董红斌. PPDM中面向k-匿名的MI Loss评估模型[J]. 计算机工程, 2022, 48(4): 143-147.
[3]	王璐, 刘晓清, 何震瀛. 连续时间区间内的频繁词序列挖掘算法[J]. 计算机工程, 2022, 48(2): 79-85,91.
[4]	张攀, 高丰, 周逸, 饶涵宇, 毛冬, 李静. 一种在线实时微服务调用链异常检测方法[J]. 计算机工程, 2022, 48(11): 161-169.
[5]	吴军, 欧阳艾嘉, 张琳. 面向置换检验的冗余对比模式过滤算法[J]. 计算机工程, 2022, 48(1): 75-84.
[6]	吴军, 欧阳艾嘉, 张琳. 面向对比序列模式发现的独立精确置换检验算法[J]. 计算机工程, 2021, 47(8): 45-53,61.
[7]	杜诗晴, 王鹏, 汪卫. 一种基于MDL的日志序列模式挖掘算法[J]. 计算机工程, 2021, 47(2): 118-125.
[8]	魏文浩, 唐泽坤, 刘刚. 基于距离和密度的PBK-means算法[J]. 计算机工程, 2020, 46(9): 68-75.
[9]	史明阳, 王鹏, 汪卫. 有监督时间序列分割与状态识别算法[J]. 计算机工程, 2020, 46(5): 131-138.
[10]	张潘, 卢光跃, 吕少卿, 赵雪莉. 基于矩阵分解的属性网络表示学习[J]. 计算机工程, 2020, 46(10): 67-73.
[11]	王慧健, 刘峥, 李云, 李涛. 基于神经网络语言模型的时间序列趋势预测方法[J]. 计算机工程, 2019, 45(7): 13-19,25.
[12]	张玺君, 袁占亭, 张红, 高玮军, 张恩展. 交通轨迹大数据预处理方法研究[J]. 计算机工程, 2019, 45(6): 26-31.
[13]	李克,王海,徐小龙,杜煜. 基于众包感知的移动网络小区信息侦测方法[J]. 计算机工程, 2019, 45(2): 92-100.
[14]	崔晨,邓赵红,王士同. 基于Lasso稀疏学习的径向基函数神经网络模型[J]. 计算机工程, 2019, 45(2): 173-177.
[15]	谢彬,张琨,蔡颖,蒋彤彤,麻孟越. 移动目标关联共现规则挖掘算法研究[J]. 计算机工程, 2018, 44(8): 61-67,73.

选择文件类型/文献管理软件名称

选择包含的内容

面向大规模数据集的近邻传播聚类

Affinity Propagation Clustering for Large Scale Dataset

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

面向大规模数据集的近邻传播聚类

Affinity Propagation Clustering for Large Scale Dataset

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价