基于随机游走模型和KL-divergence的聚类算法

doi:10.3969/j.issn.1000-3428.2008.16.077

计算机工程 ›› 2008, Vol. 34 ›› Issue (16): 224-226. doi: 10.3969/j.issn.1000-3428.2008.16.077

基于随机游走模型和KL-divergence的聚类算法

何会民

(邯郸学院计算机系，邯郸 056005)

收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2008-08-20 发布日期:2008-08-20

Clustering Algorithm Based on Random Walk Model and KL-divergence

HE Hui-min

(Computer Science Department, Handan College, Handan 056005)

Received:1900-01-01 Revised:1900-01-01 Online:2008-08-20 Published:2008-08-20

摘要/Abstract

摘要： 聚类分析在数据挖掘领域有着广泛的应用，该文提出一个聚类新思路，它不需要任何参数的假设，只基于数据两两之间的相似性。该方法假设数据点之间存在随机游走关系，根据数据相似性构造随机游走过程的转移矩阵，当随机游走过程进入收敛期后，t阶转移矩阵揭示了数据点的分布。用迭代方法寻找最小的KL-divergence来对这些分布聚类。该方法具有严谨的概率理论基础，避免了传统算法需要参数假设、限于局部最优等不足。实验表明，该算法具有较优的聚类效果。

关键词: 聚类, 随机游走, KL散度

Abstract: Clustering analysis is broadly applied in data mining. This paper presents a new idea in clustering based on pair-wise similarities, and assumes no parametric statistical model. Similarities are transformed to a Markov random walk probability matrix. It is assumed the dataset is under a Markov random walk process. When the process is going into convergence, the t-step transform matrix indicates the distribution of the dataset. It uses iterative algorithm to cluster these data with the goal of decreasing KL-divergence. This method has a solid foundation of probability theory, which can avoid some insufficiency of the traditional algorithms. The experiment shows the algorithm can achieve better results than K-means and mixture models.

Key words: clustering, random walk, KL-divergence

中图分类号:

TP301.6

何会民. 基于随机游走模型和KL-divergence的聚类算法[J]. 计算机工程, 2008, 34(16): 224-226.

HE Hui-min. Clustering Algorithm Based on Random Walk Model and KL-divergence[J]. Computer Engineering, 2008, 34(16): 224-226.

http://www.ecice06.com/CN/Y2008/V34/I16/224

[1]	江雨燕, 陶承凤, 李平. 数据增强和自适应自步学习的深度子空间聚类算法[J]. 计算机工程, 2023, 49(8): 96-103, 110.
[2]	郑美光, 杨泳. 基于互信息软聚类的个性化联邦学习算法[J]. 计算机工程, 2023, 49(8): 20-28.
[3]	李泽水, 冀俊忠, 杨翠翠. 基于边权重信息深度网络嵌入的PPIN功能模块检测[J]. 计算机工程, 2023, 49(8): 69-76.
[4]	邱天晨, 郑小盈, 祝永新, 封松林. 面向非独立同分布数据的联邦学习架构[J]. 计算机工程, 2023, 49(7): 110-117.
[5]	高小方, 原玉梁, 温静, 白雪飞. 面向相交多流形聚类的标签传播算法[J]. 计算机工程, 2023, 49(6): 90-98.
[6]	位雅, 张正军, 何凯琳, 唐莉. 基于相对密度的密度峰值聚类算法[J]. 计算机工程, 2023, 49(6): 53-61.
[7]	戴浩磊, 黄永慧, 周郭许. 基于超图正则化非负张量链分解的聚类分析[J]. 计算机工程, 2023, 49(6): 81-89.
[8]	李晓腾, 张盼盼, 勾智楠, 高凯. 基于多任务学习的多模态命名实体识别方法[J]. 计算机工程, 2023, 49(4): 114-119.
[9]	程小辉, 李钰, 康燕萍. 基于中间图特征提取的卷积网络双标准剪枝[J]. 计算机工程, 2023, 49(3): 105-112.
[10]	袁立宁, 胡皓, 刘钊. 基于多通道图卷积自编码器的图表示学习[J]. 计算机工程, 2023, 49(2): 150-160,174.
[11]	蔡瑞初, 伍运金, 陈薇, 郝志峰. 面向多元时间序列的群体因果关系发现算法[J]. 计算机工程, 2023, 49(2): 127-135.
[12]	胡慧旗, 张维强, 徐晨. 判别性增强的稀疏子空间聚类[J]. 计算机工程, 2023, 49(2): 98-104.
[13]	李林珂, 康昭, 龙波. 基于黎曼流形的多视角谱聚类算法[J]. 计算机工程, 2023, 49(1): 113-120,129.
[14]	孙扬威, 戚湧. 基于聚类混合采样与PSO-Stacking的车载CAN入侵检测方法[J]. 计算机工程, 2023, 49(1): 138-145.
[15]	李海林, 夏燕燕, 邹金串. 基于CPET时序聚类的中长跑耐力运动员选拔方法[J]. 计算机工程, 2022, 48(9): 262-268.

选择文件类型/文献管理软件名称

选择包含的内容

基于随机游走模型和KL-divergence的聚类算法

Clustering Algorithm Based on Random Walk Model and KL-divergence

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

基于随机游走模型和KL-divergence的聚类算法

Clustering Algorithm Based on Random Walk Model and KL-divergence

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价