摘要: 数据挖掘中解决分类属性数据聚类的算法有很多种,但大多数基于划分的方法得到的聚类中心一般不是数据集中的实际数据对象,缺乏实际的物理意义,有时会导致某一聚类为空。该文研究了近似k-median的求解算法,用数据的近似中值来代替模式进行聚类,提出了分类属性数据的近似k-median聚类算法,克服了一般基于划分的可分类属性数据聚类中所遇到的问题,仿真实验证明该算法有效。
关键词:
数据挖掘,
近似k-median聚类,
分类属性数据
Abstract: Based on the approximate k-median algorithm, an approximate k-median clustering algorithm for categorical data is developed. The algorithm replaces the modes in k-modes algorithm with the approximate medians of data set, and optimizes the center of cluster with the approximate k-median algorithm. The center of cluster is an actual sample of data set, which prevents the empty cluster. The experiments indicate the algorithm is effective.
Key words:
Data mining,
Approximate k-median clustering,
Categorical data
赵 恒;张高煜. 近似k-median分类属性数据聚类[J]. 计算机工程, 2007, 33(08): 66-67.
ZHAO Heng; ZHANG Gaoyu. Approximate k-median Clustering for Categorical Data[J]. Computer Engineering, 2007, 33(08): 66-67.