作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

计算机工程 ›› 2007, Vol. 33 ›› Issue (08): 66-67. doi: 10.3969/j.issn.1000-3428.2007.08.022

• 软件技术与数据库 • 上一篇    下一篇

近似k-median分类属性数据聚类

赵 恒,张高煜   

  1. (西安电子科技大学电子工程学院,西安 710071)
  • 收稿日期:1900-01-01 修回日期:1900-01-01 出版日期:2007-04-20 发布日期:2007-04-20

Approximate k-median Clustering for Categorical Data

ZHAO Heng, ZHANG Gaoyu   

  1. (School of Electronic Eng., Xidian University, Xi’an 710071)
  • Received:1900-01-01 Revised:1900-01-01 Online:2007-04-20 Published:2007-04-20

摘要: 数据挖掘中解决分类属性数据聚类的算法有很多种,但大多数基于划分的方法得到的聚类中心一般不是数据集中的实际数据对象,缺乏实际的物理意义,有时会导致某一聚类为空。该文研究了近似k-median的求解算法,用数据的近似中值来代替模式进行聚类,提出了分类属性数据的近似k-median聚类算法,克服了一般基于划分的可分类属性数据聚类中所遇到的问题,仿真实验证明该算法有效。

关键词: 数据挖掘, 近似k-median聚类, 分类属性数据

Abstract: Based on the approximate k-median algorithm, an approximate k-median clustering algorithm for categorical data is developed. The algorithm replaces the modes in k-modes algorithm with the approximate medians of data set, and optimizes the center of cluster with the approximate k-median algorithm. The center of cluster is an actual sample of data set, which prevents the empty cluster. The experiments indicate the algorithm is effective.

Key words: Data mining, Approximate k-median clustering, Categorical data