计算机工程 ›› 2020, Vol. 46 ›› Issue (5): 115-121.doi: 10.19678/j.issn.1000-3428.0054536

• 先进计算与数据处理 • 上一篇    下一篇

一种分类型矩阵数据的初始聚类中心选择算法

田璐1,2, 曹付元1,2, 余丽琴1,2   

  1. 1. 山西大学 计算机与信息技术学院, 太原 030006;
    2. 计算智能与中文信息处理教育部重点实验室, 太原 030006
  • 收稿日期:2019-04-09 修回日期:2019-07-02 发布日期:2019-07-14
  • 作者简介:田璐(1994-),女,硕士研究生,主研方向为数据挖掘、机器学习;曹付元(通信作者),教授、博士、博士生导师;余丽琴,博士研究生。
  • 基金项目:
    国家自然科学基金(61573229);山西省重点研发计划项目(201803D31022);山西省留学基金择优项目(2016-001);山西省留学基金(2016-003)。

An Initial Cluster Center Selection Algorithm for Categorical Matrix Data

TIAN Lu1,2, CAO Fuyuan1,2, YU Liqin1,2   

  1. 1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China;
    2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Taiyuan 030006, China
  • Received:2019-04-09 Revised:2019-07-02 Published:2019-07-14

摘要: 现有面向矩阵数据集的算法多数通过随机选取初始类中心得到聚类结果。为克服不同初始类中心对聚类结果的影响,针对分类型矩阵数据,提出一种新的初始聚类中心选择算法。根据属性值的频率定义矩阵对象的密度和矩阵对象间的距离,扩展最大最小距离算法,从而实现初始类中心的选择。在7个真实数据集上的实验结果表明,与初始类中心选择算法CAOICACD和BAIICACD相比,该算法均具有较优的聚类效果。

关键词: 分类型矩阵, 矩阵对象, 初始聚类中心, 密度, 数据集

Abstract: Most of the existing algorithms for matrix datasets obtain clustering results by randomly selecting the initial cluster center.In order to overcome the influence of different initial cluster centers on the clustering results,this paper proposes a new initial cluster center selection algorithm for categorical matrix data.The density of the matrix objects and the distance between the matrix objects are defined according to the frequency of the attribute values,and the maximum and minimum distance algorithms are extended to realize the selection of the initial cluster center.Experimental results on seven real datasets show that the algorithm has better clustering effect than the initial cluster center selection algorithms CAOICACD and BAIICACD.

Key words: categorical matrix, matrix object, initial cluster center, density, datasets

中图分类号: