«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (3): 109-116  DOI: 10.19678/j.issn.1000-3428.0056670
0

引用本文  

孙静勇, 马福民. 基于邻域归属信息混合度量的粗糙K-Means算法[J]. 计算机工程, 2021, 47(3), 109-116. DOI: 10.19678/j.issn.1000-3428.0056670.
SUN Jingyong, MA Fumin. Rough K-Means Algorithm Based on Mixed Measure of Neighborhood Partition Information[J]. Computer Engineering, 2021, 47(3), 109-116. DOI: 10.19678/j.issn.1000-3428.0056670.

基金项目

国家自然科学基金(61973151);江苏省自然科学基金(BK20191376);江苏省高校自然科学研究重大项目(17KJA120001)

通信作者

马福民(通信作者), 教授、博士

作者简介

孙静勇(1996-), 男, 硕士研究生, 主研方向为智能信息处理

文章历史

收稿日期:2019-11-21
修回日期:2020-01-21
基于邻域归属信息混合度量的粗糙K-Means算法
孙静勇 , 马福民     
南京财经大学 信息工程学院, 南京 210023
摘要:粗糙K-Means及其衍生算法在处理边界区域不确定信息时,其边界区域中的数据对象因与各类簇中心点的距离相差较小,导致难以依据距离、密度对数据点进行区分判断。提出一种新的粗糙K-Means算法,在对数据进行划分时,综合数据对象的局部密度与邻域归属信息来衡量数据点与类簇的相似性,边界数据与类簇之间的关系由其局部的空间分布所决定,使得模糊不确定信息之间的差异更明显。在人工数据集和UCI标准数据集上的实验结果表明,该算法对边界区域数据的划分具有更高的准确率。
关键词粗糙集    K-Means算法    局部密度    邻域信息    簇内相似    
Rough K-Means Algorithm Based on Mixed Measure of Neighborhood Partition Information
SUN Jingyong , MA Fumin     
College of Information Engineering, Nanjing University of Finance and Economics, Nanjing 210023, China
Abstract: For Rough K-Means(RKM) and its derivative clustering algorithms, the distances between the data object in the boundary area and the cluster centers vary slightly and it is difficult to cluster the data by the distance or density. This paper proposes a new rough K-Means algorithm, which integrates the local density of data objects with their neighborhood information to measure the similarity between the data points and the clusters.The relationship between boundary data and clusters is determined by their local spatial distribution, which makes the difference between fuzzy uncertain information more obvious.Experimental results on the artificial dataset and the UCI standard datasets show that the presented algorithm has a higher accuracy for the clustering of boundary data.
Key words: rough set    K-Means algorithm    local density    neighborhood information    intra-cluster similarity    
0 概述

聚类算法根据数据之间的相似度对数据进行划分,使得簇内数据相似度高,而簇间数据相似度低。现有的聚类技术主要分为密度聚类、划分聚类、层次聚类、模型聚类以及网格聚类[1]。K-Means算法[2]作为划分聚类算法之一,使用类簇中心点来代表每个类簇,具有简单、高效的特征,是当前研究的热门聚类技术[3-4]

为解决不确定信息的划分问题,文献[5]将模糊集引入K-Means算法,提出了模糊K-Means(Fuzzy K-Means,FKM)[6]聚类算法,在处理数据对象时采用模糊度量。文献[7-8]将粗糙集理论融入K-Means算法,提出了粗糙K-Means(Rough K-Means,RKM)[9]聚类算法,解决了传统K-Means算法不能处理粗糙不可分辨信息的问题。文献[10-12]将粗糙聚类算法应用于林业、医学成像、Web挖掘、超级市场和交通工程等不同领域。文献[13]使用相对距离作为粗糙K-Means算法相似性度量的标准,减少了边界区域离群数据点的影响。文献[14]对粗糙K-Means算法中上下近似权重问题进行了完善。文献[15]为验证粗糙聚类算法的有效性,对粗糙聚类算法和传统聚类算法进行了更进一步的对比讨论。

粗糙集和模糊集都是处理不确定信息的有效手段,两者之间具有一定的互补性。文献[16]结合了粗糙集与模糊集,提出粗糙模糊K-Means(Rough-Fuzzy K-Means,RFKM)聚类算法,利用模糊隶属度对数据点进行加权度量,使得算法在处理不确定信息时更加合理、准确。文献[17]提出的模糊粗糙K-Means(Fuzzy-Rough K-Means,FRKM)则认为处于类簇下近似中的数据点是确定属于该类簇的,只有处于边界区域的数据点与类簇具有不确定关系。文献[18]结合数据的空间分布对边界交叉区域的数据进行局部模糊度量,提出了基于边界区域局部模糊增强的πRKM算法(BF-πRKM),提高了算法处理边界区域交叉严重数据的准确性。

通过加入粗糙集和模糊集,使得K-Means算法在对边界区域的数据的处理更加合理、精确,但却忽略了数据局部密度对聚类结果的影响。文献[19]通过计算数据点邻域内的紧凑度来表示数据点的局部密度,使得局部密度越大的数据点获得的权值越高。文献[20]使用数据差异性度量数据的空间分布。文献[21-22]通过衡量数据点与类簇中心的距离,利用合适的映射函数使得距离类簇中心越近的数据点获得的权重越大。文献[23-25]结合数据点分布属性,对聚类算法的初始中心选取进行了改进。文献[26]结合距离与密度综合考虑了簇内不平衡问题,使用距离与密度进行综合度量,使得距离类簇中心越近且密度越高的数据点获得的权重越大。

上述算法虽考虑了簇内簇间的数据分布情况,却忽略了处于边界区域的数据点与各类簇中心的距离往往相差很小,而且相近数据点的邻域密度也差别不大,难以依据距离、密度进一步区分数据对象更偏向于哪个类簇。本文通过局部密度与邻域归属信息来描述数据点的空间分布,提出一种基于邻域归属信息混合度量的粗糙K-Means算法(RKM-DN)。对数据点空间分布的衡量参考了数据对象的局部密度与邻域归属信息,下近似集中的数据通过局部密度衡量簇内不平衡分布,使得类簇中心尽可能处于簇内密度最高的区域,边界区域的数据通过其邻域归属信息衡量数据对象与类簇之间的相似性,以减少边界数据对类簇中心的位置的敏感度,提高算法对交叉重叠区域数据的划分能力。

1 相关聚类算法 1.1 粗糙K-Means算法

RKM聚类算法将交叉重叠区域中难以划分的数据点归为类簇的边界区域,在数据点划分的过程中,需要满足以下性质:

1)数据对象最多属于某一类簇的下近似。

2)若数据对象不属于任一类簇的下近似,则该数据对象属于两个及以上类簇的上近似。

3)若一个数据对象属于某一类簇的下近似,则该数据对象也属于该类簇的上近似。

在粗糙K-Means算法中,待处理数据集$ D=\left\{{x}_{k}\right|k=\mathrm{1, 2}, \cdots , N\} $,其中,N为数据集中数据的个数,边域权值、下近似权值分别为wlwbwl+wb=1,$ \overline{BU} $i为类簇i的上近似,$ \underline{BU} $i为类簇i的下近似,($ \overline{BU} $i-$ \underline{BU} $i)为类簇i的边域,vi为类簇i的中心点,算法根据数据对象到各类簇中心的距离将其划分到下近似或者边域中[9]。在每次迭代中,类簇中心计算公式如下[9]

$ {v}_{i}=\left\{\begin{array}{l}{w}_{l}\times \sum\limits _{{x}_{k}\in \underline{B{U}_{i}}}\frac{{x}_{k}}{\left|\underline{B{U}_{i}}\right|}+{w}_{b}\times \sum\limits _{{x}_{k}\in (\overline{B{U}_{i}}-\underline{B{U}_{i}})}\frac{{x}_{k}}{|\overline{B{U}_{i}}-\underline{B{U}_{i}}|}, \\ \left|\underline{B{U}_{i}}\right|\ne \mathrm{\varnothing }\wedge |\overline{B{U}_{i}}-\underline{B{U}_{i}}|\ne \mathrm{\varnothing }\\ \sum\limits _{{x}_{k}\in \underline{B{U}_{i}}}\frac{{x}_{k}}{\left|\underline{B{U}_{i}}\right|}, \underline{B{U}_{i}}|\ne \mathrm{\varnothing }\wedge |\overline{B{U}_{i}}-\underline{B{U}_{i}}|=\mathrm{\varnothing }\\ \sum\limits _{{x}_{k}\in (\overline{B{U}_{i}}-\underline{B{U}_{i}})}\frac{{x}_{k}}{|\overline{B{U}_{i}}-\underline{B{U}_{i}}|}, \left|\underline{B{U}_{i}}\right|=\mathrm{\varnothing }\wedge |\overline{B{U}_{i}}-\underline{B{U}_{i}}|\ne \mathrm{\varnothing }\end{array}\right. $ (1)

由式(1)可见,粗糙K-Means算法在对类簇中心点进行计算时,将边界区域的数据整体赋予一个较小的权重wb,减少了边界不确定信息对类簇中心的影响。

1.2 改进的粗糙K-Means算法

改进的粗糙K-Means算法结合模糊集与粗糙集,使得粗糙K-Means算法在对数据进行划分上下近似集的同时,还以模糊隶属度来衡量数据点对某一类簇的归属度。该算法在计算类簇中心时不仅考虑了类簇边界区域的数据点的计算,还兼顾了簇内数据对象分布不均的情况,计算公式如下[16]

$ {{u}_{ki}}\frac{1}{\sum\limits_{j=1}^{K}{{{\left( \frac{{{d}_{ki}}}{{{d}_{kj}}} \right)}^{\frac{2}{m-1}}}}} $ (2)

其中,K为聚类的个数,dki为数据点xk与类簇i的中心点的距离,m为模糊指数。

加入了模糊隶属度的粗糙模糊K-Means(RFKM)算法[16]的类簇中心计算公式如下:

$ {{v}_{i}}=\left\{ \begin{array}{*{35}{l}} {{w}_{l}}\times \frac{\sum\limits_{{{x}_{k}}\in \underline{B{{U}_{i}}}}{u_{ki}^{m}}{{x}_{k}}}{\sum\limits_{{{x}_{k}}\in \underline{B{{U}_{i}}}}{u_{ki}^{m}}}+{{w}_{b}}\times \frac{\sum\limits_{{{x}_{k}}\in (\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}})}{u_{ki}^{m}}{{x}_{k}}}{\sum\limits_{{{x}_{k}}\in (\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}})}{u_{ki}^{m}}{{x}_{k}}}, \\ \left| \underline{B{{U}_{i}}} \right|\ne \varnothing \wedge |\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}}|\ne \varnothing \\ \frac{\sum\limits_{{{x}_{k}}\in \underline{B{{U}_{i}}}}{u_{ki}^{m}}{{x}_{k}}}{\sum\limits_{{{x}_{k}}\in \underline{B{{U}_{i}}}}{u_{ki}^{m}}}\text{, }\left| \underline{B{{U}_{i}}} \right|\ne \varnothing \wedge |\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}}|=\varnothing \\ \frac{\sum\limits_{{{x}_{k}}\in (\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}})}{u_{ki}^{m}}{{x}_{k}}}{\sum\limits_{{{x}_{k}}\in (\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}})}{u_{ki}^{m}}{{x}_{k}}}\text{, }\left| \underline{B{{U}_{i}}} \right|=\varnothing \wedge |\overline{B{{U}_{i}}}-\underline{B{{U}_{i}}}|\ne \varnothing \\ \end{array} \right. $ (3)

模糊粗糙K-Means算法则认为处于类簇下近似的数据点是确定属于该类簇的数据点,因此其权值均为1。而处于类簇边域的数据点是不确定是否属于该类簇的数据,其权值使用模糊隶属度计算,模糊粗糙K-Means算法的数据点权值计算公式如下[17]

$ {u}_{ki}=\left\{\begin{array}{l}1, {x}_{k}\in \underline{B{U}_{i}}\\ \frac{1}{{\sum\limits _{j=1}^{K}\left(\frac{{d}_{ki}}{{d}_{kj}}\right)}^{\frac{2}{m-1}}}, {x}_{k}\in (\overline{B{U}_{i}}-\underline{B{U}_{i}})\end{array}\right. $ (4)

模糊粗糙K-Means(FRKM)算法对类簇中心的计算进行了改进,在计算类簇中心时不再需要人为设置上下近似参数,计算公式如下[17]

$ {v}_{i}=\frac{\sum\limits _{k=1}^{N}{u}_{ki}^{m}{x}_{k}}{\sum\limits _{k=1}^{N}{u}_{ki}^{m}} $ (5)

由式(3)和式(5)可见,粗糙模糊K-Means算法与模糊粗糙K-Means算法在处理边界数据时使用模糊隶属度来衡量数据点之间的差异。

2 基于邻域归属信息混合度量的RKM算法 2.1 局部密度和邻域归属信息度量

粗糙聚类算法对边界区域数据的衡量依赖数据点与类簇中心之间的距离,导致算法对边界区域的数据划分效果不佳,且边界数据对类簇中心的位置较为敏感。根据“簇内数据相似,簇间数据相异”的原则,数据点与其邻域数据对象具有较高的相似性。在没有先验知识的情况下,数据点的邻域数据包含许多信息。结合粗糙集属性对数据点邻域信息进行分析,可以得出以下特征:

1)若数据点xk的邻域数据均属于类簇i的下近似,则数据点xk属于类簇i的概率非常高。

2)若数据点xk的邻域数据既有属于类簇i的下近似,又有属于类簇i的边域,则属于类簇i的下近似的邻域数据占比越高,数据点xk属于类簇i的概率越大。

3)若数据点xk的邻域数据没有属于类簇i的上近似,则数据点xk属于类簇i的概率非常低(说明xk几乎不可能属于类簇i)。

图 1所示,数据点x1x2处于类簇交叉非常严重的边界区域,x1x2同时属于类簇1、类簇2与类簇3的边域。通过观察x1的邻域归属信息可以发现,x1的邻域数据点多数分布在类簇1中,少数分布在类簇3中,仅有数据点本身处于类簇2的边域中。因此,数据点x1属于类簇1的概率要远大于类簇3与类簇2。同理,数据点x2的邻域数据点多数分布在类簇2中,少数分布在类簇3中,仅有数据点本身处于类簇1的边域。因此,数据点x2属于类簇2的概率要远大于类簇3与类簇1。

Download:
图 1 邻域归属信息度量示意图 Fig. 1 Schematic diagram of neighborhood ownership information measure

由以上分析可以发现,即使是属于多个类簇的边界区域,数据点属于各类簇的可能性也不一致。在以上的数据分布中,使用距离或者密度对其进行衡量难以达到区分数据的目的,尤其是当数据点处于边界交叉严重的区域。通过观察数据点邻域内的数据分布情况,使用数据点的邻域数据点归属信息来衡量该数据点与类簇的相似性可以对数据的划分给予指导作用,从而提高算法的准确度。

图 2所示,数据点x1x2处于类簇1的下近似,且x1x2的邻域数据点均属于类簇1的下近似,此时仅参考邻域归属信息难以区分x1x2对于类簇中心的重要性。但类簇中心的位置应尽可能处于簇内密度最大的区域,因此,局部密度越高的数据点对类簇中心的贡献应越大。

Download:
图 2 邻域紧凑示意图 Fig. 2 Schematic diagram of neighborhood compact

图 2可以看出,数据点x1的邻域数据点非常紧凑,大多围绕在x1的周围,而数据点x2的邻域数据点较为分散且与x2相距较远。很明显,数据点x1对于类簇中心的贡献更大。

根据局部密度与邻域归属信息度量,定义以下概念:

$ \overline{{f}_{{\xi }_{ki}}\left({x}_{z}\right)}=\sum\limits_{{x}_{z}\in \left|L\right({x}_{k}){|}_{\xi }}\overline{{\chi }_{ki}}\left({x}_{z}\right) $ (6)
$ \overline{{\chi }_{ki}\left({x}_{z}\right)}=\left\{\begin{array}{l}1, {x}_{z}\in \overline{B{U}_{i}}\\ 0, {x}_{z}\notin \overline{B{U}_{i}}\end{array}\right. $ (7)
$ \underline{{f}_{{\xi }_{ki}}\left({x}_{z}\right)}=\sum\limits_{{x}_{z}\in \left|L\right({x}_{k}){|}_{\xi }}\underline{{\chi }_{ki}}\left({x}_{z}\right) $ (8)
$ \underline{{\chi }_{ki}\left({x}_{z}\right)}=\left\{\begin{array}{l}1, {x}_{z}\in \underline{B{U}_{i}}\\ 0, {x}_{z}\notin \underline{B{U}_{i}}\end{array}\right. $ (9)

其中,$ {\left|L\left({x}_{k}\right)\right|}_{\xi } $代表xk的半径为ξ的邻域,$\overline{{f}_{{\xi }_{ki}}\left({x}_{z}\right)}$代表在数据点xk的邻域$ {\left|L\left({x}_{k}\right)\right|}_{\xi } $内属于类簇i的上近似的数据点个数,$ \underline{{f}_{\xi ki}\left({x}_{z}\right)} $代表在数据点xk的邻域$ {\left|L\left({x}_{k}\right)\right|}_{\xi } $内属于类簇i的下近似的数据点个数。

定义数据点xk与类簇i的相似度衡量公式如下:

$ {h}_{ki}=\frac{\overline{{f}_{{\xi }_{ki}}\left({x}_{z}\right)}}{\left|\overline{B{U}_{i}}\right|}·\sum\limits_{{x}_{z}\in \overline{{f}_{{\xi }_{ki}}\left(x\right)}}\mathrm{e}\mathrm{x}\mathrm{p}(-\frac{{d}_{zk}}{2{\xi }^{2}})+\frac{\underline{{f}_{{\xi }_{ki}}\left({x}_{z}\right)}}{\left|\overline{B{U}_{i}}\right|} $ (10)

其中:$ \overline{\frac{{f}_{\xi ki}\left({x}_{z}\right)}{\overline{\left|B{U}_{i}\right|}}} $表示密度可信度,当xk的邻域内存在属于类簇i的数据点个数越多时,xk对于类簇i的密度可信度越高,xk属于类簇i的概率也越大;当$ \overline{\frac{{f}_{\xi ki}\left({x}_{z}\right)}{\overline{\left|B{U}_{i}\right|}}} $为0时,表示xk的邻域内(包括xk)不存在属于类簇i的数据点,因此,xk对于类簇i的密度可信度为0,则xk属于类簇i的概率为0;$ \sum\limits_{{x}_{z}\in \overline{{f}_{\xi ki}\left(x\right)}}\mathrm{e}\mathrm{x}\mathrm{p}\left(-\frac{{d}_{zk}}{2{\xi }^{2}}\right) $表示邻域的紧凑度,当xk的邻域内属于类簇i的数据点离xk越近时,$ {x}_{k} $属于类簇i的概率就越大,反之则越小;$ \overline{\frac{{f}_{\xi ki}\left({x}_{z}\right)}{\overline{\left|B{U}_{i}\right|}}} $表示密度归属度,当xk的邻域内存在属于类簇i的下近似的数据点个数越多时,xk对于类簇i的归属度越高。

2.2 RKM-DN算法

根据上文的邻域信息与局部密度分析,本节进一步提出考虑邻域点归属信息混合度量的粗糙K-Means算法,其流程如图 3所示。

Download:
图 3 RKM-DN算法流程 Fig. 3 Procedure of RKM-DN algorithm

类簇中心计算公式如下:

$ {{v}_{i}}=\frac{\sum\limits_{k=1}^{N}{{{h}_{ki}}}{{x}_{k}}}{\sum\limits_{k=1}^{N}{{{h}_{ki}}}} $ (11)

算法具体步骤如下:

输入  数据集D={xk|k=1,2,…,N},聚类个数K,邻域范围ξ,距离阈值δ,最大迭代次数T

输出  类簇中心和划分结果

步骤 1    随机初始化类簇中心v

步骤 2   ∀xkD,计算xk到各类簇中心的距离。

步骤 3   根据距离矩阵计算上下近似集,∀xkD,将数据对象xk划分至距离最近的类簇i中{dki=min(dki|i=1,2,…,k)},若∃dki使得$ {d}_{kj}-{d}_{ki}\le \delta $,则将xk划入类簇j的上近似集,否则将xk划分至类簇i的下近似集中。

步骤 4   ∀xkD,统计xk在邻域范围ξ内的密度$ \left|L\left({x}_{k}\right)\right| $ξ,统计数据点xk的邻域ξ内属于类簇i的上近似的数据点的个数$ \overline{{f}_{\xi ki}\left(x\right)} $,统计数据点xk的邻域ξ内属于类簇i的下近似的数据点的个数$ \underline{{f}_{\xi ki}\left(x\right)} $。计算xk在邻域范围ξ内的紧凑度并根据式(10)计算数据点xk的权重。

步骤 5   根据式(11)更新类簇中心。当算法达到最大迭代次数或者算法收敛时结束算法,输出划分结果,否则返回步骤2。

3 实验结果与分析

为验证算法的有效性,将本文所提算法在人工模拟数据集和UCI数据集上进行实验。并与粗糙K-Means(RKM)[9]、粗糙模糊K-Means(RFKM)[16]、模糊粗糙K-Means(FRKM)[17]等算法在聚类精度和聚类时间方面进行对比。

3.1 人工数据集实验分析

随机生成服从正态分布的3类数据,每个类簇包含50个数据对象。为保证算法对比分析的公平性,在对同一数据集进行测试时所有算法均使用相同的初始聚类中心。在对算法参数进行设置时选择最优参数组合。其中,RKM算法与RFKM算法的下近似权重wl=0.9,边域权重wb=0.1,FRKM算法的模糊指数m=2,RKM-DN算法的邻域ξ=0.3,4种算法的决策距离阈值为0.01,最大迭代次数为100次。其聚类准确度与聚类时间结果如表 1表 2所示。

下载CSV 表 1 人工数据集上的聚类准确度对比 Table 1 Comparison of clustering accuracy on artificial dataset  
下载CSV 表 2 人工数据集上的聚类时间对比 Table 2 Comparison of clustering time on artificial dataset  

表 1可知,RKM-DN算法在对人工数据集的聚类结果上最优,分别高出RFKM算法1.33个百分点,高出RKM和FRKM算法2.66个百分点。但是在聚类时间上,由于RKM-DN算法一次迭代的时间复杂度为O$ \left(N2K\left|L\left(xk\right)\right|\xi \right) $,而RKM等算法一次迭代的时间复杂度为ON2),因此RKM-DN算法相较于其他3种算法所需时间较高。

为更直观地展示聚类效果,将4种算法的聚类结果与原数据分布进行对比,图 4为人工数据集的分布,人工数据集共分为3类,每类使用不同符号表示,其中,圆点代表第1类数据,星号代表第2类数据,倒三角代表第3类数据。图 5给出了4种算法在人工数据集上的聚类结果,加号为最终类簇中心,符号重叠的数据为类簇边界区域的数据。

Download:
图 4 人工数据集分布 Fig. 4 Distribution of artificial dataset
Download:
图 5 4种算法聚类结果示意图 Fig. 5 Schematic diagram of clustering results of four algorithms

图 5可以看出,在对类簇1和类簇2边界区域的数据点划分时,RKM、RFKM、FRKM、RKM-DN 4种算法的划分结果大致相同,均将图 5中所圈出的10个数据点划分到类簇1中。在对类簇2和类簇3边界区域的数据点进行划分时,RKM、RFKM、FRKM 3种算法的划分结果大致相同,而RKM-DN算法由于参考了数据点邻域内的邻居归属信息,从而误判率较其他3种算法相比最低。

图 5中所圈出的第2类簇与第3类簇的交界处共有13个数据点,其中属于第2类簇的有5个,属于第3类簇的有8个。RKM算法与FRKM算法划分正确的数据点有4个,划分错误的数据点有9个。RFKM算法划分正确的数据点有6个,划分错误的数据点有7个。RKM-DN算法划分正确的数据点有8个,划分错误的数据点有5个。可以看出,在边界区域交叉重叠严重的地方,RKM-DN算法相较于其他3类算法具有较好的分辨能力。

3.2 UCI数据集实验分析

在UCI数据库中选取Iris、Wine、Breast Tissue、Fertility 4类数据集进行分析。在对同一数据集进行测试时使用相同的初始聚类中心与初始参数。在对算法参数进行设置时选择最优参数组合,相关参数设置如表 3所示。由于Wine、Breast Tissue数据集不同的特征值存在较大差异,因此在聚类前对其进行归一化。相关实验结果如表 4表 5所示。

下载CSV 表 3 算法参数设置 Table 3 Algorithm parameter settings
下载CSV 表 4 UCI数据集上的聚类准确度对比 Table 4 Comparison of cluster accuracy on UCI dataset  
下载CSV 表 5 UCI数据集上的聚类时间对比 Table 5 Comparison of clustering time on UCI dataset  

从实验结果可以看出,本文所提出的算法在Iris、Breast Tissue和Wine 3个数据集上的聚类准确率最高,在Fertility数据集上的聚类结果与RFKM算法相同,但在聚类时间上,其聚类所耗费时间较多。

以Wine数据集为例,通过主成分分析法将Wine数据集映射至二维空间,其数据分布如图 6所示,第1类数据使用圆点表示,第2类数据使用星号表示,第3类数据使用倒三角表示。图 7为4种算法的聚类结果,其中,加号为最终类簇中心,符号重叠的数据为类簇边界区域的数据。结合图 6图 7对4种算法的聚类结果进行分析,在类簇1与类簇2的边界区域所圈出的区域中共有5个数据点,这些数据点均属于类簇2。RKM算法将4个数据点划分至类簇1中,将1个数据点划分至类簇1和类簇2的边域中。RFKM算法将4个数据点划分至类簇2中,将1个数据点划分至类簇1和类簇2的边域中。FRKM算法将4个数据点划分至类簇1中,将1个数据点划分至类簇2中。RKM-DN算法将4个数据点划分至类簇2中,将1个数据点划分至类簇1和类簇2的边域中。因此,在类簇1和类簇2的边界区域的划分中,RFKM与RKM-DN算法的结果更加精确。

Download:
图 6 Wine数据集分布 Fig. 6 Distribution of Wine dataset
Download:
图 7 Wine数据集聚类结果示意图 Fig. 7 Schematic diagram of clustering results of Wine dataset

在类簇2与类簇3的边界区域所圈出的区域中共有7个数据点,其中有6个数据点属于类簇2,1个数据点属于类簇3。RKM算法将3个数据点划分至类簇2中,将1个数据点划分至类簇2和类簇3的边域中,将3个数据点划分至类簇3中。RFKM算法将1个数据点划分至类簇2和类簇3的边域中,将6个数据点划分至类簇3中。FRKM与RKM-DN算法将4个数据点划分至类簇2中,将3个数据点划分至类簇3中。可见,在类簇2与类簇3的边界区域的划分中,FRKM与RKM-DN算法具有更佳的聚类效果。

通过对图 7(a)~图 7(d)的分析可知,相较于原有算法,RKM-DN算法对边界区域数据划分更加准确。这是因为在判断边界数据点与类簇相似度时,通过其邻域归属信息来衡量数据点对于各类簇的权重,使得算法更倾向于将边界数据点划分至与该数据点有更强的密度联通性的类簇中。更近一步,处于下近似区域的数据点与各类簇中心之间的距离差异较大,而边界区域的数据点与各类簇中心之间的距离差异很小,因此,将边界区域的数据点简单地依赖其与各类簇中心之间的距离进行模糊化度量,难以区分数据对象之间的差异性。如图 7(d)所示,类簇2的中心较其他3种算法的聚类结果偏左,而在类簇2与类簇3的边界处,RKM-DN算法依然能准确地对边界数据对象进行划分。这是因为RKM-DN算法在对边界数据对象的权重进行计算时综合了邻域归属信息与局部密度,弱化了边界数据对类簇中心位置的敏感度,使得算法对边界区域的数据点划分更加合理,从而提高了算法对边界数据的划分能力。

4 结束语

基于粗糙集的聚类算法及其衍生算法在类簇不平衡时使用距离和密度等进行衡量,但当数据点处于类簇边域时,使用距离以及密度对数据点进行衡量较难区分数据的类簇。为此,本文提出一种考虑邻域点归属信息混合度量的粗糙K-Means算法,通过数据点的局部密度以及邻域归属信息衡量数据点与类簇之间的相似性,提高了算法对边界数据的划分能力,并降低了边界数据对类簇中心点位置的敏感度。在人工数据集和UCI数据集上的实验结果表明,基于邻域归属信息的混合度量方法可以有效提高粗糙K-Means算法的聚类精度。

参考文献
[1]
HAN J W, KAMBER M. Data mining, concepts and techniques.3rd ed[M]. San Francisco, USA: Morgan Kaufmann Publishers, 2011.
[2]
MACQUEEN J.Some methods for classification and analysis of multi-variate observations[C]//Proceedings of Berkeley Symposium on Mathematical Statistics & Probability.Berkeley, USA: California Press, 1965: 281-297.
[3]
CRISTINA T, DOMINGO G, JOSE L, et al. Global optimality in K-Means clustering[J]. Information Sciences, 2018, 439(1): 79-94.
[4]
LEI Tao, JIA Xiaohong, ZHANG Yanning, et al. Superpixel-based fast fuzzy C-means clustering for color image segmentation[J]. IEEE Transactions on Fuzzy Systems, 2018, 27(9): 1753-1766.
[5]
ZADEH L A. Fuzzy logic, neural networks, and soft computing[J]. Microprocessing & Microprogramming, 1993, 38(5): 77-84.
[6]
BEZDE K, JAME C. Pattern recognition with fuzzy objective function algorithms[J]. Advanced Applications in Pattern Recognition, 1981, 22(11): 203-239.
[7]
PAWALK Z, POLKOWSKI L, SKOWRON A. Rough sets[M]. [S.1.]: Kluwer Academic Publishers, 2006.
[8]
WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications[J]. Chinese Journal of Computers, 2009, 32(7): 1229-1246. (in Chinese)
王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述[J]. 计算机学报, 2009, 32(7): 1229-1246.
[9]
LINGRAS P, WEST C. Interval set clustering of Web users with rough K-Means[J]. Journal of Intelligent Information Systems, 2004, 23(1): 5-16. DOI:10.1023/B:JIIS.0000029668.88665.1a
[10]
LINGRAS P, PETERS G. Rough clustering[J]. Data Mining and Knowledge Discovery, 2011, 1(1): 64-72. DOI:10.1002/widm.16
[11]
YANG Zhutian, WU Zhilu, YIN Zhendong, et al. Hybrid radar emitter recognition based on rough K-Means classifier and relevance vector machine[J]. Sensors, 2013, 13(1): 848-864. DOI:10.3390/s130100848
[12]
NAMBURU A, SAMAYAMANTULA S K, EDARA S R. Generalised rough intuitionistic fuzzy C-Means for magnetic resonance brain image segmentation[J]. IET Image Processing, 2017, 11(9): 777-785. DOI:10.1049/iet-ipr.2016.0891
[13]
PETERS G. Outliers in rough K-Means clustering[J]. Lecture Notes in Computer Science, 2005, 3776(11): 702-707.
[14]
PETERS G. Rough clustering utilizing the principle of indifference[J]. Information Sciences, 2014, 277(2): 358-374.
[15]
PETERS G. Is there any need for rough clustering?[J]. Pattern Recognition Letters, 2015, 53(2): 31-37.
[16]
MITRA S, BANKA H, PEDRYCZ W. Rough fuzzy collaborative clustering[J]. IEEE Transactions on Systems Man & Cybernetics: Part B Cybernetics, 2006, 36(4): 795-805.
[17]
HU Qinghua, YU Daren. An improved clustering algorithm for information granulation[J]. Lecture Notes in Computer Science, 2005, 3613(8): 494-504.
[18]
MA Fumin, LU Ruiqiang, ZHANG Tengfei. Improved πRKM clustering algorithm based on local fuzzy enhancement of boundary region[J]. Control and Decision, 2017, 32(11): 1949-1956. (in Chinese)
马福民, 逯瑞强, 张腾飞. 基于边界区域局部模糊增强的πRKM聚类算法[J]. 控制与决策, 2017, 32(11): 1949-1956.
[19]
ZHENG Chao, MIAO Duoqian, WANG Ruizhi. Improved rough K-Means clustering algorithm with weight based on density[J]. Computer Science, 2009, 36(3): 220-222. (in Chinese)
郑超, 苗夺谦, 王睿智. 基于密度加权的粗糙K-均值聚类改进算法[J]. 计算机科学, 2009, 36(3): 220-222.
[20]
CAO Fuyuan, LIANG Jiye, LI Deyu, et al. A dissimilarity measure for the K-modes clustering algorithm[J]. Knowledge-Based Systems, 2012, 26: 120-127. DOI:10.1016/j.knosys.2011.07.011
[21]
ZHANG Tengfei, CHEN Long, LI Yun. Rough K-Means clustering based on unbalanced degree of cluster[J]. Control & Decision, 2013, 28(10): 1479-1484. (in Chinese)
张腾飞, 陈龙, 李云. 基于簇内不平衡度量的粗糙K-means聚类算法[J]. 控制与决策, 2013, 28(10): 1479-1484.
[22]
ZHANG Tengfei, MA Fumin. Improved rough K-Means clustering algorithm based on weighted distance measure with Gaussian function[J]. International Journal of Computer Mathematics, 2017, 94(4): 663-675. DOI:10.1080/00207160.2015.1124099
[23]
CAO Fuyuan, LIANG Jiye, JIANG Guang. An initialization method for the K-Means algorithm using neighborhood model[J]. Computers & Mathematics with Applications, 2009, 58(3): 474-483.
[24]
RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496. DOI:10.1126/science.1242072
[25]
XU Xiaolong, WANG Shitong, MEI Xiangdong. Improved clustering algorithm based on local and global information[J]. Computer Engineering, 2015, 41(6): 165-171. (in Chinese)
许小龙, 王士同, 梅向东. 基于局部和全局信息的改进聚类算法[J]. 计算机工程, 2015, 41(6): 165-171.
[26]
ZHANG Tengfei, CHEN Long, MA Fumin. A modified rough C-Means clustering algorithm based on hybrid imbalanced measure of distance and density[J]. International Journal of Approximate Reasoning, 2014, 55(8): 1805-1818. DOI:10.1016/j.ijar.2014.05.004