聚类分析是将样本对象划分成子集的过程,即把每个子集作为一个簇,簇中的对象相似程度高,不同簇中的对象相异程度高。目前,聚类分析已被广泛应用于数据挖掘、模式识别和图像处理等领域,很多经典算法被提出用于样本对象的聚类,主要有基于划分、层次、密度、网格和模型五大类[1]。模糊C均值(Fuzzy C-means,FCM)聚类算法是一种基于划分的聚类算法,其因简洁、高效而得到了广泛的应用[2],但在建立相似度矩阵、随机初始化聚类中心和预先确定聚类数目等方面还存在不足。在建立相似度矩阵的过程中,FCM算法采用欧氏距离的相似性度量只对凸数据具有良好的处理性能,在复杂形状和非凸数据中往往会失败,因此,确定合适的相似度矩阵是提高FCM算法聚类性能的关键因素。
相似度矩阵依赖于距离度量这一特点,吸引了很多学者的研究与关注。文献[3]提出一种基于加权欧氏距离的改进FCM算法,其中加权欧氏距离是将特征权值合并到常用的欧氏距离中,结果表明,适当的特征权值分配可以提高FCM算法的聚类性能。文献[4]引入一种鲁棒的非欧氏距离度量方法来提高传统FCM算法的效率,从而减少噪声和异常值对聚类性能的影响。文献[5]提出使用马氏距离和闵可夫斯基距离来代替欧氏距离,提高了FCM算法对于高维数据的识别能力。文献[6]提出一种基于散度相似性度量的FCM算法,其对噪声特征的扰动具有更强的鲁棒性。以上文献虽然提高了FCM算法识别高维数据和噪声等方面的聚类性能,但这些距离度量仍然无法对非凸数据聚类。文献[7]提出一种模糊核C均值聚类算法,该算法采用基于核的距离度量代替欧氏距离作为相似性度量,可以识别任意形状的聚类,但其中核宽度
本文借鉴文献[9]提出的密度敏感距离度量方法,提出一种基于密度敏感距离的改进FCM算法AMMF-DSD。在建立相似度矩阵时采用密度敏感距离代替欧氏距离,以解决FCM算法无法对非凸数据聚类的问题。同时为进一步提高算法的聚类性能,利用近邻传播(Affinity Propagation,AP)聚类算法[10]获取粗类数,快速确定最佳聚类数的搜索范围上限,基于此改进最大最小距离算法获得具有代表性的采样点作为FCM算法的初始聚类中心,最后结合轮廓系数[11]在聚类数搜索范围内自动确定最佳聚类数。
1 相关工作 1.1 FCM聚类算法给定数据集:
$ J=\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{k}{u}_{ij}^{m}{‖{x}_{i}-{v}_{j}‖}^{2} $ | (1) |
其中,
$ {u}_{ij}=\frac{1}{\sum \limits_{c=1}^{k}{\left(\frac{‖{x}_{i}-{v}_{j}‖}{‖{x}_{i}-{v}_{c}‖}\right)}^{\frac{2}{m-1}}} $ | (2) |
$ {V}_{j}=\frac{\sum \limits_{i=1}^{n}{u}_{ij}^{m}{x}_{i}}{\sum \limits_{i=1}^{n}{u}_{ij}^{m}} $ | (3) |
FCM聚类算法具体步骤如下:
算法1 FCM聚类算法
输入 聚类数
输出 聚类中心,隶属度矩阵
步骤1 按式(2)更新隶属度矩阵。
步骤2 按式(3)更新聚类中心。
步骤3 如果
根据上述FCM算法的过程可以明显看出,所获得相似度矩阵的准确性直接影响聚类性能。此外,相似度矩阵主要取决于距离度量的确定。因此,选择合适的距离度量方法对于提高FCM算法聚类性能至关重要。基于该距离获得的数据点之间的相似性度量必须满足以下两个一致性关系[9]:1)局部一致性,即空间上相邻的数据点之间应具有较高的相似性;2)全局一致性,即位于同一流形上的数据点之间应具有较高的相似性。
传统的FCM算法通常采用欧氏距离来确定数据点之间的相似性,然而欧氏距离只考虑数据点之间的局部一致性特征,忽略了全局一致性特征。因此,对于复杂数据和非凸数据,基于欧氏距离的相似性矩阵往往无法准确地捕获实际的数据结构,从而导致聚类性能较差。如图 1所示,根据相似测度的全局一致性要求,同一流形上的数据点应具有较高的相似性,即点1与点3之间的相似性应高于点1与点2之间的相似性,但是在按照欧氏距离进行相似性度量时,点1与点3的相似性要明显小于点1与点2,这与期望不一致,即将欧氏距离作为相似性度量不能满足全局一致性。
![]() |
Download:
|
图 1 欧式距离无法满足样本全局一致性的情况 Fig. 1 The case of Euclidean distance not satisfying the global consistency of samples |
为满足聚类结果的全局一致性,使相同流形结构中数据对的相似度高于不同的流形结构,必须使得穿过高密度区域以较短边相连的路径长度低于穿过低密度区域直接相连的两点间距离,即
![]() |
Download:
|
图 2 全局一致性距离 Fig. 2 Global consistency distance |
本文提出一种基于密度敏感距离度量创建相似度矩阵的算法,通过引入密度敏感距离能够同时考虑全局一致性和数据分布的局部一致性,使获得的相似性矩阵可以更准确地捕获真实数据结构,从而解决FCM算法无法识别复杂非凸数据的问题。具体如下:
定义1 密度调整长度如式(4)所示:
$ L(x, y)={\mathrm{e}}^{\rho d\left(x, y\right)}-1 $ | (4) |
其中,
定义2 将数据点看作一个加权无向图
$ {D}_{i, j}^{\rho }=\frac{1}{{\rho }^{2}}\mathrm{l}\mathrm{n}\mathrm{ }(1+{d}_{\mathrm{s}\mathrm{p}}({x}_{i}, {x}_{j}{\left)\right)}^{2} $ | (5) |
$ {d}_{\mathrm{s}\mathrm{p}}({x}_{i}, {x}_{j})=\underset{p\subset {P}_{\mathrm{i}\mathrm{j}}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum \limits_{k=1}^{\left|p\right|-1}\left({\mathrm{e}}^{\rho d\left({p}_{k}, {p}_{k+1}\right)}-1\right) $ | (6) |
其中,
1) 自反性:
2) 对称性:
3) 非负性:
4) 三角不等式:
轮廓系数是由KAUFMAN等人提出的一种用于评价算法聚类质量的有效性指标。该指标结合了凝聚度和分离度,不仅能够评价聚类质量,而且还可用于获取最佳聚类数。假设数据集的样本对象
$ \begin{array}{c}{S}_{k}=\frac{1}{n}\sum \limits_{i=1}^{n}\frac{b\left(i\right)-a\left(i\right)}{\mathrm{m}\mathrm{a}\mathrm{x}\left\{a\left(i\right), b\left(i\right)\right\}} \end{array} $ | (7) |
其中,
改进后的FCM算法距离度量采用密度敏感距离,目标函数如式(8)所示:
$ J=\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{k}{u}_{ij}^{m}{D}_{ij}^{\rho } $ | (8) |
其中,
$ {u}_{ij}=\frac{1}{\sum \limits_{c=1}^{k}{\left(\frac{{D}_{ij}^{\rho }}{{D}_{ic}^{\rho }}\right)}^{\frac{2}{m-1}}} $ | (9) |
基于密度敏感距离度量的FCM算法具体步骤如下:
算法2 基于密度敏感距离度量的FCM算法
输入 聚类数
输出 聚类中心,隶属度矩阵
步骤1 第
步骤2 根据式(11)更新聚类中心。
步骤3 根据新得的聚类中心从密度敏感距离矩阵中获得新的
算法2中的聚类中心更新方式如下:将数据集中的样本点作为聚类中心,在确定初始聚类中心后,由上述密度敏感距离得到
$ J=\sum \limits_{i=1}^{n}\sum \limits_{j=1}^{k}{u}_{ij}^{m}{D}_{ij}^{\rho }={u}_{j1}^{m}{D}_{j1}^{\rho }+{u}_{j2}^{m}{D}_{j2}^{\rho }+\cdots +{u}_{jn}^{m}{D}_{jn}^{\rho } $ | (10) |
已知
$ \left[\begin{array}{c}{D}_{11}^{\rho }{D}_{12}^{\rho }\cdots {D}_{1n}^{\rho }\\ {D}_{21}^{\rho }{D}_{22}^{\rho }\cdots {D}_{2n}^{\rho }\\ ⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\\ {D}_{n1}^{\rho }{D}_{n2}^{\rho }\cdots {D}_{nn}^{\rho }\end{array}\right]\left[\begin{array}{c}{u}_{11}^{m}{u}_{21}^{m}\cdots {u}_{k1}^{m}\\ {u}_{12}^{m}{u}_{22}^{m}\cdots {u}_{k2}^{m}\\ ⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\\ {u}_{1n}^{m}{u}_{2n}^{m}\cdots {u}_{kn}^{m}\end{array}\right]=\left[\begin{array}{c}{a}_{11}{a}_{12}\cdots {a}_{1k}\\ {a}_{21}{a}_{22}\cdots {a}_{2k}\\ ⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }⋮\\ {a}_{n1}{a}_{n2}\cdots {a}_{nk}\end{array}\right]= $ |
$ {\boldsymbol{A}}_{n\times k} $ |
则第
$ {v}_{j}=\left\{{x}_{i}|i=\underset{c}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{A}_{cj}\right\},j=\mathrm{1, 2}, \cdots , k $ | (11) |
传统的FCM算法采用多种方法获取最佳聚类数
在上述聚类数搜索范围确定的前提下,基于密度敏感距离度量的FCM算法搜索聚类空间逐步增加聚类数。当聚类数为
改进的最大最小距离算法具体步骤如下:
算法3 改进的最大最小距离算法
输入 聚类数搜索范围
输出
步骤1 求出各样本点之间的距离
步骤2 当聚类数为2时,计算剩余样本对象到
步骤3 当聚类数为3时,计算剩余样本对象与
步骤4 当聚类数为
为提高传统FCM算法对复杂数据和非凸数据的聚类性能,提高算法聚类结果的稳定性,本文在原有FCM算法思想的基础上,提出基于密度敏感距离度量创建相似度矩阵的改进FCM算法AMMF-DSD。首先利用密度敏感距离代替欧式距离创建相似度矩阵;然后通过设定AP算法的偏向参数
![]() |
Download:
|
图 3 AMMF-DSD算法流程 Fig. 3 Procedure of AMMF-DSD algorithm |
对AMMF-DSD算法的时间复杂度进行分析,主要包含以下3个部分:
1) 利用AP算法遍历整个数据集,以获取粗类数作为
2) 利用改进最大最小距离算法获取具有代表性的样本点作为FCM算法的初始聚类中心,其时间复杂度为
3) 改进的FCM算法中主要涉及欧氏距离的计算,其计算复杂度为
综上所述,AMMF-DSD算法的时间复杂度为3个部分时间复杂度之和
通过在人工数据集和UCI数据集上进行实验评估和分析本文算法性能。实验环境为Intel®CoreTMi5-1035G1CPU@ 1.00 GHz,内存为8 GB。编程环境为Eclipse,MATLAB R2016b显示实验结果。在Windws10操作系统的计算机上运行通过。实验数据集包括UCI数据集(Iris、Wine、TAE、Seeds、CMC、Blood、Heart-stat-log、Thyroid、Haber-man、Bu-pa)和人工数据集(Three-circles、Spiral、Line-blobs、Aggregation、Square1)。对比算法包括FCM、K-means和CFSFDP算法,其中,CFSFDP算法是一种快速搜索查询的利用决策图确定中心的算法[22],K-means算法采用欧氏距离建立相似度矩阵,是一种只适用于凸数据的聚类算法[24]。本文采用聚类准确率(ACC)[25]和调整兰德系数(ARI)[26]对算法的聚类性能进行评估。
聚类准确率(ACC)用于评估算法的准确性,如式(12)所示,其中,
$ {A}_{\mathrm{A}\mathrm{C}\mathrm{C}}=\frac{\sum \limits_{i=0}^{n}\delta \left(\overset\frown{{{C}_{i}}}, map({C}_{i})\right)}{n} $ | (12) |
调整兰德系数(ARI)如式(13)所示,其中,
$ {A}_{\mathrm{A}\mathrm{R}\mathrm{I}}=\frac{2(ad-bc)}{(a+b)(b+d)+(a+c)(c+d)} $ | (13) |
本节运用AP算法确定聚类数的搜索范围上限,
![]() |
下载CSV
表 1 AP算法确定的 |
从表 1可以看出,当运用AP算法确定
在聚类数搜索范围确定的基础上,分别对UCI数据集Iris、Wine、TAE、Seeds、CMC、Blood、Heart-stat-log、Thyroid、Haber-man、Bu-pa和人工数据集Three-circles、Spiral、Line-blobs、Aggregation、Squarel进行的实验。其中,Line-blobs、Three-circles的伸缩因子
本节将AMMF-DSD算法和随机选取初始聚类中心的FCM算法进行实验对比,比较这两种算法关于聚类中心的不同初始化方法对轮廓系数Silhouette的影响,进而比较对最佳聚类数
![]() |
下载CSV 表 2 最佳聚类数 Table 2 The optimal number of clusters |
从表 2可以看出,在聚类数搜索范围确定时,AMMF-DSD算法对于各种数据集获得的最佳聚类数都等于正确类数,而FCM算法只有Aggregation、Heart-stat-log、Bu-pa数据集的
由于传统的FCM算法随机选取初始聚类中心,使聚类结果存在不稳定的现象,因此随机选取4个数据集(Spiral、Line-blobs、Iris和Wine)对AMMF-DSD和FCM算法进行算法稳定性对比,实验结果如图 4所示。从图 4可以看出,FCM算法的轮廓系数会随着实验次数的不同而呈现出不同的聚类结果,其原因是FCM算法的初始聚类中心是随机选取的,因此聚类结果也表现出不稳定的状态,而AMMF-DSD算法是对传统FCM算法的改进,避免了初始聚类中心随机选取的问题,且聚类数的搜索范围又是确定的,其聚类结果就表现出较强的稳定性。AMMF-DSD算法和FCM算法聚类时得到的迭代次数如图 5所示。从图 5可以看出,AMMF-DSD算法的迭代次数明显小于FCM算法,即AMMF-DSD算法加快了算法的收敛速度,而FCM算法的迭代次数仍在不断变化。
![]() |
Download:
|
图 4 FCM和AMMF-DSD算法在4个数据集上的稳定性对比 Fig. 4 Stability comparison of FCM algorithm and AMMF-DSD algorithm on four data sets |
![]() |
Download:
|
图 5 FCM和AMMF-DSD算法在4个数据集上的迭代次数对比 Fig. 5 Iteration time comparison of FCM algorithm and AMMF-DSD algorithm on four data sets |
分别在Three-circles、Spiral、Line-blobs、Aggregation和Square1这5个人工数据集上使用4种聚类算法进行实验,实验数据集见表 1,聚类结果如图 6~图 10所示。从图 6可以看出,FCM、K-means和CFSFDP算法在Three-circles数据集上的聚类效果都不理想,而AMMF-DSD算法能够正确划分数据类别。从图 7可以看出,FCM、K-means和CFSFDP算法在Spiral数据集上依然聚类效果不佳,不能正确聚类,而AMMF-DSD算法将正确地划分了数据类别。从图 8可以看出,FCM和K-means算法在Line-blobs数据集上的聚类效果不理想,CFSFDP和AMMF-DSD算法则得到了正确的聚类结果。从图 9可以看出,AMMF-DSD算法的聚类效果最好,CFSFDP算法次之,FCM和K-means算法在Aggregation数据集上的的聚类效果都不好。从图 10可以看出,在Square1数据集上,AMMF-DSD算法聚类效果最优,FCM和CFSFDP算法仅次之,而K-means算法的聚类效果最差。
![]() |
Download:
|
图 6 4种聚类算法对数据集Three-circles的聚类结果 Fig. 6 Clustering results of four clustering algorithms on Three-circles data set |
![]() |
Download:
|
图 7 4种聚类算法对数据集Spiral的聚类结果 Fig. 7 Clustering results of four clustering algorithms on Spiral data set |
![]() |
Download:
|
图 8 4种聚类算法对数据集Line-blobs的聚类结果 Fig. 8 Clustering results of four clustering algorithms on Line-blobs data set |
![]() |
Download:
|
图 9 4种聚类算法对数据集Aggregation的聚类结果 Fig. 9 Clustering results of four clustering algorithms on Aggregation data set |
![]() |
Download:
|
图 10 4种聚类算法对数据集Square1的聚类结果 Fig. 10 Clustering results of four clustering algorithms on Square1 data set |
通过对图 6~图 10实验的可视化对比实验分析可知,AMMF-DSD算法比K-means、FCM和CFSFDP算法更擅长对非凸数据和复杂形状的数据进行聚类。以上4种聚类算法在人工数据集上的性能对比如表 3所示。从表 3可以看出,AMMF-DSD算法在Three-circles、Spiral、Line-blobs和Squarel数据集上的聚类指标值都是1,在Aggregation数据集上的聚类指标值均大于对比算法,聚类性能最好,CFSFDP算法仅在Line-blobs数据集上的聚类指标值是1。从聚类指标值来看,AMMF-DSD算法聚类性能最优,CFSFDP算法次之,而FCM和K-means算法最差。可见,用密度敏感距离代替欧氏距离创建相似度矩阵大幅提高了原始FCM算法的聚类性能,聚类数搜索范围的确定和初始聚类中心的确定也提高了AMMF-DSD算法的稳定性,聚类效果较好。
![]() |
下载CSV 表 3 4种聚类算法在人工数据集上的性能对比 Table 3 Performance comparison of four clustering algorithms on artificial data sets |
本组实验选取10个UCI数据集将AMMF-DSD算法的聚类结果同CFSFDP、FCM和K-means算法的聚类结果进行比较,实验数据集见表 1,各算法得到的ACC和ARI指标值见表 4。为了减少实验误差,每个数据集独立运行10次。从表 4可以看出:AMMF-DSD算法在这10个UCI数据集上的聚类指标值均高于K-means、FCM和CFSFDP算法,聚类性能最好;本文算法的聚类结果是相对稳定的,因此聚类效果较好;CFSFDP算法次之;K-means、FCM算法的指标值随着实验次数的不同而呈现出不同的聚类结果,聚类效果欠佳。通过上述分析可以看出,AMMF-DSD算法具有较好的聚类性能,并且聚类结果也更稳定。
![]() |
下载CSV 表 4 4种聚类算法在UCI数据集上的性能对比 Table 4 Performance comparison of four clustering algorithms on UCI data set |
针对传统FCM算法无法识别非凸数据,同时对复杂形状的数据聚类性能不佳的问题,本文提出使用密度敏感距离代替欧氏距离创建相似度矩阵的AMMF-DSD算法。该距离度量通过调整伸缩因子
[1] |
HAN J, KAMBER M, PEI J. Data mining concept and techniques[M]. [S.l.]: Morgan Kaufmann, 2011.
|
[2] |
BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[J]. Advanced Applications in Pattern Recognition, 1981, 22(1171): 203-239. |
[3] |
WANG Xizhao, WANG Yadong, WANG Lijuan. Improving fuzzy C-means clustering based on feature-weight learning[J]. Pattern Recognition Letters, 2004, 25(10): 1123-1132. DOI:10.1016/j.patrec.2004.03.008 |
[4] |
KANNAN S R, DEVI R, RAMATHILAGAM S, et al. Effective FCM noise clustering algorithms in medical images[J]. Computers in Biology & Medicine, 2013, 43(2): 73-83. |
[5] |
GUEORGUIEVA N, VALOVA I, GEORGIEV G. M&MFCM: fuzzy C-means clustering with Mahalanobis and Minkowski distance metrics[J]. Procedia Computer Science, 2017, 114: 224-233. DOI:10.1016/j.procs.2017.09.064 |
[6] |
SEAL A, KARLEKAR A, KREJCAR O, et al. Fuzzy C-means clustering using Jeffreys-divergence based similarity measure[J]. Applied Soft Computing, 2020, 88: 1-5. |
[7] |
KANG Jiayin, JI Zhicheng, GONG Chenglong. Kernelized fuzzy C-means clustering algorithm and its application[J]. Chinese Journal of Scientific Instrument, 2010, 31(7): 1657-1663. (in Chinese) 康家银, 纪志成, 龚成龙. 一种核模糊C均值聚类算法及其应用[J]. 仪器仪表学报, 2010, 31(7): 1657-1663. |
[8] |
ZENG Shan, TONG Xiaojun, SANG Nong. Study on multi-center fuzzy C-means algorithm based on transitive closure and spectral clustering[J]. Applied Soft Computing, 2014, 16: 89-101. DOI:10.1016/j.asoc.2013.11.020 |
[9] |
TAO Xinmin, WANG Ruotong, CHANG Rui, et al. Spectral clustering algorithm using density-sensitive distance measure with global and local consistencies[J]. Knowledge-Based Systems, 2019, 170: 26-42. DOI:10.1016/j.knosys.2019.01.026 |
[10] |
FREY B J, DUECK D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976. DOI:10.1126/science.1136800 |
[11] |
SUBBALAKSHMI C, KRISHNA G R, RAO S K M, et al. A method to find optimum number of clusters based on fuzzy silhouette on dynamic data set[J]. Procedia Computer Science, 2015, 46: 346-353. DOI:10.1016/j.procs.2015.02.030 |
[12] |
ESTIRI H, OMRAN B A, MURPHY S N. kluster: an efficient scalable procedure for approximating the number of clusters in unsupervised learning[J]. Big Data Research, 2018, 13: 38-51. DOI:10.1016/j.bdr.2018.05.003 |
[13] |
ZHU Erzhou, ZHANG Yuanxiang, WEN Peng, et al. Fast and stable clustering analysis based on grid-mapping K-means algorithm and new clustering validity index[J]. Neurocomputing, 2019, 363: 149-170. DOI:10.1016/j.neucom.2019.07.048 |
[14] |
PHAM V N, NGO L T, PEDRYCZ W. Interval-valued fuzzy set approach to fuzzy Co-clustering for data classification[J]. Knowledge-Based Systems, 2016, 107: 1-13. DOI:10.1016/j.knosys.2016.05.049 |
[15] |
HANMANDLU M, VERMA O P, SUSAN S, et al. Color segmentation by fuzzy co-clustering of chrominance color features[J]. Neurocomputing, 2013, 120: 235-249. DOI:10.1016/j.neucom.2012.09.043 |
[16] |
de AMORIM R C, HENNIG C. Recovering the number of clusters in data sets with noise features using feature rescaling factors[J]. Information Sciences, 2015, 324: 126-145. DOI:10.1016/j.ins.2015.06.039 |
[17] |
LING Huilinag, WU Jiansheng, ZHOU Yi, et al. How many clusters?A robust pso-based local density model[J]. Neurocomputing, 2016, 207: 264-275. DOI:10.1016/j.neucom.2016.03.071 |
[18] |
CHENG Weiqing, LU Yanhong. Adaptive clustering algorithm based on maximum and minimum distances and SSE[J]. Journal of Nanjing University of Posts and Telecommunications(Natural Science Edition), 2015, 35(2): 102-107. (in Chinese) 成卫青, 卢艳红. 一种基于最大最小距离和SSE的自适应聚类算法[J]. 南京邮电大学学报(自然科学版), 2015, 35(2): 102-107. |
[19] |
FREY B J, DUECK D. Response to comment on "clustering by passing messages between data points"[J]. Science, 2008, 319(5864): 726-726. |
[20] |
WANG Kaijun, LI Jian, ZHANG Junying, et al. Semi-supervised affinity propagation clustering[J]. Computer Engineering, 2007, 33(23): 197-198, 201. (in Chinese) 王开军, 李健, 张军英, 等. 半监督的仿射传播聚类[J]. 计算机工程, 2007, 33(23): 197-198, 201. DOI:10.3969/j.issn.1000-3428.2007.23.068 |
[21] |
SUN Jixiang. Modern pattern recognition[M]. Changsha: National University of Defense Technology, 2002. (in Chinese) 孙即祥. 现代模式识别[M]. 长沙: 国防科技大学出版社, 2002. |
[22] |
RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496. DOI:10.1126/science.1242072 |
[23] |
WU T F, TSAI P S, HU N T, et al. Combining turning point detection and Dijkstra's algorithm to search the shortest path[J]. Advances in Mechanical Engineering, 2017, 9(2): 1-12. |
[24] |
MACQUEEN J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA: University of California Press, 1967: 281-297.
|
[25] |
SHANG Fanhua, JIAO Licheng, SHI Jiarong, et al. Fast affinity propagation clustering: a multilevel approach[J]. Pattern Recognition, 2012, 45(1): 474-486. DOI:10.1016/j.patcog.2011.04.032 |
[26] |
VINH N X, EPPS J, BAILEY J. Bibliometrics: information theoretic measures for clusterings comparison[C]//Proceedings of International Conference on Machine Learning. New York, USA: ACM Press, 2010: 2837-2854.
|