2. 西北民族大学 中国民族信息技术研究院, 兰州 730030
2. School of China National Institute of Information Technology, Northwest Minzu University, Lanzhou 730030, China
开放科学(资源服务)标志码(OSID):
随着数据收集和存储能力的提高,各领域已经积累了丰富的数据资源,快速对这些数据进行处理、分析和分类尤为重要。聚类[1-2]作为处理和分析数据的高效方法之一,已被广泛应用于机器学习、模式识别和数据挖掘等领域。
由于信息源的多样性,越来越多的多视图数据不断涌入人们的生活,为了对多视图数据进行分类,一系列多视图聚类方法相继被提出。多视图聚类通过融合多个视图的互补信息和兼容信息,从而获得更稳定的聚类性能。其中用于多视图的谱聚类算法[3-4]和K-means[5-7]算法应用最为广泛。与K-means聚类相比,谱聚类作为一种基于图的算法,在检测数据结构方面有着更强的能力[8]。根据图构建方式的不同,现有的多视图聚类方法主要分为两类:基于自表示的子空间多视图聚类和基于自适应近邻图学习的多视图聚类。
基于自表示的子空间多视图聚类算法用剩余其他数据点的线性组合来表示某一数据点,得到的系数矩阵即为图矩阵,其在滤除噪声影响的同时获取了数据样本的全局结构。文献[9]对表示矩阵施加低秩约束来捕获数据样本的全局结构。潜在嵌入空间的多视图聚类模型[10]先将各视图数据映射为共同的表示矩阵,然后再学习全局相似图进行谱聚类。文献[11]提出一种基于自适应图的子空间学习框架,通过同时学习数据的低秩表示和局部结构来获得子空间的最佳全局表示。多视图低秩稀疏子空间聚类[12]通过构造所有视图之间共享的亲和矩阵来学习子空间表示。文献[13]同时对每个视图的子空间表示进行聚类,为保证不同视图之间的一致性,模型强制将不同视图中的数据点分为同一类。文献[14]在子空间表示学习的基础上提出主动学习共识子空间的方法。文献[15]将原始数据映射到低维子空间中,在低维数据中挖掘信息的同时捕获数据的全局结构和局部结构,从而提高了聚类性能。但是,上述方法忽略了不同视图的重要性,即信息量较多的视图和信息量较少的视图被同等对待,因此会丢失一些重要的信息。
基于自适应近邻图学习的多视图聚类方法具有识别不同视图的聚类能力,其通过给每个数据点分配一个概率作为另一个数据点的邻域来构建一个图,并将学习到的概率作为两个数据点之间的相似性,可以有效探索数据样本的局部结构。文献[16]提出自适应近邻学习方法,将欧式距离作为度量标准,自适应地构造一个关系矩阵。文献[17]采用自适应近邻图学习方法构造数据样本的相似矩阵,然后融合相似矩阵进行谱聚类来获取最终聚类结果。之后,文献[18]对上述模型又进行了改进,将图矩阵、图融合和图聚类整合到一个框架中,以获得整体最优解。文献[19]提出了无参数自适应邻域构建无向图的方法降低算法的复杂度。为了解决不同视图的特征不同这一问题,文献[20]提出了一个无参数模型,可以自适应地为相似图分配权重。基于自适应加权的多视图聚类[21]首先分别学习不同视图的谱嵌入,然后通过谱旋转学习到一致的聚类结果。多图自加权多视图聚类[22]利用原始数据样本分别学习多个关系图,然后采用自加权技术融合多个关系图得到一个共识图,但是他们都是从原始数据中学习图,忽略了噪声和离群点的影响,无法保证样本之间的真实相似度。
针对上述问题,本文提出基于特征选择和鲁棒图学习的多视图聚类算法FRMC。通过特征选择学习每个视图的特征,利用自表示学习从多视图数据中得到样本的表示系数。在此基础上,引入自适应近邻图方法在表示系数的基础上构造鲁棒图矩阵,利用矩阵加权和得到最终的亲和图矩阵用于谱聚类。FRMC算法将特征选择、噪声去除和鲁棒图学习集成在一个框架中,从而获得整体最优解,通过特征选择为不同的特征分配不同的权重,通过自适应学习不同视图的特征,降低高维数据并减少冗余特征,通过自表示学习滤除噪声和离群点同时获取数据样本的全局结构,在自适应近邻学习构建鲁棒图的同时保持数据样本的局部结构。
1 相关工作在本节中,首先引入符号说明,然后分别介绍多视图子空间聚类算法和自适应近邻图学习方法。
1.1 符号说明为方便起见,用
![]() |
下载CSV 表 1 符号说明 Table 1 Symbol description |
多视图子空间聚类算法首先从自表示学习框架中学习各视图表示矩阵,然后利用学习到的表示矩阵构建拉普拉斯矩阵进行谱聚类。模型的一般表示形式如下[23]:
$ \underset{{\boldsymbol{Z}}^{1}, {\boldsymbol{Z}}^{2}, \cdots \mathrm{ }, {\boldsymbol{Z}}^{v}\in {\mathbb{R}}^{n\times n}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\left[R({\boldsymbol{X}}^{v}, {\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v})+\alpha ϕ \left({\boldsymbol{Z}}^{v}\right)\right] $ | (1) |
其中:
在相似图
$ \boldsymbol{B}=\frac{1}{m}\sum\limits _{v=1}^{m}\frac{\left|{\boldsymbol{Z}}^{v}\right|+\left|{\boldsymbol{Z}}^{{v}^{\mathrm{T}}}\right|}{2} $ | (2) |
自适应近邻图学习方法可以描述样本之间的类别属性[24]。给定一个具有
$ \begin{array}{l}\underset{{\boldsymbol{s}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}{‖{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{x}}_{j}^{v}‖}_{2}^{2}{s}_{ij}^{v}+\gamma \sum\limits _{v=1}^{m}\sum\limits _{i}^{n}{‖{\boldsymbol{s}}_{i}^{v}‖}_{\mathrm{F}}^{2}\\ \mathrm{s}.\mathrm{t}.\mathrm{ }0\le {s}_{ij}^{v}\le 1, {\boldsymbol{s}}_{i}^{{v}^{\mathrm{T}}}\mathbf{1}=1\end{array} $ | (3) |
其中:
$ \begin{array}{l}\underset{{\boldsymbol{S}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\mathrm{T}\mathrm{r}\sum \limits_{v=1}^{m}\left({\boldsymbol{X}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{X}}^{{v}^{T}}\right)+\gamma \sum\limits _{v=1}^{m}{‖{\boldsymbol{S}}^{v}‖}_{\mathrm{F}}^{2}\\ \mathrm{s}.\mathrm{t}.\mathrm{ }0\le {\boldsymbol{S}}^{v}\le 1, \boldsymbol{S}\mathbf{1}=\mathbf{1}\end{array} $ | (4) |
其中:
本节提出了基于特征选择和鲁棒图学习的多视图聚类算法(FRMC),并给出其目标函数的优化过程。与其他相关算法相比,FRMC主要有以下3个特点:1)自适应选择不同视图的特征,在数据降维的同时减少了噪声和冗余特征的影响,并且在自表示矩阵的基础上能自适应地学习鲁棒图;2)同时捕获数据样本的全局结构和局部结构,采用
考虑到原始数据通常包含高度冗余特征,笔者希望充分地利用跨多个视图的有效特征,使得数据空间结构变得更加清晰。因此,为了更好地揭示多视图聚类结构,本文将特征选择技术应用于聚类算法中。文献[9-15]的研究证明了多视图子空间聚类算法能有效地减少噪声的影响,提高算法的鲁棒性。因此,本文将特征选择和鲁棒图学习集成到一个框架中。FRMC算法的主要计算公式如下:
$ \begin{array}{l}\underset{\{{\boldsymbol{P}}^{v}, {\boldsymbol{Z}}^{v}, {\boldsymbol{E}}^{v}, {\boldsymbol{A}}^{v}\}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}\left|\right|{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{j}^{v}|{|}_{2}^{2}{\boldsymbol{z}}_{ij}^{v}+\\ \sum\limits _{v=1}^{m}\left[\alpha \right|\left|{\boldsymbol{Z}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{Z}}^{{v}^{T}}\right|{|}_{F}^{2}+\beta \left|\right|{\boldsymbol{E}}^{v}|{|}_{\mathrm{2, 1}}+\gamma |\left|{\boldsymbol{A}}^{v}\right|{|}_{F}^{2}]\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{X}}^{v}={\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}+{\boldsymbol{E}}^{v}, {\boldsymbol{Z}}^{v}\ge 0, {\boldsymbol{Z}}^{v}\mathbf{1}=\mathbf{1}, \mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{Z}}^{v}\right)=\mathbf{0}, \\ 0\le {\boldsymbol{A}}^{v}\le 1, {\boldsymbol{A}}^{v}\mathbf{1}=\mathbf{1}, {\boldsymbol{P}}^{v}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{p}}^{v}\right), {\boldsymbol{p}}^{v}\ge 0, {\boldsymbol{p}}^{v}\mathbf{1}=1\end{array} $ | (5) |
在实际应用中,原始数据通常会包含噪声,因此,算法将每个视图的数据分解为两个部分,一个是低秩部分
式(5)可以通过交替方向最小化(ADM)策略[25]和增广拉格朗日乘子法(ALM)来解决。为方便求解
$ \begin{array}{l}\underset{\{{\boldsymbol{P}}^{v}, {\boldsymbol{Z}}^{v}, {\boldsymbol{E}}^{v}, {\boldsymbol{Q}}^{v}, {\boldsymbol{J}}^{v}, {\boldsymbol{A}}^{v}\}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}\left|\right|{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{j}^{v}|{|}_{2}^{2}{\boldsymbol{q}}_{ij}^{v}+\\ \sum\limits _{v=1}^{m}\left[\alpha \mathrm{T}\mathrm{r}\left({\boldsymbol{J}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{J}}^{{v}^{\mathrm{T}}}\right)+\beta \left|\right|{\boldsymbol{E}}^{v}|{|}_{\mathrm{2, 1}}+\gamma |\left|{\boldsymbol{A}}^{v}\right|{|}_{\mathrm{F}}^{2}\right]\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{X}}^{v}={\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}+{\boldsymbol{E}}^{v}, {\boldsymbol{Q}}^{v}={\boldsymbol{Z}}^{v}, {\boldsymbol{J}}^{v}={\boldsymbol{Z}}^{v}, {\boldsymbol{Q}}^{v}\ge 0, \\ \;\;\;\;\;\;{\boldsymbol{Q}}^{v}{\mathbf{1}}={\mathbf{1}}, \mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{Q}}^{v}\right)={\mathbf{0}}, 0\le {\boldsymbol{A}}^{v}\le 1, {\boldsymbol{A}}^{v}{\mathbf{1}}={\mathbf{1}}, \\ \;\;\;\;\;\;{P}^{v}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{p}}^{v}\right), {\boldsymbol{p}}^{v}\ge 0, {\boldsymbol{p}}^{v}{\mathbf{1}}=1\end{array} $ | (6) |
构造式(6)的拉格朗日函数式为:
$ \begin{array}{l}{L}_{1}=\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}{‖{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{j}^{v}‖}_{2}^{2}{\boldsymbol{q}}_{ij}^{v}+\\ \;\;\;\;\;\;\sum\limits _{v=1}^{m}\left[\alpha \mathrm{T}\mathrm{r}\left({\boldsymbol{J}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{J}}^{{v}^{\mathrm{T}}}\right)+\beta \left|\right|{\boldsymbol{E}}^{v}|{|}_{\mathrm{2, 1}}+\gamma |\left|{\boldsymbol{A}}^{v}\right|{|}_{\mathrm{F}}^{2}\right]+\\ \;\;\;\;\;\;\frac{\mu }{2}\left[{‖{\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}+{\boldsymbol{E}}^{v}-{\boldsymbol{X}}^{v}+\frac{{\boldsymbol{Y}}_{1}^{v}}{\mu }‖}_{\mathrm{F}}^{2}+\right.\\ \;\;\;\;\;\;\left.{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{Q}}^{v}+\frac{{\boldsymbol{Y}}_{2}^{v}}{\mu }‖}_{\mathrm{F}}^{2}+{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{J}}^{v}+\frac{{\boldsymbol{Y}}_{3}^{v}}{\mu }‖}_{\mathrm{F}}^{2}\right]\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{Q}}^{v}\ge 0, {\boldsymbol{Q}}^{v}{\mathbf{1}}={\mathbf{1}}, \mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{Q}}^{v}\right)={\mathbf{0}}, 0\le {\boldsymbol{A}}^{v}\le 1, \\ \;\;\;\;\;\;{\boldsymbol{A}}^{v}{\mathbf{1}}={\mathbf{1}}, {\boldsymbol{P}}^{v}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{p}}^{v}\right), {\boldsymbol{p}}^{v}\ge 0, {\boldsymbol{p}}^{v}{\mathbf{1}}=1\end{array} $ | (7) |
其中:
1)更新
$ \begin{array}{l}\underset{{\boldsymbol{P}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}\left[\left|\right|{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{j}^{v}|{|}_{2}^{2}{\boldsymbol{q}}_{ij}^{v}\right]\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{P}}^{v}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{p}}^{v}\right), {\boldsymbol{p}}^{v}\ge 0, {\boldsymbol{p}}^{v}{\mathbf{1}}=1\end{array} $ | (8) |
根据式(4),问题式(8)可以表示为:
$ \begin{array}{l}\underset{{\boldsymbol{P}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}Tr\left({\boldsymbol{P}}^{v}{\boldsymbol{X}}^{v}{\boldsymbol{L}}_{{\boldsymbol{q}}^{v}}^{v}{\boldsymbol{X}}^{{v}^{T}}{\boldsymbol{P}}^{{v}^{T}}\right)\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{P}}^{v}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{p}}^{v}\right), {\boldsymbol{p}}^{v}\ge 0, {\boldsymbol{p}}^{v}{\mathbf{1}}=1\end{array} $ | (9) |
令
$ \begin{array}{l}\underset{{\boldsymbol{P}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\left({\boldsymbol{p}}^{v}{\boldsymbol{w}}^{v}{\boldsymbol{p}}^{{v}^{T}}\right)\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{P}}^{v}\ge 0, {\boldsymbol{p}}^{v}{\mathbf{1}}=1\end{array} $ | (10) |
构造式(10)的拉格朗日函数式为:
$ {L}_{2}({\boldsymbol{p}}^{v}, \eta )={\boldsymbol{p}}^{v}{\boldsymbol{w}}^{v}{\boldsymbol{p}}^{{v}^{\mathrm{T}}}-\eta ({\boldsymbol{p}}^{v}{\mathbf{1}}-1) $ | (11) |
其中:
$ {\boldsymbol{p}}^{v}={\left(\frac{1}{{w}_{11}^{v}\sum \limits_{j=1}^{{d}_{v}}\frac{1}{{w}_{jj}^{v}}}, \frac{1}{{w}_{22}^{v}\sum\limits _{j=1}^{{d}_{v}}\frac{1}{{w}_{jj}^{v}}}, \cdots , \frac{1}{{w}_{{d}_{v}{d}_{v}}^{v}\sum\limits _{j=1}^{{d}_{v}}\frac{1}{{w}_{jj}^{v}}}\right)}^{\mathrm{T}} $ | (12) |
2)更新
$ \begin{array}{l}\underset{{\boldsymbol{Z}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\frac{\mu }{2}\left[{‖{\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}+{\boldsymbol{E}}^{v}-{\boldsymbol{X}}^{v}+\frac{{\boldsymbol{Y}}_{1}^{v}}{\mu }‖}_{\mathrm{F}}^{2}+\right.\\ \left.{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{Q}}^{v}+\frac{{\boldsymbol{Y}}_{2}^{v}}{\mu }‖}_{\mathrm{F}}^{2}+{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{J}}^{v}+\frac{{\boldsymbol{Y}}_{3}^{v}}{\mu }‖}_{\mathrm{F}}^{2}\right]\end{array} $ | (13) |
式(13)是关于
$ {\boldsymbol{Z}}^{v}=\frac{{\boldsymbol{X}}^{{v}^{\mathrm{T}}}\left({\boldsymbol{X}}^{v}-{\boldsymbol{E}}^{v}-\frac{{\boldsymbol{Y}}_{1}^{v}}{\mu }\right)+{\boldsymbol{Q}}^{v}-\frac{{\boldsymbol{Y}}_{2}^{v}}{\mu }+{\boldsymbol{J}}^{v}-\frac{{\boldsymbol{Y}}_{3}^{v}}{\mu }}{{\boldsymbol{X}}^{{v}^{\mathrm{T}}}{\boldsymbol{X}}^{v}+2\boldsymbol{I}} $ | (14) |
3)更新
$ \underset{{E}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\beta \sum \limits_{v=1}^{m}\left[\right|\left|{\boldsymbol{E}}^{v}\right|{|}_{\mathrm{2, 1}}]+\frac{\mu }{2}\left[{‖{\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}+{\boldsymbol{E}}^{v}-{\boldsymbol{X}}^{v}+\frac{{\boldsymbol{Y}}_{1}^{v}}{\mu }‖}_{\mathrm{F}}^{2}\right] $ | (15) |
设置
$ \underset{{\boldsymbol{E}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\frac{\beta }{\mu }\sum\limits _{v=1}^{m}\left[\right|\left|{\boldsymbol{E}}^{v}\right|{|}_{\mathrm{2, 1}}]+\frac{1}{2}\sum\limits _{v=1}^{m}\left[\right||{\boldsymbol{E}}^{v}-{\boldsymbol{B}}^{v}|{|}_{\mathrm{F}}^{2}] $ | (16) |
引用文献[26]提出的方法解决上述问题,得到解:
$ {\boldsymbol{E}}^{v}(:, i)=\left\{\begin{array}{l}\frac{\left|\right|{\boldsymbol{b}}_{i}|{|}_{2}-\alpha }{\left|\right|{\boldsymbol{b}}_{i}|{|}_{2}}{\boldsymbol{b}}_{i}, \frac{\beta }{\mu }\le \mathrm{ }\left|\right|{\boldsymbol{b}}_{i}|{|}_{2}\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (17) |
4)更新
$ \underset{{\boldsymbol{J}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\left[\alpha \mathrm{T}\mathrm{r}\left({\boldsymbol{J}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{J}}^{{v}^{\mathrm{T}}}\right)\right]+\frac{\mu }{2}\sum\limits _{v=1}^{m}\left[{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{J}}^{v}+\frac{{\boldsymbol{Y}}_{3}^{v}}{\mu }‖}_{\mathrm{F}}^{2}\right] $ | (18) |
式(18)也是关于
$ {\boldsymbol{J}}^{v}=(\mu {\boldsymbol{Z}}^{v}+{\boldsymbol{Y}}_{3}^{v})(2\alpha {\boldsymbol{L}}^{v}{+\mu \boldsymbol{I})}^{-1} $ | (19) |
5)更新
$ \begin{array}{l}\underset{{\boldsymbol{Q}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\sum\limits _{i, j=1}^{n}\left[\left|\right|{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{i}^{v}-{\boldsymbol{P}}^{v}{\boldsymbol{x}}_{j}^{v}|{|}_{2}^{2}{\boldsymbol{q}}_{ij}^{v}\right]+\\ \frac{\mu }{2}\sum\limits _{v=1}^{m}\left[{‖{\boldsymbol{Z}}^{v}-{\boldsymbol{Q}}^{v}+\frac{{\boldsymbol{Y}}_{2}^{v}}{\mu }‖}_{\mathrm{F}}^{2}\right]\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{Q}}^{v}\ge 0, {\boldsymbol{Q}}^{v}\mathbf{1}=\mathbf{1}, \mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left({\boldsymbol{Q}}^{v}\right)=\mathbf{0}\end{array} $ | (20) |
为了简化符号,暂时忽略视图数
$ \begin{array}{l}\underset{{\boldsymbol{q}}^{i}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{j=1}^{n}\left[\left|\right|\boldsymbol{P}{\boldsymbol{x}}_{i}-\boldsymbol{P}{\boldsymbol{x}}_{j}|{|}_{2}^{2}{q}_{ij}\right]+\sum\limits _{j=1}^{n}\left(\frac{\mu }{2}{q}_{ij}^{2}-\mu {q}_{ij}{h}_{ij}\right)\\ \mathrm{s}.\mathrm{t}.{\boldsymbol{q}}^{i}\ge 0, {q}_{ii}=0, {\boldsymbol{q}}^{i}\mathbf{1}=1\end{array} $ | (21) |
其中:
$ \underset{{\boldsymbol{q}}^{i}\ge 0, {q}_{ii}=0, {\boldsymbol{q}}^{i}\mathbf{1}=1}{\mathrm{m}\mathrm{i}\mathrm{n}}{‖{\boldsymbol{q}}^{i}+\frac{{\boldsymbol{d}}_{i}}{\mu }‖}_{2}^{2} $ | (22) |
通过构造上式的拉格朗日函数式并利用KKT[27]条件得到
$ {\boldsymbol{q}}^{i}={\left(-\frac{{\boldsymbol{d}}_{i}}{\mu }+ϕ{\mathbf{1}}^{T}\right)}_{+} $ | (23) |
其中:
6)更新
$ \begin{array}{l}\underset{{\boldsymbol{A}}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{v=1}^{m}\left[\alpha Tr\right({\boldsymbol{J}}^{v}{\boldsymbol{L}}^{v}{\boldsymbol{J}}^{{v}^{T}})+\gamma |\left|{\boldsymbol{A}}^{v}\right|{|}_{F}^{2}]\\ \mathrm{s}.\mathrm{t}.\mathrm{ }0\le {\boldsymbol{A}}^{v}\le 1, {\boldsymbol{A}}^{v}\mathbf{1}=\mathbf{1}\end{array} $ | (24) |
式(24)对于每个
$ \begin{array}{l}\underset{{\boldsymbol{a}}_{i}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}\sum\limits _{i, j=1}^{n}\left[\frac{\alpha }{2}\right||{\boldsymbol{j}}_{i}^{v}-{\boldsymbol{j}}_{j}^{v}|{|}_{}^{2}{a}_{ij}^{v}+\gamma {a}_{ij}^{v}]\\ \mathrm{s}.\mathrm{t}.\mathrm{ }0\le {\boldsymbol{a}}_{i}^{v}\le 1, {\boldsymbol{a}}_{i}^{{v}^{\mathrm{T}}}\mathbf{1}=1\end{array} $ | (25) |
令
$ \begin{array}{l}\underset{{\boldsymbol{a}}_{i}^{v}}{\mathrm{m}\mathrm{i}\mathrm{n}}{‖{\boldsymbol{a}}_{i}^{v}+\frac{\alpha }{4\gamma }{\boldsymbol{e}}_{i}‖}_{}^{2}\\ \mathrm{s}.\mathrm{t}.\mathrm{ }0\le {\boldsymbol{a}}_{i}^{v}\le 1, {\boldsymbol{a}}_{i}^{{v}^{T}}\mathbf{1}=1\end{array} $ | (26) |
构建式(26)的拉格朗日函数式并对
$ 2{\boldsymbol{a}}_{i}^{v}+\frac{\alpha }{2\gamma }{\boldsymbol{e}}_{i}-\varsigma 1-{\boldsymbol{\xi }}_{i}=0 $ | (27) |
将
$ \left\{\begin{array}{l}{a}_{ij}^{v}=\left\{\begin{array}{l}\frac{{e}_{i, k+1}-{e}_{ij}}{k{e}_{i, k+1}-\sum\limits _{r=1}^{k}{e}_{ir}}, j\le k\\ 0, \mathrm{其}\mathrm{他}\end{array}\right.\\ \gamma =\frac{\alpha }{4}\left(k{e}_{i, k+1}-\sum\limits _{j=1}^{k}{e}_{ij}\right)\\ \varsigma =\frac{2}{k}+\frac{\alpha }{2k\gamma }\sum\limits _{j=1}^{k}{e}_{ij}\end{array}\right. $ | (28) |
7)更新拉格朗日乘子
$ {\boldsymbol{Y}}_{1}^{v}={\boldsymbol{Y}}_{1}^{v}+\mu ({\boldsymbol{X}}^{v}-{\boldsymbol{X}}^{v}{\boldsymbol{Z}}^{v}-{\boldsymbol{E}}^{v}) $ |
$ {\boldsymbol{Y}}_{2}^{v}={\boldsymbol{Y}}_{2}^{v}+\mu ({\boldsymbol{Q}}^{v}-{\boldsymbol{Z}}^{v}) $ |
$ {\boldsymbol{Y}}_{3}^{v}={\boldsymbol{Y}}_{3}^{v}+\mu ({\boldsymbol{J}}^{v}-{\boldsymbol{Z}}^{v}) $ | (29) |
FRMC算法详细迭代更新过程如算法1所示。
算法1 FRMC
输入 多视图数据
输出 聚类结果
初始化
当未收敛时:
1)通过式(12)更新
2)通过式(14)更新
3)通过式(17)更新
4)通过式(19)更新
5)通过式(23)更新
6)通过式(28)更新
7)通过式(29)更新拉格朗日乘子
8)构造亲和图矩阵
9)对亲和图矩阵
将FRMC算法与其他算法进行比较,验证其在聚类任务上的有效性,所有实验均在Matlab上进行。
3.1 数据集为了检验算法的性能,在6个公开的标准数据集上进行聚类实验,每个数据集的具体信息如表 2所示。
![]() |
下载CSV 表 2 数据集信息统计 Table 2 Information statistics of datasets |
1)BBCSport数据集主要有2个视图,包含了来自BBC体育网站的544份文件,分别对应于5个热门领域发表的体育文章。
2)MSRC-v1数据集由210张图像和7个类别组成,对于1张图像有5个特征向量,包括色矩、GIST、CENT、HOT和LBP。
3)HW2数据集由2 000张图像组成,10个类别从0到9个数字不等,实验选择了76个字符形状的傅里叶系数和216个轮廓相关特征。
4)Scene数据集有2 688张图像,对于每张图像提取了4个不同的特征向量,包括512DGIST、432D色矩、256DHOG和48DLBP。
5)Uci-3view数据集由10个类的手写数字组成,每个类有200个不同的数字,有2 000个数据点。
6)ORL数据集是人脸数据集,由40个不同的类别组成,每个类别包含10幅在不同时间、光照、面部表情和面部细节下拍摄的不同图像。
3.2 对比算法为验证算法的有效性,本文简要介绍7种对比算法来验证FRMC的性能优势。
1)谱聚类(SC-best)[28]:该算法返回多个视图中最好的聚类结果。
2)从噪声数据中学习鲁棒图(RGC)[7]:该算法自适应地消除了原始数据中的噪声和误差,从干净的数据中学习鲁棒图,提高了聚类和半监督分类的性能。
3)基于自适应加权的多视图聚类(AWP)[18]:该算法将多个不同的谱嵌入集成到一个一致的索引矩阵中。
4)多图自加权多视图聚类(SwMC)[19]:该算法通过融合不同的权重图来构造相似图,然后利用相似图构造一个具有明确块对角结构的拉普拉斯图。
5)自加权多视图学习(AMGL)[17]:该算法没有额外的参数,能够自动学习每个视图的最优权值。
6)多视图低秩稀疏子空间聚类(MLRSSC)[11]:该算法通过构造所有视图之间共享的亲和矩阵来学习联合子空间表示。
7)一致和特定的多视图子空间聚类(CSMSC)[12]:该算法是一种新的多视图子空间聚类方法,将一致性和特异性共同用于子空间表示学习。
在所有的对比算法中,RGC、AWP、SwMC和AMGL使用相似矩阵作为算法的输入,并将图学习和聚类集成到一个框架中,而MLRSSC和CSMSC则使用自表示系数矩阵作为算法的输入,两个算法都将子空间学习和聚类集成到一个框架中。
3.3 评价指标本文使用精度(ACC)、归一化互信息(NMI)、纯度(Purity)和调整兰德指数(ARI)这4个指标来评估算法的聚类性能,指标值越高,表示算法的聚类性能越好,表 3~表 8列出了聚类结果,其中加粗表示最优结果。
![]() |
下载CSV 表 3 BBCSport数据集上的实验结果 Table 3 Experimental results on BBCSport dataset |
![]() |
下载CSV 表 4 MSRC-v1数据集上的实验结果 Table 4 Experimental results on MSRC-v1 dataset |
![]() |
下载CSV 表 5 HW2数据集上的实验结果 Table 5 Experimental results on HW2 dataset |
![]() |
下载CSV 表 6 Scene数据集上的实验结果 Table 6 Experimental results on Scene dataset |
![]() |
下载CSV 表 7 Uci-3view数据集上的实验结果 Table 7 Experimental results on Uci-3view dataset |
![]() |
下载CSV 表 8 ORL数据集上的实验结果 Table 8 Experimental results on ORL dataset |
由表 3~表 8可以看出,FRMC算法在BBCSport、MSRC-v1、HW2和ORL4个公共数据集上都取得最佳聚类效果。FRMC能自适应选择有用的特征,有效降低冗余特征的影响,通过鲁棒自表示学习获取表示系数,滤除噪声的同时获取数据样本的全局结构,并与自适应图学习结合,可以更好地增强多视图聚类结构。此外,鲁棒图矩阵建立在干净的表示系数矩阵上,可以更好地揭示样本之间的属性。FRMC的优势具体体现在以下4个方面:
1)与单视图聚类算法SC和RGC相比,FRMC在4种评价指标上聚类性能提高了10~40个百分点。FRMC可通过学习数据样本的全局结构和局部结构更好地利用多视图信息。
2)单视图聚类算法RGC在Scene数据集上的性能优于SwMC,这是由于RGC构造鲁棒图矩阵用作算法的新输入,而SwMC直接从原始数据中构造相似矩阵,这表明了构造鲁棒图的重要性。FRMC构造了基于自表示系数矩阵的鲁棒图,更好地提高了聚类性能。
3)与在原始数据上构建图的AWP、SwMC和AMGL算法相比,FRMC滤除了原始数据中的噪声和离群点,表现出更好的聚类性能。
4)与以自表示系数矩阵为输入的MLRSSC和CSMSC算法相比,FRMC算法表现出更好的聚类性能:ACC提升1~20个百分点,NMI提升1~10个百分点,纯度提升5~20个百分点,ARI提升2~28个百分点。FRMC通过自适应选择重要特征增强了聚类结构,证明了数据进行特征选择的重要性。
综上所述,与其他相对比算法相比,FRMC可以显著提高聚类性能。
3.5 算法复杂度分析FRMC的最高计算成本来自式(14)和式(19)。式(14)中的
![]() |
下载CSV 表 9 各算法在6个数据集上的运行时间 Table 9 Running time of each algorithm on six datasets |
由表 9可以看出:基于单视图的SC算法运行时间少于多视图聚类算法,但聚类性能远低于多视图聚类算法;AMGL算法在比较算法中运行时间最少,但在所有数据集上聚类性能低于FRMC算法;与基于图学习的RGC、AWP、SwMC和AMGL算法相比,FRMC算法运行时间最长,但是聚类性能最好;与基于自表示学习的方法MLRSSC和CSMSC相比,除了在Scene和Uci-3view数据集上,FRMC算法均得到了最好聚类效果;此外,FRMC算法在6个数据集上的运行时间少于MLRSSC算法。由表 9可知,虽然提出的基于特征选择和鲁棒图学习的多视图聚类算法运行速度不是最快的,但能够在可接受的时间范围内达到更好聚类效果。
3.6 收敛性分析图 1显示了FRMC在BBCSport数据集上的收敛曲线,可见算法经过30次迭代后趋于稳定,这说明FRMC具有较好的收敛性。
![]() |
Download:
|
图 1 收敛性曲线 Fig. 1 Convergence curve |
利用合成数据集来验证算法的鲁棒性,实验具体设置参考文献[16]。实验使用的合成数据集是一个100×100的矩阵,由4个25×25的块矩阵对角排列组成,每个块内的数据表示1个类中2个对应点的亲和度,亲和度数据在0~1的范围内随机生成,而块外的数据表示噪声,噪声数据在0~f的范围内随机生成,f可以设置为0.5、0.6或0.7。任意选取20个噪声数据点,并将其值设置为1。
实验选取了2种具有代表性的算法来验证FRMC的鲁棒性,如图 2所示,图中展示了数据噪声为0.6时的聚类图,可见FRMC算法学习到的矩阵的块结构比其他算法更清晰。因此,FRMC在捕获数据空间的不同结构方面表现得更好。
![]() |
Download:
|
图 2 对块对角合成数据进行聚类的结果 Fig. 2 Clustering results on the block diagonal synthetic data |
FRMC算法有
本文在HW2数据集上展示FRMC和3种不同对算法的聚类可视化结果(彩色效果见《计算机工程》官网HTML版),同种颜色的数据点代表同一类,如图 3所示。对比算法中都存在不同类别分离不充分的情况,FRMC算法使得同类数据点之间的距离相对较小,不同类之间的距离相对较大,能够有效地将相似对象分组到同一个类别中。
![]() |
Download:
|
图 3 HW2数据集上的聚类可视化结果 Fig. 3 Clustering visualization results on HW2 dataset |
本文提出基于特征选择和鲁棒图学习的多视图聚类算法FRMC,将样本的特征选择、噪声去除和鲁棒图学习集成到一个框架中,以使模型获得整体最优值。此外,不仅通过自适应选择特征和自表示学习减少冗余特征和噪声的影响,同时还考虑多视图数据样本中的全局结构和局部结构。在6种不同数据集上与7种聚类算法的实验结果对比,验证了FRMC在揭示样本类别属性方面的良好性能。后续将利用二部图技术降低FRMC在处理大规模数据集时的计算复杂度,同时针对每个视图中聚类的多样性问题,为每个视图分配适当的权重,进一步提高算法的聚类性能。
[1] |
PENG C, KANG Z, CHENG Q. Subspace clustering via variance regularized ridge regression[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 682-691.
|
[2] |
钱雪忠, 姚琳燕. 面向稀疏高维大数据的扩展增量模糊聚类算法[J]. 计算机工程, 2019, 45(6): 75-81, 88. QIAN X Z, YAO L Y. Extended incremental fuzzy clustering algorithm for sparse high-dimensional big data[J]. Computer Engineering, 2019, 45(6): 75-81, 88. (in Chinese) |
[3] |
FENG L, CAI L, LIU Y, et al. Multi-view spectral clustering via robust local subspace learning[J]. Soft Computing, 2017, 21(8): 1937-1948. DOI:10.1007/s00500-016-2120-3 |
[4] |
HU Z X, NIE F P, CHANG W, et al. Multi-view spectral clustering via sparse graph learning[J]. Neurocomputing, 2020, 384: 1-10. DOI:10.1016/j.neucom.2019.12.004 |
[5] |
HUANG S D, REN Y Z, XU Z L. Robust multi-view data clustering with multi-view capped-norm K-means[J]. Neurocomputing, 2018, 311: 197-208. DOI:10.1016/j.neucom.2018.05.072 |
[6] |
DU L, ZHOU P, SHI L, et al. Robust multiple kernel k-means using l21-norm[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence. Washington D. C., USA: IEEE Press, 2015: 3476-3482.
|
[7] |
沈俊鑫, 郭晓军, 王文浩, 等. 基于协议组降低策略的二次并行k均值聚类算法[J]. 计算机工程, 2015, 41(8): 150-155. SHEN J X, GUO X J, WANG W H, et al. Secondary parallel k-means clustering algorithm based on protocol group-reduced strategy[J]. Computer Engineering, 2015, 41(8): 150-155. (in Chinese) DOI:10.3969/j.issn.1000-3428.2015.08.028 |
[8] |
KANG Z, PAN H Q, HOI S C H, et al. Robust graph learning from noisy data[J]. IEEE Transactions on Cybernetics, 2020, 50(5): 1833-1843. DOI:10.1109/TCYB.2018.2887094 |
[9] |
LIU G C, LIN Z C, YAN S C, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 171-184. DOI:10.1109/TPAMI.2012.88 |
[10] |
CHEN M S, HUANG L, WANG C D, et al. Multi-view clustering in latent embedding space [C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2020: 3513-3520.
|
[11] |
DU H S, WANG Y X, ZHANG F, et al. Low-rank discriminative adaptive graph preserving subspace learning[J]. Neural Processing Letters, 2020, 52(3): 2127-2149. DOI:10.1007/s11063-020-10340-6 |
[12] |
BRBIĆ M, KOPRIVA I. Multi-view low-rank sparse subspace clustering[J]. Pattern Recognition, 2018, 73: 247-258. DOI:10.1016/j.patcog.2017.08.024 |
[13] |
LUO S R, ZHANG C Q, ZHANG W, et al. Consistent and specific multi-view subspace clustering [C]//Proceedings of the 32th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2018: 3730-3737.
|
[14] |
ZHANG G Y, ZHOU Y R, HE X Y, et al. One-step kernel multi-view subspace clustering[J]. Knowledge-Based Systems, 2020, 189: 105-126. |
[15] |
陶洋, 鲍灵浪, 胡昊. 结构约束的对称低秩表示子空间聚类算法[J]. 计算机工程, 2021, 47(4): 56-61, 67. TAO Y, BAO L L, HU H. Structure-constrained symmetric low-rank representation algorithm for subspace clustering[J]. Computer Engineering, 2021, 47(4): 56-61, 67. (in Chinese) |
[16] |
NIE F P, WANG X Q, JORDAN M I, et al. The constrained Laplacian rank algorithm for graph-based clustering [C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2016: 1969-1976.
|
[17] |
WANG H, YANG Y, LIU B, et al. A study of graph-based system for multi-view clustering[J]. Knowledge-Based Systems, 2019, 163: 1009-1019. DOI:10.1016/j.knosys.2018.10.022 |
[18] |
WANG H, YANG Y, LIU B. GMC: graph-based multi-view clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(6): 1116-1129. DOI:10.1109/TKDE.2019.2903810 |
[19] |
葛君伟, 杨广欣. 基于共享最近邻的密度自适应邻域谱聚类算法[J]. 计算机工程, 2021, 47(8): 116-123. GE J W, YANG G X. Spectral clustering algorithm for density adaptive neighborhood based on shared nearest neighbors[J]. Computer Engineering, 2021, 47(8): 116-123. (in Chinese) |
[20] |
NIE F P, LI J, LI X L, et. al. Parameter-free auto-weighted multiple graph learning: a framework for multi-view clustering and semi-supervised classification[C]//Proceedings of International Joint Conference on Artificial Intelligence. Washington D. C., USA: IEEE Press, 2016: 1881-1887.
|
[21] |
NIE F P, TIAN L, LI X L. Multiview clustering via adaptively weighted Procrustes[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, USA: ACM Press, 2018: 2022-2030.
|
[22] |
NIE F P, LI J, LI X L. Self-weighted multiview clustering with multiple graphs[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: International Joint Conferences on Artificial Intelligence Organization, 2017: 2564-2570.
|
[23] |
LIN S X, ZHONG G, SHU T. Simultaneously learning feature-wise weights and local structures for multi-view subspace clustering[J]. Knowledge-Based Systems, 2020, 205: 106280. DOI:10.1016/j.knosys.2020.106280 |
[24] |
LIU X W, WANG L, ZHANG J, et al. Global and local structure preservation for feature selection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(6): 1083-1095. DOI:10.1109/TNNLS.2013.2287275 |
[25] |
BOYD S, PARIKH N, CHU E. Distributed optimization and statistical learning via the alternating direction method of multipliers [M]. [S. l. ]: Now Publishers Inc., 2011.
|
[26] |
DU S Q, MA Y D, MA Y R. Graph regularized compact low rank representation for subspace clustering[J]. Knowledge-Based Systems, 2017, 118: 56-69. |
[27] |
BOYD S. Convex optimization: from embedded real-time to large-scale distributed [C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2011: 21-24.
|
[28] |
XIA R, PAN Y, DU L, et al. Robust multi-view spectral clustering via low-rank and sparse decomposition [C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2014: 2149-2155.
|
[29] |
RIEDEL K S. A Sherman-Morrison-Woodbury identity for rank augmenting matrices with application to centering[J]. SIAM Journal on Matrix Analysis and Applications, 1992, 13(2): 659-662. |