«上一篇 下一篇»
  计算机工程  2020, Vol. 46 Issue (2): 1-10  DOI: 10.19678/j.issn.1000-3428.0053147
0

引用本文  

张恩豪, 陈晓红, 刘鸿, 等. 基于典型相关分析的多视图降维算法综述[J]. 计算机工程, 2020, 46(2), 1-10. DOI: 10.19678/j.issn.1000-3428.0053147.
ZHANG Enhao, CHEN Xiaohong, LIU Hong, et al. Overview of Multi-view Dimension Reduction Algorithm Based on Canonical Correlation Analysis[J]. Computer Engineering, 2020, 46(2), 1-10. DOI: 10.19678/j.issn.1000-3428.0053147.

基金项目

国家自然科学基金(61403193,61703206)

作者简介

张恩豪(1995-), 男, 硕士研究生, 主研方向为机器学习、模式识别;
陈晓红, 副教授、博士; 刘鸿, 硕士研究生; 朱玉莲, 副教授、博士

文章历史

收稿日期:2018-11-15
修回日期:2019-01-24
基于典型相关分析的多视图降维算法综述
张恩豪a , 陈晓红a , 刘鸿a , 朱玉莲b     
a. 南京航空航天大学 理学院, 南京 211106;
b. 南京航空航天大学 信息化技术中心, 南京 211106
摘要:随着数据采集技术的发展,人们获取数据的途径呈多样化,所得到的数据往往具有多个视图,从而形成多视图数据。利用多视图数据不同的信息特征,设计相应的多视图学习策略以提高分类器的性能是多视图学习的研究目标。为更好地利用多视图数据,促进降维算法在实际中的应用,对多视图降维算法进行研究。分析多视图数据和多视图学习,在典型相关分析(CCA)的基础上追溯多视图CCA和核CCA,介绍多视图降维算法从两个视图到多个视图以及从线性到非线性的演化过程,总结各种融入判别信息和近邻信息的多视图降维算法,以更好地学习多视图降维算法。在此基础上,对比分析多视图降维算法的特点及存在的问题,并对未来的研究方向进行展望。
关键词多视图学习    典型相关分析    监督学习    广义特征值    降维    
Overview of Multi-view Dimension Reduction Algorithm Based on Canonical Correlation Analysis
ZHANG Enhaoa , CHEN Xiaohonga , LIU Honga , ZHU Yulianb     
a. College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
b. Informationization Technology Center, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
Abstract: With the development of data acquisition technology and the diversification of data obtaining approaches, the obtained data often have multiple views, so the multi-view data are formed.To study the information contained in these data becomes an research objective of multi-view learning.In order to make better use of multi-view data and improve the practical application of dimension reduction algorithms, this paper conducts a research on multi-view dimension reduction algorithms.This paper first reviews multi-view data and multi-view learning, and then, on the basis of Canonical Correlation Analysis(CCA), MCCA and KCCA are reviewed as well.Moreover, the evolution of multi-view dimension reduction algorithms, from two-view data to multi-view data and from linear to nonlinear is introduced herein.Then, this paper further summarizes various multi-view dimension algorithms integrating discriminant information and nearest neighbor information, so as to have a better understanding of these algorithms.Finally, this paper analyzes the characteristics and drawbacks of the multi-view dimension reduction algorithms and proposes future research directions.
Key words: multi-view learning    Canonical Correlation Analysis(CCA)    supervised learning    generalized eigenvalue    dimension reduction    
0 概述

在多数科学数据分析中, 对于同一事物可以通过不同的角度或方式来获取信息, 这些信息表现出不同的特征属性, 如果将每个角度或方式的观察结果视为一个视图或视角, 则每个视图均可以得到与之相应的数据, 这种数据统称为多视图数据[1-2]。包含多个视图的样本数据可以采用不同的形式进行特征描述[3], 如对于一幅图像, 颜色信息和纹理信息是2种不同的特征, 可以看作是2个视图数据。在网页分类中, 通常可以用网页本身的文本内容和链接到此网页的超链接2种特征来描述给定的网页。相比于仅来源于单一渠道的单视图数据, 多视图数据更能全面描述事物所具有的信息。

传统的机器学习算法, 如支持向量机[4]、判别分析[5]、光谱聚类[6]等算法都是针对单视图数据提出的, 面对大量涌现的多视图数据, 之前很多算法只是将多个视图简单地合并为单视图数据, 以适应学习环境, 但是每个视图都有特定的统计属性, 这种简单的合并忽略了各自的特性, 导致学习效果并不理想。针对有多个视图的数据集, 文献[7]提出多视图学习, 它的定义宽泛而自然, 只要学习任务所给定的经验数据由多个视图来表示, 都称为多视图学习。文献[3, 8]利用多视图数据不同的信息特征, 设计相应的多视图学习策略以提高分类器的性能。与单视图学习相比, 多视图学习能充分利用原始数据集, 最大限度地挖掘各个视图所包含的先验信息提高学习的效果。因此, 多视图学习受到研究人员越来越多的关注[9]

本文研究基于多视图数据的典型相关分析(Canonical Correlation Analysis, CCA)方法, 介绍加入判别信息的相关分析, 给出相关算法的基本信息及常用的多视图数据集, 在此基础上分析目前多视图降维算法需要解决的问题, 并给出相关研究方向。

1 相关研究

多视图学习可以通过视图间互补信息的融合, 增强单视图方法的鲁棒性提升学习性能[10]。目前, 研究人员已陆续提出了许多多视图学习算法, 如多视图迁移学习[11-13]、多视图降维[14-15]、多视图聚类[16-19]、多视图判别分析[20]、多视图半监督学习[21-24]和多任务多视图学习[25-26]等。当前针对多视图数据的研究大致可分为侧重于分类与聚类的协同算法[16, 27]以及侧重于降维的相关分析及其改进算法等[28-29]。后者最经典的算法是文献[30]提出的典型相关分析, 其主要目的是为识别并量化两组变量之间的关联程度。

近年来, 在不同的应用场景中, 研究者提出了许多基于典型相关分析的改进算法。典型相关分析最初仅适用于2个视图的情景, 文献[31]提出多视图典型相关分析(Multi-view Canonical Correlation Analysis, MCCA)实现了CCA的多视图扩展, 使其可同时寻找m(m>2)个视图数据的相关性。但是, 对于有标号的多视图数据, CCA与MCCA都没有利用数据集所包含的类信息, 造成了类信息的浪费, 从而限制了分类性能的提升。文献[32]将类信息嵌入CCA基础框架中进行扩展, 得到双视图的判别型典型相关分析(DiscriminantCanonical Correlation Analysis, DCCA), 文献[33]在DCCA的基础上提出多视图判别型典型相关分析(Multiple Discriminant Canonical Correlation Analysis, MDCCA)。

CCA是一种线性映射, 只能处理视图间的线性关系, 文献[34]提出的核典型相关分析(Kernel Canonical Correlation Analysis, KCCA)和文献[35]提出的核判别型典型相关分析(Kernel Discriminant Canonical Correlation analysis, KDCCA)分别为CCA和DCCA的非线性扩展, 可求2个视图数据的最大相关的非线性投影。

CCA本质上属于无监督降维, 如果将原始数据作为一个视图, 将类标签作为另一个视图, 利用CCA可将原始数据投影到由标签信息指导的低维空间中, 从而实现单视图数据的监督学习[36]。此外, 文献[37]提出的局部判别典型相关分析(Local Discrimination Canonical Correlation Analysis, LDCCA)考虑局部特征的组合和不同类之间的判别信息, 实现了双视图数据的监督降维。文献[38]提出的广义多视图分析(Generalized Multi-view Analysis, GMA)是双视图到多视图的扩展, 并且利用了视图内的判别信息。但是, GMA没有考虑视图间的判别信息, 而文献[39]基于典型相关性提出多视图的判别型典型相关(Discriminative Canonical Correlation, DCC)、KAN等人提出的多视图判别分析(Multi-view Discriminant Analysis, MvDA)和YOU等人在MvDA的基础上提出的多视图共分量判别分析(Multi-view Common Component Discriminate Analysis, MvCCDA)则同时融合了视图内和视图间的判别信息。

目前, CCA及其改进算法已经成功应用于许多研究领域, 如面部表情识别[40]、图像分析[6]、机器人的位置估计[41]、参数估计[42]、数据回归分析[43]、数据纹理分析[44]、图像检索[45]、基于内容的文本数据挖掘[46]和函数的渐近收敛[47]等。从判别型典型相关分析的研究成果来看, 上述研究仍处于初步阶段, 但是对现有研究成果的梳理与总结, 可以为从事多视图数据分析的研究者提供借鉴。

2 多视图的典型相关分析方法

本节介绍基于多视图学习的典型相关分析算法, 并给出相关的理论基础和加入判别信息的典型相关分析方法。

2.1 典型相关分析

典型相关分析是一种用于建模2个变量集之间关系的技术, 能够识别并量化2组变量之间的关联程度, 它在处理多视图数据的各种学习问题上取得了巨大的成功。CCA可以被视作主成分分析(Principal Component Analysis, PCA)的多视图推广, 目的是为了最大化2个数据集的低维映射之间的关系(由相关系数度量)。

给定随机变量$ \boldsymbol{X}_{1} \in \mathbb{R}^{d_{1} \times n}, \boldsymbol{X}_{2} \in \mathbb{R}^{d_{2} \times n}$, CCA是要找到一组投影向量w1w2(其中$\boldsymbol{w}_{1} \in \mathbb{R}^{d_{1}}, \boldsymbol{w}_{2} \in \mathbb{R}^{d_{2}} $), 使得线性指数$ \boldsymbol{w}_{1}^{\mathrm{T}} \boldsymbol{X}_{1}$$ \boldsymbol{w}_{2}^{\mathrm{T}} \boldsymbol{X}_{2}$的相关系数最大, 假设2组样本均已中心化, 则相关系数定义为:

$ \rho \left( {{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \right) = \frac{{\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}}}{{{{\left( {\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1}} \right)}^{1/2}}{{\left( {\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}} \right)}^{1/2}}}} $

其中, $ {\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_{\rm{1}}}{\mathit{\boldsymbol{X}}_2}}} = {\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_2^{\rm{T}}, {\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_{\rm{1}}}{\mathit{\boldsymbol{X}}_2}}} = {\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_2^{\rm{T}}, {\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}, {\mathit{\boldsymbol{X}}_2}}} = {\mathit{\boldsymbol{X}}_2}\mathit{\boldsymbol{X}}_2^{\rm{T}}$

基于尺度不变性, CCA可转化为:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}\\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} = 1,\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} = 1 \end{array} $ (1)

引入拉格朗日乘子λ1λ2, 可得到如下拉格朗日函数:

$ \begin{array}{l} L = \mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} - \frac{{{\lambda _1}}}{2}\left( {\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} - 1} \right) - \\ \;\;\;\;\;\frac{{{\lambda _2}}}{2}\left( {\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} - 1} \right) \end{array} $ (2)

$\partial L/\partial {\mathit{\boldsymbol{w}}_1} = 0, \partial L/\partial {\mathit{\boldsymbol{w}}_2} = 0 $, 可得到下式:

$ \left\{ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} = {\lambda _1}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1}}\\ {{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} = {\lambda _2}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}} \end{array}} \right. $

进一步可表示为如下的广义特征值问题:

$ \left[ {\begin{array}{*{20}{c}} 0&{{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}}\\ {{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_1}}}}&0 \end{array}} \right]\left[ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{w}}_1}}\\ {{\mathit{\boldsymbol{w}}_2}} \end{array}} \right] = \lambda \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}}&0\\ 0&{{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{w}}_1}}\\ {{\mathit{\boldsymbol{w}}_2}} \end{array}} \right] $

由此可见, CCA仅为2个视图数据在观测空间中呈线性关系时适用, 并且CCA没有利用样本的标签信息, 属于无监督降维。

2.2 多视图典型相关分析

典型相关分析(CCA)只能有效处理双视图数据, 文献[6]提出的MCCA则将其推广到多视图数据, 其基本思想是寻找多个视图的线性变换, 对每个视图的样本数据进行投影, 使得投影向量之间的相关性最大化。

N个视图的数据$\boldsymbol{X}=\left[\boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \cdots, \boldsymbol{X}_{N}\right] $ (其中$ \boldsymbol{X}_{1} \in \mathbb{R}^{d_{1} \times n}, \boldsymbol{X}_{2} \in \mathbb{R}^{d_{2} \times n}, \cdots, \boldsymbol{X}_{N} \in \mathbb{R}^{d_{N} \times n}$), MCCA的目标即寻找一组向量$\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \cdots, \boldsymbol{w}_{N} $来最大化$ {\mathit{\boldsymbol{X}}_1}, {\mathit{\boldsymbol{X}}_2}, \cdots , {\mathit{\boldsymbol{X}}_N}$之间的相关性, 令$ \boldsymbol{C}_{\boldsymbol{X}_{k} \boldsymbol{X}_{l}}=\boldsymbol{X}_{k} \boldsymbol{X}_{l}^{\mathrm{T}}$表示第k个视图和第l个视图之间的相关矩阵, 可得到MCCA的最大化目标如下:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}, \cdots ,{\mathit{\boldsymbol{w}}_N}} \frac{1}{{N\left( {N - 1} \right)}}\sum\limits_N {\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_l}}}{\mathit{\boldsymbol{w}}_l}\left( {k \ne l} \right)} \\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_i^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_i}{\mathit{\boldsymbol{X}}_i}}}{\mathit{\boldsymbol{w}}_i} = 1,i = 1,2, \cdots ,N \end{array} $ (3)

利用拉格朗日乘子法可以得到如下形式:

$ \frac{1}{{N - 1}}\left( {\mathit{\boldsymbol{C}} - \mathit{\boldsymbol{D}}} \right)\mathit{\boldsymbol{W}} = \lambda \mathit{\boldsymbol{DW}} $

其中:

$ \mathit{\boldsymbol{C}} = \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_1^{\rm{T}}}&{{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_2^{\rm{T}}}& \cdots &{{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_N^{\rm{T}}}\\ {{\mathit{\boldsymbol{X}}_2}\mathit{\boldsymbol{X}}_1^{\rm{T}}}&{{\mathit{\boldsymbol{X}}_2}\mathit{\boldsymbol{X}}_2^{\rm{T}}}& \cdots &{{\mathit{\boldsymbol{X}}_2}\mathit{\boldsymbol{X}}_N^{\rm{T}}}\\ \vdots & \vdots &{}& \vdots \\ {{\mathit{\boldsymbol{X}}_N}\mathit{\boldsymbol{X}}_1^{\rm{T}}}&{{\mathit{\boldsymbol{X}}_N}\mathit{\boldsymbol{X}}_2^{\rm{T}}}& \cdots &{{\mathit{\boldsymbol{X}}_N}\mathit{\boldsymbol{X}}_N^{\rm{T}}} \end{array}} \right] $
$ \mathit{\boldsymbol{D}} = \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_1^{\rm{T}}}& \cdots &0\\ \vdots &{}& \vdots \\ 0& \cdots &{{\mathit{\boldsymbol{X}}_N}\mathit{\boldsymbol{X}}_N^{\rm{T}}} \end{array}} \right] $

N=2时, MCCA退化为CCA, 但是MCCA只是CCA在多视图中的延伸, 也没有考虑数据本身的监督信息。

2.3 核典型相关分析

典型相关分析(CCA)是从两视图数据中提取信息的技术, 它仅适用于线性空间中, 在非线性情况下, CCA不再适用。而支持向量机(Support Vector Machine, SVM)[48]中的核方法是一种改进该问题的有效方法[49]。SVM以其在模式识别方面的先进性能而备受关注, SVM中的核技巧不仅适用于分类, 也适用于降维算法, 如核Fisher判别分析[50]和核PCA[51]等。KCCA[48, 52]则是把核技巧融入CCA, 得到CCA的非线性扩展, 目的是把低维的数据映射到高维的特征空间(核函数空间), 并在核函数空间进行关联分析。通过表征引理[53], KCCA的优化目标可以表述为:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{A}}_1},{\mathit{\boldsymbol{A}}_2}} \mathit{\boldsymbol{A}}_1^{\rm{T}}\mathit{\boldsymbol{K}}_1^{\rm{T}}{K_2}{\mathit{\boldsymbol{A}}_2}\\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{A}}_1^{\rm{T}}\mathit{\boldsymbol{K}}_1^{\rm{T}}{K_1}{\mathit{\boldsymbol{A}}_1} = 1,\mathit{\boldsymbol{A}}_2^{\rm{T}}\mathit{\boldsymbol{K}}_2^{\rm{T}}{K_2}{\mathit{\boldsymbol{A}}_2} = 1 \end{array} $ (4)

其中, ${\mathit{\boldsymbol{K}}_1} $${\mathit{\boldsymbol{K}}_2} $是关于$ {\mathit{\boldsymbol{X}}_1}$${\mathit{\boldsymbol{X}}_2} $的核矩阵, $ {\mathit{\boldsymbol{A}}_1}$${\mathit{\boldsymbol{A}}_2} $对应视图的基矩阵, 即:

$ {\mathit{\boldsymbol{K}}_1}\left( {i,j} \right) = {\mathit{\boldsymbol{K}}_1}\left( {{\mathit{\boldsymbol{X}}_{1i}},{\mathit{\boldsymbol{X}}_{1j}}} \right) = {\phi _1}{\left( {{\mathit{\boldsymbol{X}}_{1i}}} \right)^{\rm{T}}}{\phi _1}\left( {{\mathit{\boldsymbol{X}}_{1j}}} \right) $
$ {\mathit{\boldsymbol{K}}_2}\left( {i,j} \right) = {\mathit{\boldsymbol{K}}_2}\left( {{\mathit{\boldsymbol{X}}_{2i}},{\mathit{\boldsymbol{X}}_{2j}}} \right) = {\phi _2}{\left( {{\mathit{\boldsymbol{X}}_{2i}}} \right)^{\rm{T}}}{\phi _2}\left( {{\mathit{\boldsymbol{X}}_{2j}}} \right) $
$ {\phi _1}\left( {{\mathit{\boldsymbol{X}}_1}} \right) = \left( {{\phi _1}\left( {{\mathit{\boldsymbol{X}}_{11}}} \right),{\phi _1}\left( {{\mathit{\boldsymbol{X}}_{12}}} \right), \cdots ,{\phi _1}\left( {{\mathit{\boldsymbol{X}}_{1N}}} \right)} \right) $
$ {\phi _2}\left( {{\mathit{\boldsymbol{X}}_2}} \right) = \left( {{\phi _2}\left( {{\mathit{\boldsymbol{X}}_{21}}} \right),{\phi _2}\left( {{\mathit{\boldsymbol{X}}_{22}}} \right), \cdots ,{\phi _2}\left( {{\mathit{\boldsymbol{X}}_{2N}}} \right)} \right) $

其中, $ {\phi _1}$$ {\phi _2}$分别表示作用于$ {\mathit{\boldsymbol{X}}_1}$${\mathit{\boldsymbol{X}}_2} $上的变换。

3 加入判别信息的典型相关分析方法

上文介绍的多视图降维方法未考虑样本数据的判别信息, 属于无监督学习的范畴。在实际应用中, 有些多视图数据本身包含类信息, 无监督降维无法有效提取有利于分类的低维特征。目前, 已有很多研究者将监督学习融入典型相关分析, 得到许多融入判别信息的多视图降维算法, 本节介绍其中的部分工作。

3.1 判别典型相关分析

CCA、KCCA和MCCA都属于无监督学习范畴, 它们使得样本数据在投影后的方向上相关性达到最大, 没有类信息指导的降维无法保证不同类样本在低维空间的分离性。而在分类学习中, 各样本的判别信息非常重要, CCA、KCCA和MCCA的无监督特性限制了降维后的可分离性。判别典型相关分析(DCCA)的提出弥补了CCA和MCCA的不足[32]

对于已经中心化的两组样本数据$ {\mathit{\boldsymbol{X}}_1}$${\mathit{\boldsymbol{X}}_2} $, DCCA的目标是求得一组投影向量$ {\mathit{\boldsymbol{w}}_1}$${\mathit{\boldsymbol{w}}_2} $, 使得投影后同类样本之间的相关性最大化, 同时使得不同类样本之间的相关性最小化, 其目标函数如下:

$ \begin{array}{*{20}{c}} {\mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \frac{{\mathit{\boldsymbol{w}}_1^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}}}{{{{\left( {\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_1} \cdot \mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}} \right)}^{1/2}}}}}\\ {{\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} = 1,\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} = 1} \end{array} $ (5)

其中, ${\mathit{\boldsymbol{\widetilde C}}_{{\mathit{\boldsymbol{X}}_{\rm{1}}}{\mathit{\boldsymbol{X}}_2}}} = {\mathit{\boldsymbol{C}}_w} - \eta {\mathit{\boldsymbol{C}}_b}, {\mathit{\boldsymbol{C}}_w} $定义为类内相关矩阵, ${\mathit{\boldsymbol{C}}_b} $定义为类间相关矩阵, 详细定义见文献[31], 平衡系数η>0用于调整类内相关与类间相关的相对重要性, 令: $\boldsymbol{X}_{1}=\left[\boldsymbol{X}_{11}^{(1)}, \boldsymbol{X}_{12}^{(1)}, \cdots, \boldsymbol{X}_{1 n_{1}}^{(1)}, \cdots, \boldsymbol{X}_{11}^{(c)}, \boldsymbol{X}_{12}^{(c)}, \cdots, \right. $ $ \left.X_{1 n_{c}}^{(c)}\right], X_{2}=\left[X_{21}^{(1)}, X_{22}^{(1)}, \cdots, X_{2 n_{1}}^{(1)}, \cdots, X_{21}^{(c)}, X_{22}^{(c)}, \cdots, \right.$ $ \left.\boldsymbol{X}_{2 n_{c}}^{(c)}\right], \boldsymbol{A}=\left[\begin{array}{ccc} {I_{n_{i1}} \times n_{i1}} & {\cdots} & {0} \\ {\vdots} & {I_{n_{i l} \times n_{i l}}} & {\vdots} \\ {0} & {\cdots} & {I_{n_{i c} \times n_{i c}}} \end{array}\right] \in \mathbb{R}^{N \times N}$, 其中, $ \boldsymbol{X}_{1 j}^{(i)}、\boldsymbol{X}_{2 j}^{(i)}$分别表示$ {\mathit{\boldsymbol{X}}_1}$${\mathit{\boldsymbol{X}}_2} $样本集第i类的第j个样本, ni表示第i类的样本数目, A是分块对角矩阵。因为样本已经中心化, 则有$\boldsymbol{X}_{1} I_{n}=0, \boldsymbol{X}_{2} I_{n}=0 $。文中已证${\mathit{\boldsymbol{C}}_b} = - {\mathit{\boldsymbol{C}}_w} $, 则DCCA的优化目标可转化为:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \left( {1 + \eta } \right)\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{AX}}_2^{\rm{T}}{\mathit{\boldsymbol{w}}_2}\\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} = 1,\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} = 1 \end{array} $ (6)

DCCA的求解可转化为广义特征值问题:

$ \left[ {\begin{array}{*{20}{c}} 0&{{\mathit{\boldsymbol{X}}_1}A\mathit{\boldsymbol{X}}_2^{\rm{T}}}\\ {{\mathit{\boldsymbol{X}}_2}A\mathit{\boldsymbol{X}}_1^{\rm{T}}}&0 \end{array}} \right]\left[ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{w}}_1}}\\ {{\mathit{\boldsymbol{w}}_2}} \end{array}} \right] = \lambda \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{X}}_1}\mathit{\boldsymbol{X}}_1^{\rm{T}}}&0\\ 0&{{\mathit{\boldsymbol{X}}_2}\mathit{\boldsymbol{X}}_2^{\rm{T}}} \end{array}} \right]\left[ {\begin{array}{*{20}{l}} {{\mathit{\boldsymbol{w}}_1}}\\ {{\mathit{\boldsymbol{w}}_2}} \end{array}} \right] $

CCA与DCCA的区别在于DCCA利用了数据的判别信息, 因此, DCCA能提取有利于分类的低维特征。DCCA同CCA相似, 仅适用于双视图数据。DMCCA[29]是DCCA的多视图扩展。

3.2 多视图判别典型相关分析

DMCCA作为DCCA的扩展, 将2个视图的数据扩展到多个视图的数据$ {\mathit{\boldsymbol{X}}_1}, {\mathit{\boldsymbol{X}}_2}, \cdots , {\mathit{\boldsymbol{X}}_N}$, 求得一组投影向量, 使得投影后同类样本之间的相关性最大化, 同时使得不同类样本之间的相关性最小化[33], 得到DMCCA的优化目标函数:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}, \cdots ,{\mathit{\boldsymbol{w}}_N}} \frac{1}{{N\left( {N - 1} \right)}}\sum\limits_N {\mathit{\boldsymbol{w}}_k^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_l}}}{\mathit{\boldsymbol{w}}_l}} \\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_i^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_i}{\mathit{\boldsymbol{X}}_i}}}{\mathit{\boldsymbol{w}}_i} = 1,i = 1,2, \cdots ,N \end{array} $ (7)

其中, $ {{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_l}}} = {\mathit{\boldsymbol{C}}_w} - \eta {\mathit{\boldsymbol{C}}_b}, {\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_k}}} = \mathit{\boldsymbol{X}}_k^{\rm{T}}{\mathit{\boldsymbol{X}}_k}, {\mathit{\boldsymbol{C}}_w}$表示类内相关矩阵, ${\mathit{\boldsymbol{C}}_b} $表示类间相关矩阵, 参数η>0是平衡系数。通过证明可以得到:

$ \frac{1}{{N\left( {N - 1} \right)}}\sum\limits_N {\mathit{\boldsymbol{w}}_k^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_l}}}{\mathit{\boldsymbol{w}}_l}} = \frac{{1 + \eta }}{{N\left( {N - 1} \right)}}\sum\limits_{k,l = 1}^N {\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{X}}_k}A\mathit{\boldsymbol{X}}_l^{\rm{T}}{\mathit{\boldsymbol{w}}_l}} $

约束条件为:

$ \sum {\mathit{\boldsymbol{w}}_k^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_k}{\mathit{\boldsymbol{X}}_k}}}{\mathit{\boldsymbol{w}}_k}} = N $

利用拉格朗日法, 可以得到如下形式:

$ \frac{{1 + \eta }}{{N - 1}}\left( {\mathit{\boldsymbol{C}} - \mathit{\boldsymbol{D}}} \right)\mathit{\boldsymbol{W}} = \lambda \mathit{\boldsymbol{DW}} $ (8)

其中, $ \boldsymbol{W}=\left[\boldsymbol{w}_{1}^{\mathrm{T}}, \boldsymbol{w}_{2}^{\mathrm{T}}, \cdots, \boldsymbol{w}_{N}^{\mathrm{T}}\right]$, 矩阵CD见文献[33]。显然, DMCCA求解可以转化为广义特征值问题。

3.3 局部判别典型相关分析

局部判别典型相关分析(LDCCA)是在CCA的基础上同时融入了样本之间的近邻信息和判别信息[36], 通过最大化局部类内相关矩阵和最小化局部类间相关矩阵, 可以有效实现不同类样本的分离, 并进一步提出了核LDCCA(KLDCCA)。

给定已中心化的双视图数据$ \boldsymbol{X}_{1} \in \mathbb{R}^{d_{1} \times n}, \boldsymbol{X}_{2} \in \mathbb{R}^{d_{2} \times n}$, LDCCA旨在寻找一组投影向量$ {\mathit{\boldsymbol{w}}_1}$${\mathit{\boldsymbol{w}}_2} $(其中$\boldsymbol{w}_{1} \in \mathbb{R}^{d_{1}}, \boldsymbol{w}_{2} \in \mathbb{R}^{d_{2}} $)来最大化k个近邻样本的类内相关性并且最小化k个近邻样本的类间相关性, LDCCA的目标函数为:

$ \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \frac{{\mathit{\boldsymbol{w}}_1^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}}}{{{{\left( {\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} \cdot \mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}} \right)}^{1/2}}}} $ (9)

其中, ${\mathit{\boldsymbol{\widetilde C}}_{{\mathit{\boldsymbol{X}}_{\rm{1}}}{\mathit{\boldsymbol{X}}_2}}} = {\mathit{\boldsymbol{C}}_w} - \eta {\mathit{\boldsymbol{C}}_b}, {\mathit{\boldsymbol{C}}_w} $为局部类内协方差矩阵, Cb定义为局部类间协方差矩阵, 详细定义见文献[37], η为平衡系数。

与CCA类似, LDCCA的解等价于以下最优问题:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \mathit{\boldsymbol{w}}_1^{\rm{T}}{{\mathit{\boldsymbol{\tilde C}}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2}\\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_1}{\mathit{\boldsymbol{X}}_1}}}{\mathit{\boldsymbol{w}}_1} = 1,\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{C}}_{{\mathit{\boldsymbol{X}}_2}{\mathit{\boldsymbol{X}}_2}}}{\mathit{\boldsymbol{w}}_2} = 1 \end{array} $ (10)

利用拉格朗日乘子法也可转换为广义特征值问题, 文献[37]进一步将其核化, 得到核局部判别典型相关分析(KLDCCA)以适应于非线性模型。

3.4 广义多视图分析

文献[38]从线性判别分析(LDA)入手[54], 将LDA从单视图推广到双视图, 从而得到:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}} \mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{A}}_1}{\mathit{\boldsymbol{w}}_1} + \mu \mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{A}}_2}{\mathit{\boldsymbol{w}}_2}\\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{B}}_1}{\mathit{\boldsymbol{w}}_1} + \gamma \mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{B}}_2}{\mathit{\boldsymbol{w}}_2} = 1 \end{array} $ (11)

式(11)仅考虑了各个视图内部类信息, 之后借助于CCA, 进一步考虑了视图间的配对信息, 使得配对样本降维之后同类样本尽量相近, 不同类样本尽量分离, 得到GMA的目标函数为:

$ \begin{array}{l} \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_1},{\mathit{\boldsymbol{w}}_2}, \cdots ,{\mathit{\boldsymbol{w}}_N}} \sum\limits_{i = 1}^N {{\mu _i}} \mathit{\boldsymbol{w}}_i^{\rm{T}}{\mathit{\boldsymbol{A}}_i}{\mathit{\boldsymbol{w}}_i} + \sum\limits_{i < j} {2{\lambda _{ij}}\mathit{\boldsymbol{w}}_i^{\rm{T}}{\mathit{\boldsymbol{X}}_i}\mathit{\boldsymbol{X}}_j^{\rm{T}}{\mathit{\boldsymbol{w}}_j}} \\ {\rm{s}}.\;{\rm{t}}.\;\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{B}}_1}{\mathit{\boldsymbol{w}}_1} + \sum\limits_{i > 1} {{\gamma _i}\mathit{\boldsymbol{w}}_i^{\rm{T}}{\mathit{\boldsymbol{B}}_i}{\mathit{\boldsymbol{w}}_i}} = 1 \end{array} $ (12)

其中, AiBi分别表示每个视图内的类内和类间散度矩阵, 权重μi(i=1, 2, …, N)用于平衡不同视图的重要性, 参数$ \gamma_{i}=\operatorname{tr}\left(\boldsymbol{B}_{i-1}\right) / \operatorname{tr}\left(\boldsymbol{B}_{i}\right), i=2, 3, \cdots, N$对总体性能影响不大。

3.5 判别型典型相关

判别型典型相关(DCC)是由文献[55]基于典型相关性(Canonical Correlations, CC)提出的。CC是由文献[56-57]进行图像集匹配时提出的, 文献[58-59]给出了典型相关的非线性扩展。与传统的基于参数分布和非参数样本的方法相比, 典型相关性可有效提升算法的准确性、效率和鲁棒性等。

首先定义典型相关的概念, 设$\boldsymbol{P}_{1} \in \mathbb{R}^{n \times d}、\boldsymbol{P}_{2} \in \mathbb{R}^{n \times d}$是2个线性子空间的酉正交矩阵。对$ \boldsymbol{P}_{1}^{\mathrm{T}} \boldsymbol{P}_{2}$进行SVD分解得到:

$ \mathit{\boldsymbol{P}}_1^{\rm{T}}{\mathit{\boldsymbol{P}}_2} = {\mathit{\boldsymbol{Q}}_{12}}\mathit{\boldsymbol{ \boldsymbol{\varLambda} Q}}_{21}^{\rm{T}} $
$ \mathit{\boldsymbol{ \boldsymbol{\varLambda} }} = {\rm{diag}}\left( {{\eta _1},{\eta _2}, \cdots ,{\eta _d}} \right) $

其中, Q12Q21是正交矩阵, 典型相关性即为$\left\{ {{\eta _1}, {\eta _2}, \cdots , {\eta _d}} \right\} $, 对应的典型相关向量为$ \mathit{\boldsymbol{U}} = {\mathit{\boldsymbol{P}}_1}{\mathit{\boldsymbol{Q}}_{12}} = \left[ {{u_1}} \right., \left. {{u_2}, \cdots , {u_d}} \right], \mathit{\boldsymbol{V}} = {\mathit{\boldsymbol{P}}_2}{\mathit{\boldsymbol{Q}}_{21}} = \left[ {{v_1}, {v_2}, \cdots , {v_d}} \right]$。而DCC的目标则是使任意一对数据集之间的类内关联度最大, 同时使类间关联度最小, 其目标函数定义如下:

$ W = \max \frac{{\sum\limits_{i = 1}^m {\sum\limits_{k \in {S_i}} {{F_{ik}}} } }}{{\sum\limits_{i = 1}^m {\sum\limits_{l \in {\mathit{\boldsymbol{B}}_i}} {{F_{il}}} } }} $ (13)

其中, ${F_{ij}} = \mathop {\max }\limits_{{\mathit{\boldsymbol{Q}}_{ij}}, {\mathit{\boldsymbol{Q}}_{ij}}} {\mathop{\rm tr}\nolimits} \left( {{\mathit{\boldsymbol{W}}^{\rm{T}}}{\mathit{\boldsymbol{P}}_j}{\mathit{\boldsymbol{Q}}_{ji}}\mathit{\boldsymbol{Q}}_{ij}^{\rm{T}}\mathit{\boldsymbol{P}}_i^{\rm{T}}\mathit{\boldsymbol{W}}} \right), $ ${\mathit{\boldsymbol{S}}_i} = \left\{ {j|{\mathit{\boldsymbol{X}}_j} \in } \right.\left. {{\mathit{\boldsymbol{C}}_i}} \right\}, {\mathit{\boldsymbol{B}}_i} = \left\{ {j|{\mathit{\boldsymbol{X}}_j} \notin {{\boldsymbol{C}}_i}} \right\}, {\mathit{\boldsymbol{S}}_i}、{\mathit{\boldsymbol{B}}_i} $分别表示第i类的类内数据集和类间数据集, 定义方法与文献[60]中的定义方法相同。W的优化问题涉及QPT等变量。由于其他变量不能用T来显式表示, W的封闭形式的解也很难找到。DCC是基于数据集的典型相关性进行对象识别而提出的判别型学习算法。相关实验结果表明, DCC能够有效地进行分类学习, 拥有较高的分类准确性。

3.6 多视图判别分析

多视图判别分析(MvDA)将视图内的判别信息和视图间的判别信息结合起来, 目标是为了得到N个映射, $\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \cdots, \boldsymbol{w}_{N} $N个视图投影到一个公共判别空间中, 使类内相关性最大化且类间相关性最小化[61]

给定样本数据为$ {\mathit{\boldsymbol{X}}_1}, {\mathit{\boldsymbol{X}}_2}, \cdots , {\mathit{\boldsymbol{X}}_N}$, 假定样本已经中心化, 定义$ \boldsymbol{X}_{j}=\left\{\boldsymbol{X}_{i j k} | i=1, 2, \cdots, c ; k=1, 2, \cdots, n_{i j}\right\}$表示样本来自第j个视图(j=1, 2, …, N), 其中, $\boldsymbol{X}_{i j k} \in \mathbb{R}^{d_{j}} $表示第i类的第j个视图的第k个样本, c是类的总数目, nij表示第j个视图属于第i类的样本数量, 令: $ Y=\left\{Y_{i j k}=\boldsymbol{w}_{j}^{\mathrm{T}} \boldsymbol{X}_{i j k} | i=1, 2, \cdots, c ; j=1, 2, \cdots, N\right.; \left.k=1, 2, \cdots, n_{i j}\right\}$表示数据样本投影到公共子空间的投影。

MvDA的目标函数可表示为广义瑞利熵[62]:

$ \mathop {\max }\limits_{{\mathit{\boldsymbol{W}}_1},{\mathit{\boldsymbol{W}}_2}, \cdots ,{\mathit{\boldsymbol{W}}_N}} \frac{{{\rm{tr}}\left( {{\mathit{\boldsymbol{S}}_B}} \right)}}{{{\rm{tr}}\left( {{\mathit{\boldsymbol{S}}_W}} \right)}} $ (14)

其中, SWSB可以表示为:

$ {\mathit{\boldsymbol{S}}_w} = \sum\limits_{i = 1}^c {\sum\limits_{j = 1}^N {\sum\limits_{k = 1}^{{n_{ij}}} {\left( {{Y_{ijk}} - {\mu _i}} \right)} } } {\left( {{Y_{ijk}} - {\mu _i}} \right)^{\rm{T}}} $
$ {\mathit{\boldsymbol{S}}_B} = \sum {{n_i}} \left( {{\mu _i} - \mu } \right){\left( {{\mu _i} - \mu } \right)^{\rm{T}}} $

其中, μi是公共子空间中所有视图中第i类样本的平均值, μ是公共子空间中所有视图的所有样本的平均值, ni是所有视图中第i个样本的总数, n是所有视图中所有样本个数。

3.7 多视图共分量判别分析

MvCCDA将数据包含的监督信息和局部的几何结构信息合并到共用的分量中, 学习一种判别的公共子空间[63], MvCCDA是一种交叉视图算法, 可以用交叉算法来有效地优化。令第i组样$\left\{x_{1}^{i}, x_{2}^{i}, \cdots, x_{n}^{i}\right\} $的投影向量$\left\{\boldsymbol{P}_{1}^{\mathrm{T}} x_{1}^{i}, \boldsymbol{P}_{2}^{\mathrm{T}} x_{2}^{i}, \cdots, \boldsymbol{P}_{n}^{\mathrm{T}} x_{n}^{i}\right\} $收敛到公共分量$z^{i}\left(z^{i} \in\right. \left.\mathbb{R}^{d}\right) $, 则可得MvCCDA的目标函数为:

$ \begin{array}{l} \mathop {\min }\limits_{z,P} \frac{1}{{mn}}\sum\limits_{i = 1}^m {\sum\limits_{v = 1}^n {{{\log }_a}} } \left( {1 + \frac{{\left\| {{z^i} - \mathit{\boldsymbol{P}}_v^{\rm{T}}x_v^i} \right\|_2^2}}{{{a^2}}}} \right) + \\ \;\;\;\;\;{\lambda _1}\sum\limits_{j = 1}^n {\left\| {{\mathit{\boldsymbol{P}}_v}} \right\|_F^2} + {\lambda _2}\sum\limits_{v = 1}^n {\left\| {{z^i} - {\mathit{\boldsymbol{l}}^i}} \right\|_F^2} + \\ \;\;\;\;\;{\lambda _3} \cdot \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^m {\left\| {{z^i} - {z^j}} \right\|_2^2\mathit{\boldsymbol{W}}\left( {i,j} \right)} } \end{array} $

其中, a是一个常量, $ \lambda_{i}(i=1, 2, 3)$是正则化参数, $\left\{ {{\mathit{\boldsymbol{l}}^i}} \right\}_{i = 1}^m $为公共分量$ \left\{ {{z^i}} \right\}_{i = 1}^m$的标签指示向量。第1项使得不同视图的配对样本降维后尽量相近, 第2项保持投影矩阵Pv的稀疏性, 第3项使得每个样本向量的低维投影与其类标号尽可能相近, 第4项表示局部一致性正则化函数, 文献[63]进一步给出了核多视图共分量判别分析。

4 算法基本信息和常见数据集 4.1 算法基本信息

本文中所涉及的算法基本信息如表 1所示, 其中, √表示存在。

下载CSV 表 1 各算法基本信息 Table 1 Basic information of each algorithm

根据表 1并结合文中对各算法的描述, 通过进行对比分析可得如下结论:

1) CCA、MCCA、KCCA只利用配对信息进行相关分析, 使得配对的样本数据之间的相关性最大。

2) DCCA、DMCCA不仅利用了数据的配对信息, 还利用了数据的监督信息, LDCCA则在DCCA的基础上又考虑了各个视图间的近邻信息, 这3个算法的公共目标是投影后同类样本之间的相关性最大化, 不同类样本之间的相关性最小化。

3) 与前述算法相比, MvDA则是LDA从单视图到多视图的推广, 在计算类内差异和类间差异时考虑了视图内和视图间的相关性, 并且将多个视图中的样本投影到一个公共空间中, MvCCDA在MvDA的基础上考虑了近邻信息, 并且期望第i组配对样本的投影向量收敛到一个公共分量, 能够更好地区分视图间的差异性, 提高跨视图分类的精确度, 并且还可以处理非线性问题。

4) 除DCC利用迭代求解外, 其余各种方法均有解析解, 这利于算法的非线性拓展。

图 1为基于CCA的算法发展体系的整体结构。

Download:
图 1 CCA算法发展体系整体结构 Fig. 1 CCA algorithm development system overall structure
4.2 常见的多视图数据集

为对多视图学习的研究提供实验支持, 本文描述了一些广泛使用的多视图数据集并且给出了相应的获取方法。

4.2.1 多特征手写数据库

多特征手写数据库(Multiple Feature Database, MFD)是由一组手写数字(0~9)组成的数据集[64], 其中每个图像已经数值化, 每个数字(类)都有200个样本(共2 000个样本), 这些样本在数据集中由6个特征集(视图)表示。表 2是所抽取的6个特征的名称、缩写和维数[65]

下载CSV 表 2 多特征手写数据库 Table 2 Multi-feature handwriting database
4.2.2 广告数据集

广告数据集[66]包括3 279个网页, 每个网页已被处理为稀疏的0-1二值向量, 其中, 459个是广告(正面样本), 2 820个非广告(负面样本), 每个网页已经被处理为稀疏的0-1二值向量, 表 3为Ads数据集中的5种特征。

下载CSV 表 3 Ads数据集 Table 3 Ads dataset
4.2.3 Web_KB数据集

Web_KB数据集[66]收集了康奈尔大学、华盛顿大学、威斯康辛大学和德克萨斯大学的计算机系网页的1 051个双视图页面, 分为课程类和非课程类, 课程类有230个100维的样本, 非课程类有821个100维的样本。其中每个页面对应于fulltext和inlinks, 分别表示该页面的文本和指向该页面的超链接文本。

4.2.4 Multi-PIE数据集

Multi-PIE (Pose, Illumination, and Expression)数据集[67]被用来评估面部识别的姿态, 它包含了75万张不同视图下的337个人的人脸图片。研究对象在15个视点和19个光照条件下拍摄了一系列面部表情。此外, 还获得了高分辨率的正面图像。图 2所示为5个人每人2幅正面图像。

Download:
图 2 Multi-PIE数据集图片 Fig. 2 Multi-PIE dataset image
4.2.5 中大人脸速写数据集

中大人脸速写数据集是研究人脸速写合成和人脸速写识别的数据库, 它包括来自FERET数据库[68]的1 194人。对于每个人来说, 在观看这张照片时, 都会有一张带有灯光变化的脸部照片和一张由艺术家绘制的带有形状夸张的素描, 图 3所示为6个人的脸部照片和素描照片。

Download:
图 3 中大人脸速写数据集图片 Fig. 3 Cuhk's face sketch dataset image
4.2.6 HFB数据集

HFB(HeterogeneousFaces Biometrics)数据集[69]包含来自100个受试者的人脸图像, 包括4个近红外(NIR)图像和4个视觉(VIS)图像, 它们各自没有任何自然配对, 其中这2种模式都是图像但是来自不同的视图, 如图 4所示。

Download:
图 4 HFB数据集图片 Fig. 4 HFB dataset image
4.2.7 ORL人脸数据集

ORL人脸数据集, 又称AT&T人脸数据集[70], 包含40个不同受试者, 其中每人有10幅不同的图像, 图像是在不同的时间、不同的照明、不同面部表情(开/闭着眼睛, 微笑/不笑)和不同面部的细节(眼镜/不带眼镜)情况下分别拍摄的, 图像为均匀黑色背景的正面人脸(允许有小角度偏离)。图 5为1个人的5幅不同的图像。

Download:
图 5 ORL人脸数据集图片 Fig. 5 ORL face dataset picture
4.2.8 3Sources数据集

3Sources数据集收集了BBC、路透社和卫报3个著名的新闻社的948篇新闻文章, 涵盖2009年2月—4月期间的416篇不同新闻故事。每个故事都用6个主题标签中的一个或多个手工标注, 即商业、娱乐、健康、政治、体育、科技。它们大致对应于3个新闻源使用的主要部分标题, 共包含3个不同的视图。

5 存在的问题及发展趋势 5.1 多视图降维算法存在的问题

虽然众多研究者已对多视图数据的降维做了许多工作, 但仍有很多问题需要进一步研究。目前所存在的问题主要有以下4个方面:

1) 现阶段数据规模越来越庞大, 而大多数基于CCA的降维算法涉及到矩阵的QR分解或奇异值分解, 对于小型数据集性能较好, 但是对于大型数据集的计算速度非常慢, 时间复杂度较高, 可能会导致维数灾难[71], 这使得处理大型多视图数据集变得非常困难。因此, 如何有效处理此类问题是众多研究者所面临的一个难题。

2) 本文所介绍的算法大都为线性降维, 在实际应用中很多数据是非线性可分的。目前, 针对此问题常用的方法有两种:一种方法是运用核技巧将数据映射到高维特征空间, 从而实现原始数据的非线性降维[35]; 另一种方法是与流行学习相结合, 利用各个样本的近邻信息进行相关分析[72], 但是这2种方法受噪声影响比较大, 导致算法性能不稳定。

3) 受收集环境和实际应用场景的限制, 收集到的数据往往是不完整的, 而现有的多数多视图降维算法, 不但要求多视图数据集是完整的, 而且要求不同视图的数据完全配对, 所以这些方法无法有效处理视图数据缺失的情形, 从而限制了应用范围。

4) 在现实生活中, 多视图(多于2个视图)数据随处可见。本文介绍的多视图降维算法大多是基于2个视图降维算法的简单拓展, 即通过对目标函数进行加法运算, 将所有的视图结合起来。这种方法忽略了数据本身的高阶统计信息(相关信息), 影响了算法性能的提升。

5.2 发展趋势

针对目前多视图降维算法所存在的问题, 本节给出一些值得研究的方向, 主要分为以下4个方面:

1) 与稀疏学习相结合。数据的稀疏性可以降低算法的时间复杂度和存储空间, 并且稀疏表示使得模型的可解释性提高, 所以将稀疏学习与多视图降维算法相结合, 有利于提高算法的性能[73]。文献[74]提出了LS_CCA(Large-Scale CCA)算法, 该算法是一种可以在大型稀疏数据集上快速计算CCA的迭代算法。文献[75]将稀疏表示嵌入到CCA中, 提出了稀疏典型相关分析, 使得当数据维数较高时, 同样能有效地对数据进行相关性分析。此外, 其他一些多视图降维算法也需要设计出大规模的学习算法, 将稀疏学习与数据的监督信息相结合是一种处理大量数据的潜在算法。

2) 与深度学习相结合。近年来, 深度神经网络在人脸识别、目标分类[76]和目标检测[77]等任务中表现优异, 对于大规模的多视图学习任务, 它们的性能明显优于其他方法。将多视图降维算法与深度学习方法相结合, 可提高其性能。文献[78]提出了深度典型判别分析(Deep Canonical Correlation Analysis, Deep CCA)算法, 避免了将数据映射到更高维的特征空间, 从而降低时间复杂度。因此, 将多视图降维算法与深度学习相结合, 设计出更多高效的算法将是机器学习领域的一大趋势。

3) 与贝叶斯方法相结合。因为贝叶斯方法可以对变量进行积分与求和来处理不完整的数据, 所以它是解决多视图降维算法中视图数据缺失问题的一种可行方法。文献[79-80]利用贝叶斯方法对视图中的缺失数据进行重构, 进而处理多视图数据缺失的聚类问题。受此启发, 可将贝叶斯方法与多视图降维算法相结合, 来解决数据不完整的多视图降维问题。

4) 与张量相结合。与向量相比, 张量对数据的表示更精确、更有效, 可以最大程度地保留数据的原始结构和判别信息, 并且基于张量的算法减少了待估参数的个数, 可以有效降低算法的时间复杂度。文献[81]提出的Tensor CCA(TCCA)算法将张量应用于CCA, TCCA通过分析不同视图的张量协方差, 直接最大化多个(多于2个)视图的典型相关性, 可以有效地解决多个视图的特征提取问题。因此, 将多视图降维算法与张量表示相结合, 是一个值得研究的方向。

6 结束语

现实生活中的许多场景可以从多个视角来描述事物, 从而得到多视图数据, 多视图数据能更全面地描述事件所具有的信息, 因此, 针对此类数据的多视图学习受到研究人员越来越多的关注。本文介绍了多视图数据降维算法的发展过程, 并对其进行分析和对比, 列出常用的数据集, 从而为研究人员进行研究提供方便。讨论多视图降维算法目前所存在的问题, 并给出研究的方向。本文研究对进一步促进多视图降维算法及实际应用具有一定的参考价值。

参考文献
[1]
SU Shuzhi.Theoretical research and application of multi-view canonical correlation analysis[D]. Wuxi: Jiangnan University, 2017.(in Chinese)
苏树智.多视图典型相关分析的理论研究和应用[D].无锡: 江南大学, 2017. http://cdmd.cnki.com.cn/Article/CDMD-10295-1017273000.htm
[2]
RUPING S, SCHEFFER T. Learning with multiple views[J]. Multiple Views, 2005, 27(1): 203-233.
[3]
XU Chang, TAO Dacheng, XU Chao.A survey on multi-view learning[EB/OL].[2018-10-20]. http://www.oalib.com/paper/4064776.
[4]
ZHOU Zhihua, WANG Jue. Machine learning and its applications[M]. Beijing: Tsinghua University Press, 2011. (in Chinese)
周志华, 王珏. 机器学习及其应用[M]. 北京: 清华大学出版社, 2011.
[5]
COLWELL R P. Applied multivariate statistical analysis[M]. Berlin, Germany: Springer, 2012.
[6]
NIELSENA A. Multiset canonical correlations analysis and multispectral, truly multi-temporal remote sensing data[J]. IEEE Transactions on Image Processing, 2002, 11(3): 293-305. DOI:10.1109/83.988962
[7]
YAROWSKY D.Unsupervised word sense disambiguation rivaling supervised methods[C]//Proceedings of IEEE Annual Meeting of the Association for Computational Linguistics.Washington D.C., USA: IEEE Press, 1995: 189-196.
[8]
LIU Yanxun.Multi-view learning research and its algorithm improvement[D]. Xi'an: Xidian University of Electronic Technology, 2015.(in Chinese)
刘彦勋.多视图学习研究及其算法改进[D].西安: 西安电子科技大学, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10701-1016249005.htm
[9]
CHEN Xiaohong.Generalized correlation analysis research of data dimensionality reduction[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2011.(in Chinese)
陈晓红.数据降维的广义相关分析研究[D].南京: 南京航空航天大学, 2011.
[10]
BELLMAN R. Adaptive control processes:a guided tour[M]. Princeton, USA: Princeton University Press, 1961.
[11]
YANG Pei, GAO Wei.Multi-view discriminant transfer learning[C]//Proceedings of International Joint Conference on Artificial Intelligence.[S.1.]: AAAI Press, 2013: 1848-1854. http://www.researchgate.net/publication/262356032_Multi-view_discriminant_transfer_learning
[12]
TAN Ben. Multi-transfer:transfer learning with multiple views and multiple sources[J]. Statistical Analysis and Data Mining, 2014, 7(4): 282-293. DOI:10.1002/sam.11226
[13]
ZHANG Dan, HE Jingrui, LIU Yan, et al.Multi-view transfer learning with a large margin approach[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York, USA: ACM Press, 2011: 1208-1216. http://www.researchgate.net/publication/221653531_Multi-view_transfer_learning_with_a_large_margin_approach
[14]
LUO Yong'en, HU Jicheng, XU Qian. Multimodal correlation feature processing method based on hypergraph[J]. Computer Engineering, 2017, 43(1): 226-230. (in Chinese)
罗永恩, 胡继承, 徐茜. 基于超图的多模态关联特征处理方法[J]. 计算机工程, 2017, 43(1): 226-230. DOI:10.3969/j.issn.1000-3428.2017.01.039
[15]
GONEN M, GONEN G B, GURGEN F. Bayesian multi-view dimensionality reduction for learning predictive subspaces[J]. Frontiers in Artificial Intelligence & Applications, 2014, 263: 387-392.
[16]
EATON E, DESJANDINS M, JACOB S.Multi-view clustering with constraint propagation for learning with an incomplete mapping between views[C]//Proceedings of ACM International Conference on Information and Knowledge Management.New York, USA: ACM Press, 2010: 125-136.
[17]
LIU Jianwei, LI Shuangcheng, LUO Xionglin. Research of sampling-based multi-modal distribution clustering algorithm[J]. Computer Engineering, 2010, 36(24): 153-155. (in Chinese)
刘建伟, 李双成, 罗雄麟. 基于抽样的多模态分布聚类算法研究[J]. 计算机工程, 2010, 36(24): 153-155. DOI:10.3969/j.issn.1000-3428.2010.24.055
[18]
LI Yeqing, NIE Feiping, HUANG Heng, et al.Large-scale multi-view spectral clustering via bipartite graph[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.[S.1.]: AAAI Press, 2015: 568-575.
[19]
DU Mingyang, BI Daping, WANG Shuliang. Multiple target tracking algorithm based on adaptive IMM algorithm in clutter[J]. Modern Radar, 2018, 40(7): 47-53. (in Chinese)
杜明洋, 毕大平, 王树亮. 杂波背景下自适应IMM机动目标跟踪算法[J]. 现代雷达, 2018, 40(7): 47-53.
[20]
DING Xuan. Multimodal biometric identification tech-nology and its standardization trends[J]. computer knowledge and technology, 2017, 13(36): 153-154. (in Chinese)
丁璇. 多模态生物特征识别技术及其标准化动态[J]. 电脑知识与技术, 2017, 13(36): 153-154.
[21]
SUN Shiliang. Multi-view laplacian support vector machines[J]. Applied Intelligence, 2013, 41(4): 209-222.
[22]
TAO Hong, HOU Chengping, NIE Feiping, et al. Scalable multi-view semi-supervised classification via adaptive regression[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4283-4296. DOI:10.1109/TIP.2017.2717191
[23]
XIE Xijiong, SUN Shiliang. Multi-view Laplacian twin support vector machines[J]. Applied Intelligence, 2014, 41(4): 1059-1068. DOI:10.1007/s10489-014-0563-8
[24]
ZHANG Liang, MA Bingpeng.Adaptively unified semi-supervised learning for cross-modal retrieval[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.Washington D.C., USA: IEEE Press, 2017: 354-365.
[25]
JIN Xin, ZHUANG Fuzhen, WANG Shuhui, et al.Shared structure learning for multiple tasks with multiple views[C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin, Germany: Springer, 2013: 353-368.
[26]
CHEN Jianhui, TANG Lei, LIU Jun, et al.A convex formulation for learning shared structures from multiple tasks[C]//Proceedings of International Conference on Machine Learning.New York, USA: ACM Press, 2009: 137-144.
[27]
CAO Xiaochun, ZHANG Changqiang, FU Huazhu, et al.Diversity-induced multi-view subspace clustering[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 586-594.
[28]
WILCOX R R. Testing the hypothesis of independence two stes of variates[J]. Multivariate Behavioral Research, 1995, 30(2): 213-225. DOI:10.1207/s15327906mbr3002_5
[29]
ANDERSON T W. Relations between two sets of variates[J]. Biometrike, 1936, 28(3/4): 151-161.
[30]
HOTELING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3/4): 321-377. DOI:10.2307/2333955
[31]
EFRON B. Canonical analysis of several sets of variables[J]. Biometrika, 1971, 58(3): 433-451. DOI:10.1093/biomet/58.3.433
[32]
SUN Tingkai, CHEN Songcan, YANG Jingyu, et al.A novel method of combined feature extraction for recognition[C]//Proceedings of the 8th IEEE International Conference on Data Mining.[S.1.]: IEEE Computer Society, 2008: 1043-1048
[33]
GAO Lei, QI Lin, CHEN Enqing, et al.Discriminative multiple canonical correlation analysis for multi-feature information fusion[C]//Proceedings of IEEE ISM'12.Washington D.C., USA: IEEE Press, 2012: 36-43.
[34]
MELZER T, REITER M, BISCHOF H. Kernel canonical correlation analysis[J]. Journal of Financial Economic Policy, 2001, 6(2): 179-196.
[35]
SUN Tingkai, CHEN Songcan, JIN Zhong, et al.Kernelized discriminative canonical correlation analysis[C]//Proceedings of International Conference on Wavelet Analysis and Pattern Recognition.Washington D.C., USA: IEEE Press, 2008: 1283-1287.
[36]
YU Kai, YU Shipeng. Multi-output regularized feature projection[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(12): 1600-1613. DOI:10.1109/TKDE.2006.194
[37]
PENG Yan, ZHANG Daoqiang, ZHANG Jianchuan. A new canonical correlation analysis algorithm with local discrimina-tion[J]. Neural Processing Letters, 2010, 31(1): 1-15. DOI:10.1007/s11063-009-9123-3
[38]
SHARMA A, KUMAR A, DAUME H, et al.Generalized multi-view analysis: a discriminative latent space[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.[S.1.]: IEEE Computer Society, 2012: 2160-2167.
[39]
KIM T K, KITTLER J, CIPOLLA R. Discriminative learning and recognition of image set classes using canonical correlations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1005-1018. DOI:10.1109/TPAMI.2007.1037
[40]
ZHENG Wenming, ZHOU Xiaoyan, ZOU Cairong, et al. Facial expression recognition using kernel canonical correlation analysis[J]. IEEE Transactions on Neural Networks, 2006, 17(1): 233-238.
[41]
VLASSIS N, MOTOMURA Y, KROSE B.Supervised linear feature extraction for mobile robot localization[C]//Proceedings of IEEE International Conference on Robotics and Automation.Washington D.C., USA: IEEE Press, 2000: 2979-2984.
[42]
MELZER T, REITER M, BICSHOF H. Appearance models based on kernel canonical correlation analysis[J]. Pattern Recognition, 2003, 36(9): 1961-1971. DOI:10.1016/S0031-3203(03)00058-X
[43]
ABRAHAM B, MEROLA G. Dimensionality reduction approach to multivariate prediction[J]. Canadian Journal of Statistics, 2001, 29(2): 191-200. DOI:10.2307/3316072
[44]
ZHANG Fan. Partial differential equation and edge detection based image denoising algorithm[J]. Computer Engineering and Design, 2014, 35(2): 562-566. (in Chinese)
张帆. 基于偏微分方程与边缘检测的图像去噪算法[J]. 计算机工程与设计, 2014, 35(2): 562-566. DOI:10.3969/j.issn.1000-7024.2014.02.039
[45]
HARDOON D, SZEDMAK S, SHAWE-TAYLOR J. Canonical correlation analysis:an overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664. DOI:10.1162/0899766042321814
[46]
LI Y, SHAWE-TAYLOR J. Using KCCA for Japanese English cross-language information retrieval and document classification[J]. Journal of Intelligent Information Systems, 2006, 27(2): 117-133. DOI:10.1007/s10844-006-1627-y
[47]
FUKUMIZU K, BACH F R. Statistical consistency of kernel canonical correlation analysis[J]. Journal of Machine Learning Research, 2007(8): 361-383.
[48]
VAPNIK V N. An overview of statistical learning theory[J]. IEEE Transactions on Neural Networks, 1999, 10(5): 988-999. DOI:10.1109/72.788640
[49]
MELZER T, REITER M, BISCHOF H. Kernel canonical correlation analysis[J]. Journal of Financial Economic Policy, 2012, 6(2): 179-196.
[50]
MIKA S, RATSCH G, WESTON J, et al.Fisher discriminant analysis with kernels[C]//Proceedings of IEEE Workshop on Neural Networks for Signal Processing.Washington D.C., USA: IEEE Press, 1999: 41-48. http://www.researchgate.net/publication/2725804_Fisher_Discriminant_Analysis_With_Kernels
[51]
BURGES C J C, SMOLA A J.Advances in kernel methods: support vector learning[M].[S.1.]: MIT Press, 1999.
[52]
ARAKI T, HINO H, AKAHO S. A kernel method to extract common features based on mutual information[M]. Berlin, Germany: Springer, 2014: 26-34.
[53]
LONG Mingsheng, WANG Jianmin, DING Guiguang, et al. Transfer joint matching for unsupervised domain adaptation[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2014: 1410-1417.
[54]
BELHUNEUR P N, HESPANHA J P, KRIEGMAN D J. Fisherfaces:recognition using class specific linear projection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 19(7): 711-720.
[55]
KIM T K, KITTLER J, CIPOLLA R.Learning discriminative canonical correlations for object recognition with image sets[C]//Proceedings of European Conference on Computer Vision.Berlin, Germany: Springer, 2006: 251-262.
[56]
FUKUI K, YAMAGUCHI O.Face recognition using multi-viewpoint patterns for robot vision[C]//Proceedings of the 20th International Symposium on Robotics Research.Berlin, Germany: Springer, 2005: 192-201.
[57]
YAMAGUCHI O, FUKUI K, MAEDA K.Face recognition using temporal image sequence[C]//Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition.Washington D.C., USA: IEEE Press, 1998: 318-326.
[58]
WOLF L, SHASHUA A. Learning over sets using kernel principal angles[J]. Journal of Machine Learning Research, 2004, 4(6): 913-931.
[59]
KIM T K, ARANDJELOVIC O, CIPOLLA R. Boosted manifold principal angles for image set-based recognition[J]. Pattern Recognition, 2007, 40(9): 2475-2484. DOI:10.1016/j.patcog.2006.12.030
[60]
BRESSAN M, VITRIA J. Nonparametric discriminant analysis and nearest neighbor classification[J]. Pattern Recognition Letters, 2003, 24(15): 2743-2749. DOI:10.1016/S0167-8655(03)00117-X
[61]
KAN Meina, SHAN Shiguang, ZHANG Haihong, et al.Multi-view discriminant analysis[C]//Proceedings of European Conference on Computer Vision.Berlin, Germany: Springer, 2012: 808-821.
[62]
DUDA R O, HART P E, STORK D G.Pattern classification[M].[S.1.]: Wiley-Interscience, 2001.
[63]
YOU Xingge, X U, Jiamiao, YUAN Wei, et al. Multi-view common component discriminant analysis for cross-view classification[J]. Pattern Recognition, 2019, 92: 37-51. DOI:10.1016/j.patcog.2019.03.008
[64]
XIE Xijiong, SUN Shiliang. Multi-view twin support vector machines[J]. Intelligent Data Analysis, 2015, 19(4): 701-712. DOI:10.3233/IDA-150740
[65]
SUN Tingkai.Research and application of enhanced canonical correlation analysis[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2006.(in Chinese)
孙廷凯.增强型典型相关分析研究与应用[D].南京: 南京航空航天大学, 2006.
[66]
SUN Shiliang, CHAO Guoqing.Multi-view maximum entropy discrimination[C]//Proceedings of the 23th International Joint Conference on Artificial Intelligence.Washington D.C., USA: IEEE Press, 2013: 1706-1712.
[67]
SIM T, BAKER S, BSAT M. The CMU pose, illumination, and expression database[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1615-1618. DOI:10.1109/TPAMI.2003.1251154
[68]
PHILLIPS P J, MOON H, RIZVI S.A, et al. The FERET evaluation methodology for face-recognition algorithms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(10): 1090-1104. DOI:10.1109/34.879790
[69]
LI S Z, LEI Z, AO M.The HFB face database for heterogeneous face biometrics research[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2009: 1-8.
[70]
SAMARIA F S, HARTER A C.Parameterization of a stochastic model for human face identification[C]//Proceedings of the 2nd IEEE Workshop on Applications of Computer Vision.Washington D.C., USA: IEEE Press, 1994: 138-142. http://www.researchgate.net/publication/3561324_Parameterisation_of_a_stochastic_model_for_human_faceidentification
[71]
HORIKAWA Y.Use of autocorrelation kernels in kernel canonical correlation analysis for texture classification[C]//Proceedings of International Conference on Neural Information Processing.Berlin, Germany: Springer, 2004: 1235-1240.
[72]
TENENBAUM J B, SILVA V D, LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290: 2319-2323. DOI:10.1126/science.290.5500.2319
[73]
MU Lisheng, LV Yingchun. Face recognition method based on sparse representation and feature fusion[J]. Modern Electronics Technique, 2018, 41(9): 83-86. (in Chinese)
木立生, 吕迎春. 基于稀疏表示与特征融合的人脸识别方法[J]. 现代电子技术, 2018, 41(9): 83-86.
[74]
LU Yichao, FOSTER D P.Large scale canonical correlation analysis with iterative least squares[C]//Proceedings of International Conference on Neural Information Processing Systems.[S.1.]: MIT Press, 2014: 91-99.
[75]
PARKHOMENKO E, TRITCHLER D, BEYENE J. Sparse canonical correlation analysis with application to genomic data integration[J]. Statistical Applications in Genetics and Molecular Biology, 2009, 8(1): 1-34.
[76]
DU Changshun, HUANG Lei. Sentiment analysis with piecewise convolution neural network[J]. Computer Engineering and Science, 2017, 39(1): 173-179. (in Chinese)
杜昌顺, 黄磊. 分段卷积神经网络在文本情感分析中的应用[J]. 计算机工程与科学, 2017, 39(1): 173-179. DOI:10.3969/j.issn.1007-130X.2017.01.024
[77]
YU Donghang, ZHANG Baoming, GUO Haitao, et al. Joint salient feature and convolutional neural network for ship detection in remote sensing images[J]. Journal of Image and Graphics, 2018, 23(12): 1947-1958. (in Chinese)
余东行, 张保明, 郭海涛, 等. 联合显著性特征与卷积神经网络的遥感影像舰船检测[J]. 中国图象图形学报, 2018, 23(12): 1947-1958. DOI:10.11834/jig.180323
[78]
ANDREW G, ARORA R, BILMES J, et al.Deep canonical correlation analysis[C]//Proceedings of 30th International Conference on Machine Learning.Georgia, USA: [s.n.], 2013: 1247-1255. http://www.researchgate.net/publication/255482849_Deep_Canonical_Correlation_Analysis
[79]
LI Shaoyun, JIANG Yuan, ZHOU Zhuihua.Partial multi-view clustering[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence.[S.1.]: AAAI Press, 2014: 1968-1974.
[80]
SHAO W, HE L, PHILIP S Y.Multiple incomplete views clustering via weighted nonnegative matrix factorization with L2, 1 regularization[C]//Proceedings of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin, Germany: Springer, 2015: 318-334.
[81]
LUO Y, TAO D, RAMAMOHANARAO K, et al. Tensor canonical correlation analysis for multi-view dimension reduction[J]. IEEE transactions on Knowledge and Data Engineering, 2015, 27(11): 3111-3124. DOI:10.1109/TKDE.2015.2445757