多尺度多核高斯过程隐变量模型

引用本文

周培春, 吴兰岸. 多尺度多核高斯过程隐变量模型[J]. 计算机工程, 2021, 47(2), 285-292. DOI: 10.19678/j.issn.1000-3428.0056556.

ZHOU Peichun, WU Lan'an. Multi-Scale Multi-Kernel Gaussian Process Latent Variable Model[J]. Computer Engineering, 2021, 47(2), 285-292. DOI: 10.19678/j.issn.1000-3428.0056556.

基金项目

国家自然科学基金(61763010)

通信作者

吴兰岸(通信作者), 副教授、博士

作者简介

周培春(1970-), 男, 讲师、硕士, 主研方向为数据挖掘、计算数学及其应用技术

文章历史

收稿日期：2019-11-10
修回日期：2019-12-30

Contents Abstract Full text Figures/Tables PDF

多尺度多核高斯过程隐变量模型

周培春¹ , 吴兰岸²

1. 玉林师范学院计算机科学与工程学院, 广西玉林 537000;
2. 南宁师范大学计算机与信息工程学院, 南宁 530299

收稿日期：2019-11-10；修回日期：2019-12-30

基金项目：国家自然科学基金(61763010)

作者简介：周培春(1970-), 男, 讲师、硕士, 主研方向为数据挖掘、计算数学及其应用技术.

通信作者：吴兰岸(通信作者), 副教授、博士.

E-mail: wlafan@qq.com

摘要：高斯过程隐变量模型（GPLVM）作为一种无监督的贝叶斯非参数降维模型，无法有效利用数据所包含的语义标记信息，同时其建模过程中假设观测变量的各特征相互独立，忽略了特征之间的空间结构信息。为解决上述问题，采用图像池化操作获得不同尺度的特征表示，利用线性投影方式将不同尺度的图像投影到低维隐空间进行特征融合，并将融合特征和数据标记分别作为输入和输出，构建多尺度多核高斯过程隐变量模型（MSMK-GPLVM），通过图像数据与数据标记的关联实现模型监督学习，同时对GPLVM和线性投影权重矩阵进行联合学习以提高分类性能。实验结果表明，MSMK-GPLVM能够有效利用图像空间结构信息和语义标记信息，相比其他隐变量模型具有更强的数据降维和分类能力。

Multi-Scale Multi-Kernel Gaussian Process Latent Variable Model

ZHOU Peichun¹ , WU Lan'an²

1. School of Computer Science and Engineering, Yulin Normal College, Yulin, Guangxi 537000, China;
2. School of Computer and Information Engineering, Nanning Normal University, Nanning 530299, China

Abstract: As an unsupervised Bayesian non-parameter dimension reduction model, the Gaussian Process Latent Variable Model(GPLVM) fails to efficiently utilize semantic label information of data.Moreover, it just assumes that the features of all observed variables are independent in modeling, and thus ignores the spatial information among the features.To address the two issues, this paper proposes a Multi-Scale Multi-Kernel Gaussian Process Latent Variable Model(MSMK-GPLVM).The model projects the images of different scales into a low-dimensional latent space through linear projection for feature fusion.A MSMK-GPLVM is constructed by taking the fused features as the input and the data labels as the output, and it realizes supervised learning through the connection between image data and data labels, and jointly learns the GPLVM and linear projection weight matrix to improve the classification performance.Experimental results show that MSMK-GPLVM can effectively utilize the spatial structure information of images and the semantic label information.Compared with other latent variable models, it has better performance in dimension reduction and classification.

0 概述

在机器学习和模式识别任务中，图像数据作为一种特殊的数据形式广泛应用于人脸识别^[1]、表情识别^[2]、年龄估计^[3]等场景中，而此类数据通常具有较高的维度导致机器学习模型计算复杂度高且容易产生过拟合等维数灾难问题。为应对上述挑战，主成分分析^[4]、高斯过程隐变量模型（Gaussian Process Latent Variable Model，GPLVM）^[5]、线性判别分析^[6]、自编码器^[7]和字典学习^[8]等数据降维和特征学习方法陆续被提出并取得了较好的成果，其中GPLVM作为一种贝叶斯非参数降维模型，具有非线性学习、不确定性量化和非参数柔性建模等特性^[5]，近年来在图像识别领域得到广泛应用^[9-11]。然而原始GPLVM作为一种无监督的降维模型，利用高斯过程构建由隐变量空间到观测变量空间的映射，进而通过求解最大化似然函数的方式获得最佳隐变量并实现数据降维。

图像数据信息通常分为像素值信息、特征空间信息和语义标记信息3类。像素值信息指图像中各像素值的大小所包含的信息，通常可以被PCA、字典学习、GPLVM等降维方法直接利用，从而实现数据降维。特征空间信息指图像像素及其局部区域之间所具有的相关性信息^[12-13]。图像语义标记信息指人们通过自身认知和图像所包含的内容为图像标注的信息^[14-15]，如图像注释、类别标记等。然而，原始GPLVM在建模过程中仅假设观测变量的特征之间相互独立，因此通常无法有效利用图像数据自身包含的特征空间结构信息和语义标记信息。为此，本文对原始GPLVM进行改进，提出一种多尺度多核高斯过程隐变量模型（Multi-Scale Multi-Kernel Gaussian Process Latent Variable Model，MSMK-GPLVM）。

1 相关工作 1.1 高斯过程隐变量模型

GPLVM是一种无监督的概率、非线性、隐变量模型。在GPLVM定义中，假设已观测到N个样本X=[x₁，x₂，…，x_N]^T∈$\mathbb{R}$^N×D，其中x_n∈$\mathbb{R}$^D表示第n个样本对应的输入，本文目标是求解每个观测变量x_n对应的隐变量z_n∈$\mathbb{R}$^Q，Q≪D，因此GPLVM可以通过求解观测变量对应隐变量的方式实现数据降维。具体地，GPLVM假设每个样本x_n的生成过程如下：

$ {\mathit{\boldsymbol{x}}_{nd}} = {f_d}\left( {{\mathit{\boldsymbol{z}}_n}} \right) + {\varepsilon _{nd}} $

(1)

其中：x_nd为第n个样本的第d个特征；ε_nd为噪声项且服从高斯分布p（ε_n）=N（ε_n|0，σ²）；函数f_d（·）具有高斯过程先验，因此f_d~N（0，K），f_d表示函数f_d（·）在隐变量集合Z=[z₁，z₂，…，z_N]上对应N个输出组成的向量；K表示核函数k（·，·）在隐变量集合Z上对应的核矩阵K_ij=k（z_i，z_j）。通过将中间变量f_d进行积分可以得到如下边际似然函数：

$ \begin{array}{l} p\left( {\mathit{\boldsymbol{X}}|\mathit{\boldsymbol{Z}}, \mathit{\boldsymbol{\theta }}} \right) = \prod\limits_{d = 1}^D {p\left( {{\mathit{\boldsymbol{x}}_{:, d}}|\mathit{\boldsymbol{Z}}, \mathit{\boldsymbol{\theta }}} \right)} = \prod\limits_{d = 1}^D {\frac{1}{{{{\left( {2{\rm{ \mathsf{ π} }}} \right)}^{N/2}}{{\left| {\mathit{\boldsymbol{K + }}{\sigma ^2}\mathit{\boldsymbol{I}}} \right|}^{1/2}}}}} .\\ \exp \left( { - \frac{1}{2}\mathit{\boldsymbol{x}}_{:, d}^{\rm{T}}{{\left( {\mathit{\boldsymbol{K}} + {\sigma ^2}\mathit{\boldsymbol{I}}} \right)}^{ - 1}}{\mathit{\boldsymbol{x}}_{:, d}}} \right) \end{array} $

(2)

其中：θ表示GPLVM的核函数及噪声分布中包含的超参数；σ²表示噪声方差；x_：，d表示矩阵X的第d列元素组成的向量；I表示单位矩阵；|K+σ²I|表示矩阵（K+σ²I）的行列式。在模型优化过程中，GPLVM通过最大化上述似然函数的方式对隐变量Z和超参数θ进行求解，最终实现数据降维。

尽管GPLVM具有较强的非线性学习和不确定性量化等能力，但其却无法有效利用数据的语义标记信息，从而导致在图像分类、人脸识别等任务中的性能无法满足用户需求，其原因主要为GPLVM在模型构建过程中没有对数据标记的生成过程进行有效的建模和表示，因此无法直接将其应用于监督学习任务中。

1.2 监督型高斯过程隐变量模型

为实现GPLVM的监督学习并充分利用数据中包含的语义标记信息，近年来已有一些监督型GPLVM被提出，其中主要包括判别高斯过程隐变量模型（D-GPLVM）^[14]、监督高斯过程隐变量模型（S-GPLVM）^[15]和监督隐线性高斯过程隐变量模型（SLLGPLVM）^[15]。为对监督型GPLVM进行详细说明，假设除了观测变量X，本文还获取了每个样本对应的类别标记y∈$\mathbb{R}$^N，其中第n个元素y_n∈{1，2，…，C}表示第n个样本所属类别，C表示类别总数。

为利用数据标记信息，D-GPLVM构建一种基于广义判别分析（Generalized Discriminant Analysis，GDA）的隐变量先验分布，具体如下：

$ p\left( \mathit{\boldsymbol{X}} \right) = \frac{1}{{{Z_d}}}\exp \left\{ { - \frac{1}{{\sigma _d^2}}{J^{ - 1}}} \right\} $

(3)

其中：Z_d为归一化常量；σ_d²表示先验的全局伸缩因子；J为依赖于X的函数，J（X）=tr（S_ω^-1S_b），S_ω和S_b分别为在隐变量X上依据标记y计算出的类内和类间散度矩阵。将式（3）中的先验分布加入GPLVM中可以获得隐变量X后验分布，并通过最大化此后验分布或等价地最小化式（4）获得最佳的隐变量和超参数。

$ {L_{\rm{S}}} = L + \frac{1}{{\sigma _d^2}}{\rm{tr}}\left( {\mathit{\boldsymbol{S}}_{\rm{ \mathsf{ ω} }}^{ - 1}{\mathit{\boldsymbol{S}}_{\rm{b}}}} \right) $

(4)

其中，L表示GPLVM的负对数边际似然，L_S表示加入监督信息后的对数后验分布。值得注意的是在式（4）中为便于描述，本文省略了对核函数超参数先验的假设，因此在式（4）中缺少文献[15]中所述的超参数正则化项。可以看出，D-GPLVM为GDA与GPLVM结合而成的模型，GDA先验为GPLVM提供了数据标记中包含的语义判别信息。同时可以看出，当σ_d→0时，D-GPLVM退化为GDA；反之，当σ_d→+∞时，D-GPLVM退化为GPLVM。

与D-GPLVM不同，S-GPLVM通过分别构建由隐变量到观测变量的类别标记映射方式实现了监督型GPLVM。将样本标记y_n转化为由1和-1组成的向量的形式，从而获得样本的标记矩阵Y=[y₁，y₂，…，y_N]^T∈$\mathbb{R}$^N×C。若第n个样本属于第c类，则其对应的标记向量y_n中第c个元素的值为1，其他元素的值为-1。S-GPLVM假设X和Y均是由隐变量Z通过服从高斯过程的函数生成，且X和Y在Z条件下相互独立，进而可以获得隐变量Z的后验分布为：

$ p\left( {\mathit{\boldsymbol{Z}}|\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \frac{{p\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}|\mathit{\boldsymbol{Z}}} \right)p\left( \mathit{\boldsymbol{Z}} \right)}}{{p\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right)}} $

(5)

最终得到如下目标函数：

$ {L_{\rm{S}}} = L + {L_\mathit{\boldsymbol{y}}} - \ln p\left( \mathit{\boldsymbol{Z}} \right) $

(6)

其中，L_y=$\frac{LN}{2}$ln2π+$\frac{L}{2}$ln$\left| {{\mathit{\boldsymbol{K}}_\mathit{\boldsymbol{y}}} + \sigma _y^2\mathit{\boldsymbol{I}}} \right| - \frac{1}{2}$tr（Y^T（K_y+$\sigma _{\mathrm{y}}^{2}$I）-¹Y），K_y表示与Y生成相关的核矩阵，$\mathit{\boldsymbol{\sigma }}_\mathit{\boldsymbol{y}}^2$表示噪声方差。可以看出，S-GPLVM通过使X和Y共享隐变量Z的方式实现了语义标记信息和输入信息的联合建模。这使得隐变量Z具有更优的判别能力，有效提升了GPLVM在分类和回归任务中的性能。

SLLGPLVM通过直接构建由观测变量X到隐变量Z的投影方式实现了GPLVM的监督学习。与原始GPLVM类似，其假设隐变量可以通过一个服从高斯过程的函数投影并加入噪声得到观测变量。然而SLLGPLVM假设GPLVM生成标记Y而不是原始GPLVM中的X，同时其假设隐变量可以通过一个线性投影函数由输入变量X得到，从而构建由X到Z和由Z到Y的映射关系，使得GPLVM可以显式地嵌入标记信息。整个生成过程具体如下：

$ {\mathit{\boldsymbol{y}}_{nd}} = g\left( {{\mathit{\boldsymbol{z}}_n}} \right) + {\varepsilon _{nd}} = {\mathit{\boldsymbol{f}}_d}\left( {\mathit{\boldsymbol{W}}{\mathit{\boldsymbol{x}}_n}} \right) + {\varepsilon _{nd}} $

(7)

其中，g（·）表示线性投影函数，可以看出SLLGPLVM将隐变量学习问题转化为参数矩阵W的学习问题，因此其具有更少的参数量，同时能够有效解决D-GPLVM中先验信息与真实数据信息不相符的问题，以及S-GPLVM中需要存储和操作两个核矩阵K和K_y所导致的高复杂度问题。

1.3 现有模型存在的问题

虽然现有监督型GPLVM已在某些特定任务中有效提升了GPLVM隐变量的判别性能，但是这些模型仍然存在一定问题从而限制了其应用范围，如D-GPLVM和S-GPLVM在对新样本进行预测时需要通过优化求解方式计算出对应新样本的隐变量，因此预测的时间复杂度过高，限制了其在快速预测任务中的应用。尽管这两个模型均可以通过添加反向约束^[16]的方式实现非优化式的预测，但该反向约束同时也限制了模型的表示能力。SLLGPLVM利用构建由输入变量到隐变量的线性投影方式实现新样本的快速预测，然而此类简单的线性映射通常无法满足真实应用场景中复杂非线性任务的需求。另外，现有监督型GPLVM采用相对简单的方式对标记信息进行建模，一般情况下无法挖掘出真正的复杂语义信息，从而造成标记信息流失。

除了上述问题外，现有GPLVM模型在处理图像数据时无法有效利用数据的空间结构信息。如图 1所示，两个相邻的像素值a₁和a₂通常具有一定的相关性和相似性。同理，两个局部区域之间通常也存在较强的相关性，如图 1中b₁和b₂所示。由于现有GPLVM并没有对观测变量特征之间的相关性进行任何的假设和建模，无法进一步提升模型性能，因此本文主要研究在处理图像数据时如何能够兼顾语义标记信息和空间结构信息来构建GPLVM，从而有效提升其在人脸识别、图像分类等应用中的综合性能。

	Download: JPG larger image
图 1 图像相邻像素及区域之间的相关性 Fig. 1 Correlations between adjacent pixels and regions of the image

2 MSMK-GPLVM构建与优化 2.1 模型构建

为便于描述，本文后续内容将使用上文中的变量定义。在模型构建过程中，主要从图像空间结构信息和语义标记信息两方面对GPLVM的扩展方式进行分析与研究。

在图像空间结构信息利用方面，本文采用池化方法将图像数据通过多个不同尺度的池化操作投影成多个不同尺度的图像。具体地，对于第n个样本x_n∈$\mathbb{R}$^D，首先根据图像结构信息将其包含的元素进行重新排列，进而得到其原始的矩阵表示为${\mathit{\boldsymbol{\tilde X}}_n}$∈$\mathbb{R}$^H×W，其中H×W=D。然后通过P个不同尺度（s₁，s₂，…，s_P）的池化操作将图像${\mathit{\boldsymbol{\tilde X}}_n}$投影为P个不同尺度的图像（$\mathit{\boldsymbol{\tilde X}}_n^1 \in{\mathbb{R}} {^{{H_1} \times {W_1}}}, \mathit{\boldsymbol{\tilde X}}_n^2 \in{\mathbb{R}} {^{{H_2} \times {W_2}}}, \cdots , \mathit{\boldsymbol{\tilde X}}_n^P \in {\mathbb{R}}{^{{H_P} \times {W_P}}}$）。通过此类将相邻区域特征进行聚合统计的方式，模型可以充分利用图像数据的空间相关性，即图像相邻像素和区域之间具有较强的相关性。

为将不同尺度的图像信息进行融合，通过线性投影方式将不同尺度的图像投影到同一个空间中并进行融合。对于第n个样本对应的第p个图像$\mathit{\boldsymbol{\tilde X}}_n^P \in {\mathbb{R}}{^{{H_P} \times {W_P}}}$，将图像$\mathit{\boldsymbol{\tilde X}}_n^P$按列进行向量化可以得到其向量表示为$\mathit{\boldsymbol{\tilde x}}_n^p = {\rm{vec}}\left( {\mathit{\boldsymbol{\tilde X}}_n^p} \right) \in {\mathbb{R}}{^{{H_p}{W_p}}}$。设其对应的线性投影权重和偏置项分别为Φ_p∈${\mathbb{R}}{^{{H_p}{W_p} \times Q}}$和β_p∈${\mathbb{R}}$^Q，因此可以通过如下线性变换方式将图像投影到Q维子空间：

$ \mathit{\boldsymbol{\tilde z}}_n^p = \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p^{\rm{T}}\mathit{\boldsymbol{\tilde x}}_n^p + {\mathit{\boldsymbol{\beta }}_p}, n = 1, 2, \cdots , N, p = 1, 2, \cdots , P $

(8)

通过将每个样本（不同尺度的图像）对应的隐变量进行非线性变换再相加的方式，得到第n个样本对应的隐变量：

$ {\mathit{\boldsymbol{z}}_n} = \sum\limits_{p = 1}^P {a\left( {\mathit{\boldsymbol{\tilde z}}_n^p} \right)} , n = 1, 2, \cdots , N $

(9)

其中a（·）表示神经网络中的激活函数。由上述构建过程可知，本文提出的多尺度特征融合方法与神经网络中的空间金字塔池化方法^[17]非常相似，然而两者也有明显区别：1）空间金字塔池化主要是为了解决卷积神经网络无法处理任意尺度的图像而设计的方法，其进行池化时的核大小是根据图像大小自动确定，而本文多尺度特征融合方法主要是将其应用于图像多尺度特征提取，其处理的原始图像大小相同；2）本文模型在特征融合时使用一个非线性变换函数，因此其具有更强的非线性学习能力，而空间金字塔池化通过将多尺度特征合并为一个大向量的方式实现多尺度特征融合，其非线性学习能力主要体现在后续的全连接层中。当a（·）为线性函数时，本文多尺度特征融合方法可以退化为包含线性投影层的空间金字塔池化方法。

在图像语义标记信息利用方面，本文使用一个多核高斯过程模型^[17-19]来构建由隐变量到样本标记的映射。具体地，定义由隐变量到样本标记的生成过程，具体如下：

$ \begin{array}{l} {\mathit{\boldsymbol{y}}_{nc}} = {f_c}\left( {{\mathit{\boldsymbol{z}}_n}} \right) + {\varepsilon _{nc}}, n = 1, 2, \cdots , N, c = 1, 2, \cdots , C\\ {\varepsilon _{nc}} \sim {\mathcal{N}}\left( {0, {\sigma ^2}} \right), n = 1, 2, \cdots , N, c = 1, 2, \cdots , C\\ {\mathit{\boldsymbol{f}}_c} \sim {\mathcal{GP}}\left( {0, \sum\limits_{m = 1}^M {\alpha _m^2{\mathit{\boldsymbol{K}}_m}} } \right), c = 1, 2, \cdots C \end{array} $

其中，ε_nc为服从高斯分布的噪声，f_c（·）为服从多核高斯过程先验分布的函数，$\left\{ {{\alpha _m}} \right\}_{m = 1}^M$为M个核函数组合的权重。可以看出，f_c服从的高斯过程先验是一个多核高斯过程，其中的协方差矩阵由多个核矩阵加权而成。因此，可以认为本文模型是一种多核高斯过程模型。从上述样本标记生成过程可知，MSMK-GPLVM通过构建多核高斯过程模型的方式显著地提升了由隐变量到标记映射函数的表示能力，并且可以高效地建模数据标记信息。同时，MSMK-GPLVM与多尺度图像特征提取相结合能够有效地对隐变量和数据生成过程进行模拟，提升模型判别和特征学习能力。MSMK-GPLVM结构如图 2所示。

	Download: JPG larger image
图 2 MSMK-GPLVM结构 Fig. 2 Structure of MSMK-GPLVM

2.2 模型优化

在模型求解过程中，由MSMK-GPLVM生成过程可知噪声ε_nc服从高斯分布，因此似然函数可写为以下形式：

$ p\left( {\mathit{\boldsymbol{Y}}|\mathit{\boldsymbol{F}}} \right) = \prod\limits_{n = 1}^N {\prod\limits_{c = 1}^C {{\mathcal{N}}\left( {{\mathit{\boldsymbol{y}}_{nc}}|{\mathit{\boldsymbol{f}}_c}\left( {{\mathit{\boldsymbol{z}}_n}} \right), {\sigma ^2}} \right)} } $

(10)

其中，F=[f₁，f₂，…，f_C]∈${\mathbb{R}}$^N×C表示由函数$\left\{ {{\mathit{\boldsymbol{f}}_c}} \right\}_{c = 1}^C$的输出组成的矩阵，向量f_c的第n个元素值为f_c（z_n）。依据贝叶斯定理，可以将中间变量F进行积分以获得以下边际似然函数：

$ p\left( \mathit{\boldsymbol{Y}} \right) = \int {p\left( {\mathit{\boldsymbol{Y}}|\mathit{\boldsymbol{F}}} \right)} p\left( \mathit{\boldsymbol{F}} \right){\rm{d}}\mathit{\boldsymbol{F}} $

(11)

由$\left\{ {{\mathit{\boldsymbol{f}}_c}} \right\}_{c = 1}^C$服从高斯过程先验分布可知${\mathit{\boldsymbol{f}}_c} \sim {\mathcal{N}}\left( {{\mathit{\boldsymbol{f}}_c}|0, \sum\limits_{m = 1}^M {{\alpha _{Fm}}{\mathit{\boldsymbol{K}}_m}} } \right)$，将其代入式（11），可得到边际分布为：

$ \begin{array}{l} p\left( \mathit{\boldsymbol{Y}} \right) = \frac{1}{{{{\left( {2{\rm{ \mathsf{ π} }}} \right)}^{CN/2}}{{\left| {{\mathit{\boldsymbol{K}}_{{\rm{com}}}} + {\sigma ^2}I} \right|}^{C/2}}}}.\\ \exp \left\{ {\frac{1}{2}{\rm{tr}}\left( {{\mathit{\boldsymbol{Y}}^{\rm{T}}}{{\left( {{\mathit{\boldsymbol{K}}_{{\rm{com}}}} + {\sigma ^2}\mathit{\boldsymbol{I}}} \right)}^{ - 1}}\mathit{\boldsymbol{Y}}} \right)} \right\} \end{array} $

其中，K_com=$\sum\limits_{m = 1}^M {{\alpha _m}{\mathit{\boldsymbol{K}}_m}} $K_m，在优化过程中可以通过最大化如式（12）所示的对数边际似然的方式获得最佳的投影参数$\left\{ {{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}, {\mathit{\boldsymbol{\beta }}_p}} \right\}_{p = 1}^P$、超参数θ={α₁，α₂，…，α_M，σ}以及核函数中的超参数{φ₁，φ₂，…，φ_M}。

$ L = - \frac{{CN}}{2}\ln \left( {2{\rm{ \mathsf{ π} }}} \right) - \frac{C}{2}\ln \left| {{\mathit{\boldsymbol{K}}_{\rm{s}}}} \right| - \frac{1}{2}{\rm{tr}}\left( {{\mathit{\boldsymbol{Y}}^{\rm{T}}}\mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1}\mathit{\boldsymbol{Y}}} \right) $

(12)

其中，K_s=K_com+σ²I，在模型求解过程中可以使用基于梯度的方法来优化最佳参数，因此需要求解出L关于所有参数的梯度。Φ_p和β_p的梯度计算相似，所以本文仅给出关于Φ_p梯度的计算过程，具体如下：

$ \frac{{\partial L}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}}} = \frac{{\partial L}}{{\partial \mathit{\boldsymbol{Z}}}}\frac{{\partial \mathit{\boldsymbol{Z}}}}{{\partial {\mathit{\boldsymbol{A}}^p}}}\frac{{\partial {\mathit{\boldsymbol{A}}^p}}}{{\partial {{\mathit{\boldsymbol{\tilde Z}}}_p}}}\frac{{\partial {{\mathit{\boldsymbol{\tilde Z}}}_p}}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}}} = \frac{{\partial L}}{{\partial \mathit{\boldsymbol{Z}}}}\frac{{\partial {\mathit{\boldsymbol{A}}^p}}}{{\partial {{\mathit{\boldsymbol{\tilde Z}}}_p}}}\frac{{\partial {{\mathit{\boldsymbol{\tilde Z}}}_p}}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}}} $

(13)

其中：Z=[z₁，z₂，…，z_N]^T；A^p=[a（$\tilde z_1^p$），a（$\tilde z_2^p$），…，a（$\tilde z_N^p$）]^T；${\mathit{\boldsymbol{\tilde Z}}^p} = {\left[ {\tilde z_1^p, \tilde z_2^p, \cdots , \tilde z_N^p} \right]^{\rm{T}}}$；$\frac{{\partial {{\mathit{\boldsymbol{\tilde Z}}}^p}}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}^p}}}$可以根据线性函数求导公式直接得出；$\frac{{\partial {\mathit{\boldsymbol{A}}^p}}}{{\partial {{\mathit{\boldsymbol{\tilde Z}}}^p}}}$利用激活函数进行求解且可根据神经网络的结论直接得出。因此，式（13）计算的关键是$\frac{{\partial L}}{{\partial \mathit{\boldsymbol{Z}}}}$的求解，根据链式求导规则得出：

$ \frac{{\partial L}}{{\partial \mathit{\boldsymbol{Z}}}} = \frac{{\partial L}}{{\partial {K_{\rm{s}}}}}\frac{{\partial {K_{\rm{s}}}}}{{\partial \mathit{\boldsymbol{Z}}}} $

(14)

由于核矩阵K_s关于隐变量Z的导数取决于核函数的形式，因此通常多数核函数（如径向基核函数等）可以直接得出其关于隐变量的导数，而对数似然函数关于核矩阵导数的计算过程具体如下：

$ \frac{{\partial L}}{{\partial {\mathit{\boldsymbol{K}}_{\rm{s}}}}} = \mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1}\mathit{\boldsymbol{Y}}{\mathit{\boldsymbol{Y}}^{\rm{T}}}\mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1} - \mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1} $

(15)

通过式（13）~式（15）得出Φ_p的梯度。同理，超参数θ的导数可以通过式（16）获得：

$ \frac{{\partial L}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}\mathit{\boldsymbol{\theta }}}} = \frac{{\partial L}}{{\partial {\mathit{\boldsymbol{K}}_{\rm{s}}}}}\frac{{\partial {\mathit{\boldsymbol{K}}_{\rm{s}}}}}{{\partial {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}\mathit{\boldsymbol{\theta }}}} $

(16)

基于上述求导过程，利用基于梯度的优化方法对MSMK-GPLVM中的变量进行优化求解。MSMK-GPLVM优化算法具体如下：

算法 1 MSMK-GPLVM优化算法

输入样本矩阵X，样本标记矩阵Y，隐变量维度Q，线性投影个数P，核函数个数M，池化操作的核尺度s₁，s₂，…，s_P

输出权重和偏置参数$\left\{ {{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_p}, {\mathit{\boldsymbol{\beta }}_p}} \right\}_{p = 1}^p$，超参数θ={α₁，α₂，…，α_M，σ}，核函数中的超参数φ={φ₁，φ₂，…，φ_M}

1.初始化模型中所有参数$\left\{ {{{\rm{\Phi }}_{\rm{p}}}, {{\rm{ \mathsf{ β} }}_{\rm{p}}}} \right\}_{{\rm{p}} = 1}^{\rm{p}}$、θ={α₁，α₂，…，α_M，σ}、φ={φ₁，φ₂，…，φ_M}

2.根据池化的核尺度s₁，s₂，…，s_P对X中的样本进行池化操作，获得样本不同尺度的向量表示$\left\{ {{\rm{\tilde x}}_{\rm{n}}^{\rm{p}}} \right\}_{{\rm{n}} = 1, {\rm{p}} = 1}^{{\rm{N}}, {\rm{P}}}$

3.For t=1 to T

4.使用式（8）和$\left\{ {\Phi _{\rm{p}}^{\left( {{\rm{t}} - 1} \right)}, {\rm{ \mathsf{ β} }}_{\rm{p}}^{\left( {{\rm{t}} - 1} \right)}} \right\}_{{\rm{p}} = 1}^{\rm{p}}$计算${{\rm{\tilde Z}}^{{\rm{p}}\left( {{\rm{t}} - 1} \right)}}$

5.使用式（9）计算Z^（t-1）

6.使用φ^（t-1）计算核矩阵$\left\{ {{\rm{K}}_{\rm{m}}^{\left( {{\rm{t}} - 1} \right)}} \right\}_{{\rm{m}} = 1}^{\rm{M}}$

7.使用θ^（t-1）计算${\rm{K}}_{\rm{s}}^{\left( {{\rm{t}} - 1} \right)}$

8.使用式（12）计算L^（t-1）

9.使用式（13）~式（16）计算出的梯度对变量进行更新，得到更新后的参数值$\left\{ {\Phi _{\rm{p}}^{\left( {\rm{t}} \right)}, {\rm{ \mathsf{ β} }}_{\rm{p}}^{\left( {\rm{t}} \right)}} \right\}_{{\rm{p}} = 1}^{\rm{P}}$、φ^（t）和θ^（t）

10.如果Error（t）=|L^（t）-L^（t-1）| < τ，则模型收敛，跳出循环

2.3 新样本预测

在新样本预测中，本文目标是预测给定新样本x_*所属的类别标记。与原始GPLVM、D-GPLVM和S-GPLVM相比，MSMK-GPLVM的显著优势是可以直接对新样本进行分类，而GPLVM、D-GPLVM和S-GPLVM在预测出对应的隐变量z_*后，通常需要使用KNN算法对样本进行分类。在MSMK-GPLVM预测过程中，首先依据式（8）和式（9）计算出新样本对应的隐变量z_*，然后根据高斯过程模型的预测方法得出对应目标值服从高斯分布，其均值和方差计算如下：

$ \mu {\left( {{\mathit{\boldsymbol{z}}_*}} \right)_c} = {k_{{\rm{com}}}}\left( {{\mathit{\boldsymbol{z}}_*}, \mathit{\boldsymbol{Z}}} \right)\mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1}{\mathit{\boldsymbol{y}}_{:, c}}, c = 1, 2, \cdots , C $

(17)

$ \begin{array}{l} {\mathop{\rm var}} {\left( {{\mathit{\boldsymbol{z}}_*}} \right)_c} = {k_{{\rm{com}}}}\left( {{\mathit{\boldsymbol{z}}_*}, {\mathit{\boldsymbol{z}}_*}} \right) - {k_{{\rm{com}}}}\left( {{\mathit{\boldsymbol{z}}_*}, \mathit{\boldsymbol{Z}}} \right)\mathit{\boldsymbol{K}}_{\rm{s}}^{ - 1}{k_{{\rm{com}}}}\left( {\mathit{\boldsymbol{Z, }}{\mathit{\boldsymbol{z}}_*}} \right), \\ c = 1, 2, \cdots , C \end{array} $

(18)

其中，k_com（z_*，Z）为z_*和Z中每个样本取核函数（多核组合函数）的值组成的行向量，k_com（z_*，Z）^T=k_com（Z，z_*），k_com（z_*，z_*）表示z_*与z_*取核函数后的值。可以看出，高斯过程模型可以对预测的不确定性（方差）进行建模，有效扩展了其在医疗诊断、自动驾驶等需要对不确定性进行量化任务中的应用。在完成上述计算后，可以利用μ（z_*）={μ（z_*）₁，μ（z_*）₂，…，μ（z_*）_C}获得最终的类别标记：

$ C\left( {{\mathit{\boldsymbol{z}}_*}} \right){\rm{ = }}\mathop {\arg \max }\limits_{c \in \left\{ {1, 2, \cdots , C} \right\}} \mu {\left( {{\mathit{\boldsymbol{z}}_*}} \right)_c} $

3 实验与结果分析 3.1 数据集与对比方法

在实验过程中，为充分验证MSMK-GPLVM的有效性，分别在多个数据集上与现有隐变量模型进行对比。实验数据集信息如表 1所示。

下载CSV 表 1 实验数据集 Table 1 Experimental dataset

MNIST^[20]和USPS^[21]均为手写字体数据集，分别包含像素值大小为28×28和16×16的手写数字图片。SMILES^[22]数据集是一个包含笑脸和非笑脸两类图像的表情识别数据集，是由LFW中提取图像组成的数据集，包含像素值大小为64×64的图像。FER是Kaggle人脸表情识别竞赛数据集，包含生气、厌恶、恐惧、高兴、悲哀、惊讶、平和7种表情且像素值大小为48×48的图像。Yale和AT & T是两个人脸识别数据集，其中，Yale数据集包含15个人的165张人脸图像（每人11张），AT & T包含40个人的400张人脸图像（每人10张），所有图像均使用人工对齐和裁剪方式规整化至像素值大小为32×32的灰度图像。对于MNIST、USPS、SMILES、FER数据集，本文分别使用5 000个样本作为训练集和测试集。对于Yale数据集，使用每个人的5张人脸图像作为训练集（总数为75），其余6张图像作为测试集（总数为90）。对于AT & T数据，使用每人5张人脸图像作为训练集（总数为200），其余5张图像作为测试集（总数为200）。在训练过程中，在训练集上使用五折交叉验证方法选择模型超参数，主要是对MSMK-GPLVM中核函数数量进行选择。最终在整个训练集上基于最佳超参数对模型进行训练，并将训练好的模型在测试集上进行分类性能测试，重复5次上述过程以获得各模型的平均分类准确率。

本文对比模型为原始GPLVM、D-GPLVM、S-GPLVM、SLLGPLVM、PCA^[23]和LDA^[24]。值得注意的是由于GPLVM、PCA和LDA不包含需要交叉验证的超参数，因此本文直接将其在训练集和测试集上进行训练和测试。同时，因为GPLVM、D-GPLVM、S-GPLVM、PCA和LDA不能对样本类别进行直接预测，所以本文使用KNN算法（K=5）对学习到的隐变量进行分类。

3.2 数据降维与可视化

为验证MSMK-GPLVM在数据降维和可视化方面的性能，本文将所有模型应用于MNIST数据降维实验中并将学习到的二维隐变量进行可视化，如图 3所示。可以看出，原始GPLVM和PCA由于无法使用样本的语义标记信息，因此其学到的隐变量可区分性较差，而LDA、S-GPLVM、D-GPLVM、SLLGPLVM和MSMK-GPLVM可以有效使用样本的语义标记信息，因此可以学习到的样本可分性较好。同时，MSMK-GPLVM兼顾了图像数据的多尺度空间结构信息，因此获得了最优的结果，并且当隐变量维度从2增加到3时，其分类性能得到进一步提升。

	Download: JPG larger image
图 3 MNIST数据降维和可视化 Fig. 3 Data dimension reduction and visualization of MNIST

3.3 数据分类

在数据分类实验中将隐变量维度为2、4、6、8、10的情况下所有隐变量模型应用于分类任务，测试其数据分类准确率，实验结果如图 4所示。值得注意的是，由于LDA隐变量维度不能大于或等于原始数据的类别数，因此在使用LDA对SMILES数据进行学习时本文仅设置隐变量维度为1，分类准确率为0.819。与此类似，在使用LDA对FER数据集进行学习时，仅设置其隐变量的维度为2、4和6。可以看出，在MNIST、USPS、SMILES、Yale和AT & T数据集上模型分类性能均较高，其主要原因为这5种数据集包含较少的噪声、同一类的数据差异较小。然而，在FER数据集上所有模型的分类准确率均较低，其主要原因为人脸图像表情识别可能会受到姿态、光照、个体差异等多种因素的影响。所有模型的分类准确率均随着隐变量维度的增加而提升，最终趋于稳定，从而证明较高的隐变量维度可以在数据降维过程中获得更多的判别信息。此外，在所有模型中，GPLVM和PCA由于仅使用了样本的输入信息，而无法使用样本的语义标记信息，因此其分类准确率较低。在所有实验数据集上，MSMK-GPLVM获得了最优的分类准确率，充分说明了其采用兼顾样本语义标记信息和多尺度空间结构信息的方式能够有效提升GPLVM的分类性能。

	Download: JPG larger image
图 4 MSMK-GPLVM与其他隐变量模型的分类准确率对比 Fig. 4 Comparison of classification accuracy of MSMK-GPLVM and other latent variable models

3.4 不同训练样本数下模型分类性能比较

本文在包含不同数量训练样本数的训练集上对MSMK-GPLVM、D-GPLVM、S-GPLVM、SLLGPLVM、GPLVM、PCA和LDA模型的分类准确率进行比较，实验结果如表 2和表 3所示，其中，Tr表示每个人用于训练的图像数，Te表示每个人用于测试的图像数。例如，Tr2/Te9表示在Yale数据集中每个人有2张图像作为训练集，9张图像作为测试集。

下载CSV 表 2 7种模型在Yale数据集上的分类准确率比较 Table 2 Comparison of classification accurary of seven models on Yale dataset

下载CSV 表 3 7种模型在AT & T数据集上的分类准确率比较 Table 3 Comparison of classification accuary of seven models on AT & T dataset

由表 2、表 3可以看出，由于AT & T数据集包含更多的训练图像（该数据集包含人数多于Yale），因此模型在AT & T数据集上的分类准确率高于其在Yale数据集上。同时，PCA和GPLVM均为无监督模型，分类准确率均低于其他监督型模型，而在所有情况下MSMK-GPLVM的分类准确率均高于其他模型，说明其在不同样本数下均有较优的性能，适用于不同规模的高维数据学习任务。

4 结束语

本文针对GPLVM无法有效利用图像特征空间结构信息和语义标记信息的问题，提出一种多尺度多核GPLVM（MSMK-GPLVM）。实验结果表明，MSMK-GPLVM能够对图像空间结构信息和语义标记信息进行有效利用，进一步提升其在图像识别任务和数据可视化任务中的整体性能。但由于MSMK-GPLVM在多尺度投影的构建过程中引入了较多的冗余特征，因此后续将针对冗余特征的选择及隐变量维度和核函数的确定做进一步研究。

参考文献

[1]	TURK M A, PENTLAND A P.Face recognition using eigenfaces[C]//Proceedings of 1991 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 1991: 586-591.
[2]	GUO G, DYER C R. Learning from examples in the small sample case:face expression recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2005, 35(3): 477-488. DOI:10.1109/TSMCB.2005.846658
[3]	GENG Xin, WANG Qin, XIA Yu.Facial age estimation by adaptive label distribution learning[C]//Proceedings of the 22nd International Conference on Pattern Recognition.Washington D.C., USA: IEEE Press, 2014: 4465-4470.
[4]	AIT-SAHALIA Y, XIU D C. Principal component analysis of high-frequency data[J]. Journal of the American Statistical Association, 2019, 114(525): 287-303. DOI:10.1080/01621459.2017.1401542
[5]	LAWRENCE N. Probabilistic non-linear principal component analysis with Gaussian process latent variable models[J]. Journal of Machine Learning Research, 2005, 6: 1783-1816. DOI:10.1007/s10846-005-9019-z
[6]	WEN Jie, FANG Xiaozhao, CUI Jinrong, et al. Robust sparse linear discriminant analysis[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 29(2): 390-403. DOI:10.1109/TCSVT.2018.2799214
[7]	SONG Jingkuan, ZHANG Hanwang, LI Xiangpeng, et al. Self-supervised video hashing with hierarchical binary auto-encoder[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3210-3221. DOI:10.1109/TIP.2018.2814344
[8]	SCHMITZ M A, HEITZ M, BONNEEL N, et al. Wasserstein dictionary learning:optimal transport-based unsupervised nonlinear dictionary learning[J]. SIAM Journal on Imaging Sciences, 2018, 11(1): 643-678. DOI:10.1137/17M1140431
[9]	LU Chaochao, TANG Xiaoou.Surpassing human-level face verification performance on LFW with Gaussian face[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2015: 3811-3819.
[10]	LAWRENCE A, EK C H, CAMPBELL N.DP-GP-LVM: a Bayesian non-parametric model for learning multivariate dependency structures[C]//Proceedings of International Conference on Machine Learning.Washington D.C., USA: IEEE Press, 2019: 3682-3691.
[11]	LI Jinxing, ZHANG Bob, LU Guangming, et al. Visual classification with multikernel shared Gaussian process latent variable model[J]. IEEE Transactions on Cybernetics, 2018, 49(8): 2886-2899. DOI:10.1109/TCYB.2018.2831457
[12]	CAI Deng, HE Xiaofei, HU Yuxiao.Learning a spatially smooth subspace for face recognition[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2007: 1-7.
[13]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems.Washington D.C., USA: IEEE Press, 2012: 1097-1105.
[14]	URTASUN R, DARRELL T.Discriminative Gaussian process latent variable model for classification[C]//Proceedings of the 24th International Conference on Machine Learning.New York, USA: ACM Press, 2007: 927-934.
[15]	GAO Xinbo, WANG Xiumei, TAO Dacheng, et al. Supervised Gaussian process latent variable model for dimensionality reduction[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2010, 41(2): 425-434. DOI:10.1109/TSMCB.2010.2057422
[16]	LAWRENCE N D, QUINONERO-CANDELA J.Local distance preservation in the GP-LVM through back constraints[C]//Proceedings of the 23rd International Conference on Machine Learning.New York, USA: ACM Press, 2006: 513-520.
[17]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[18]	MELKUMYAN A, RAMOS F.Multi-kernel Gaussian processes[C]//Proceedings of the 22nd International Joint Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2011: 1408-1413.
[19]	ZHU Ziqi, YOU Xinge, YU Shujian, et al. Dynamic texture modeling and synthesis using multi-kernel Gaussian process dynamic model[J]. Signal Processing, 2016, 124: 63-71. DOI:10.1016/j.sigpro.2015.10.025
[20]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[21]	HULL J J. A database for handwritten text recognition research[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994, 16(5): 550-554. DOI:10.1109/34.291440
[22]	ARIGBABU O A, MAHMOOD S, AHMAD S M S, et al. Smile detection using hybrid face representation[J]. Journal of Ambient Intelligence and Humanized Computing, 2016, 7(3): 415-426. DOI:10.1007/s12652-015-0333-4
[23]	HANCOCK P J B, BURTON A M, BRUCE V. Face processing:Human perception and principal components analysis[J]. Memory & Cognition, 1996, 24(1): 26-40.
[24]	LU J, PLATANIOTIS K N, VENETSANOPOULOS A N. Face recognition using LDA-based algorithms[J]. IEEE Transactions on Neural Networks, 2003, 14(1): 195-200. DOI:10.1109/TNN.2002.806647