基于主题情感联合分析的游客画像研究

引用本文

李琴, 李少波, 胡杰. 基于主题情感联合分析的游客画像研究[J]. 计算机工程, 2022, 48(6), 278-287,294. DOI: 10.19678/j.issn.1000-3428.0061490.

LI Qin, LI Shaobo, HU Jie. Research on Tourist Portrait Based on Joint Topic-Sentiment Analysis[J]. Computer Engineering, 2022, 48(6), 278-287,294. DOI: 10.19678/j.issn.1000-3428.0061490.

基金项目

贵州省科技计划项目（黔科合基础-ZK[2021]337）；贵州省教育厅青年科技人才成长项目（黔教合KY字[2021]141）；贵州财经大学引进人才科研启动项目（2021YJ003）

作者简介

作者简介：李琴（1985—），女，讲师、博士，主研方向为自然语言处理、旅游大数据分析;
李少波，教授、博士;
胡杰，讲师、博士

文章历史

收稿日期：2021-04-27
修回日期：2021-07-19

Contents Abstract Full text Figures/Tables PDF

基于主题情感联合分析的游客画像研究

李琴¹ , 李少波² , 胡杰¹

1. 贵州财经大学大数据统计学院, 贵阳 550000;
2. 贵州大学机械工程学院, 贵阳 550000

收稿日期：2021-04-27；修回日期：2021-07-19

基金项目：贵州省科技计划项目（黔科合基础-ZK[2021]337）；贵州省教育厅青年科技人才成长项目（黔教合KY字[2021]141）；贵州财经大学引进人才科研启动项目（2021YJ003）

作者简介：作者简介：李琴（1985—），女，讲师、博士，主研方向为自然语言处理、旅游大数据分析; 李少波，教授、博士; 胡杰，讲师、博士.

E-mail: qinlee85@126.com

摘要：网络文本作为现代游客承载感知和表达观点的载体，已成为游客画像构建与分析的重要数据来源。现有的自然语言处理技术在游客画像的挖掘过程中主要关注游客的需求和情感，缺少技术与旅游应用的有效衔接，然而现有的文本挖掘技术中文本的主题和情感通常被割裂分析，缺乏相互指向性，无法有效提取用户细粒度的意见。提出一种基于变分自编码的有监督主题情感联合分析模型。将词频权重引入到先验知识中，同时通过截断高斯模型构造变参数，有效捕获离散数据中的相关性，利用情感标签辅助主题的训练和生成，以提升主题挖掘及情感预测的准确率。通过变分自编码模型计算贝叶斯主题模型的后验分布，采用主题分布下的情感分类预测实现主题情感的联合分析。实验结果表明，当主题数为10~100时，该模型的情感预测平均准确率约为85%，相比LDA、SAGE、NVDM模型，能够有效挖掘酒店用户评论的特征。

Research on Tourist Portrait Based on Joint Topic-Sentiment Analysis

LI Qin¹ , LI Shaobo² , HU Jie¹

1. College of Big Data Statistics, Guizhou University of Finance and Economics, Guiyang, 550000, China;
2. School of Mechanical Engineering, Guizhou University, Guiyang, 550000, China

Abstract: As the carrier of modern tourists' perception and expression of views, network text has become an important data source for the construction and analysis of tourist portrait. The existing natural language processing technology focuses on the needs and emotions of tourist portraits, and lacks an effective connection between technology and tourism applications. However, in the existing text mining technology, the topic and sentiment of text are usually separated and analyzed, show a lack of mutual directivity, and cannot effectively extract users' fine-grained opinions. A supervised joint topic-sentiment analysis model based on Variational Auto-Encoders(AVEs), is proposed. The word frequency weight is introduced into the prior knowledge, and the variable parameters are constructed by Gaussian Stick-Breaking model to effectively capture the correlation in the discrete data. The sentiment label is used to assist the topic training and generation, to improve the accuracy of topic mining and emotion prediction. The posterior distribution of the Bayesian topic model is calculated using the AVEs model, and the sentiment classification prediction under topic distribution is used to realize the joint topic-sentiment analysis. The experimental results show that the average accuracy of this model is about 85% when the number of topics is 10~100. Compared with LDA, SAGE and NVDM models, this model can effectively mine the characteristics of hotel user comments.

开放科学（资源服务）标志码（OSID）：

0 概述

游客画像是对游客属性标签化的过程，主要应用于旅游目的地的精准营销、个性化服务、游客行为分析、舆情治理等方面，是实现智能化旅游的关键。酒店作为旅游经济过程中的重要因素，与旅游经济起着相互促进的作用。酒店是否符合现阶段游客的需求成为游客衡量旅游目的地的重要因素之一。通过挖掘分析获取不同群体的需求或喜好特点继而推荐符合不同群体需求的酒店，是提升游客体验和酒店运营的有效手段。现代旅游过程以社会互动和旅游信息交换为特征，其产物——游客生成文本，能够反映游客的喜好、感知和需求信息，通过对游客生成文本进行分析，准确获取不同群体的情感喜好等信息对旅游酒店推荐具有重要意义。

随着深度学习的发展，以文本数据为主的自然语言处理技术异军突起^[1]，在主题挖掘和情感分析等领域取得重大进展^[2]。在大多数情况下，文本的主题和情感仍被割裂开来分析，然而在实际情况中，通常要求主题和情感具有相互指向性，例如“美丽的”指向具体对象如“花园”或“花园”指向情感要素如“美丽的”。如何进行主题和情感的联合分析成为研究热点。大量无监督主题情感分析模型应运而生，如JST模型^[3]、ASUM模型^[4]、JMTS^[5]等。这类无监督主题情感模型认为词的生成与主题和情感都相关，通过对每个句子或每个词进行情感标签和主题标签采样，以生成句子的主题和情感对。另一类无监督主题情感模型（如WLDA^[6]、TSLDA^[7]、JST-RR^[8]等）通过引入先验知识（如互信息、主观性词典、主题意见词对、文本情感等），在获取主题的同时提升情感检测率。这类模型并不是完全无监督，其利用先验知识诱导先验，从而增强主题模型的稀疏性。这2类模型均以隐含狄利克雷分布（Latent Dirichlet Allocation，LDA）为基础模型，具有较强的挖掘能力。LDA作为一种贝叶斯生成模型，主要依赖于关键词词频信息。但是LDA模型缺乏先验信息的指导且仅适用于长文本的分析，采用吉布斯采样进行后验分布计算，当文档数量多而主题个数较少时，LDA模型的训练速度相对较慢，并且需要在数学上重新推导新的推理算法进行更改。LDA作为一种无监督模型，缺乏标签的约束，其训练得到的主题通常表达解释能力较差。有监督学习利用标签数据的正向回馈，其准确率优于无监督学习^[9]。SLDA模型^[10]将元数据作为标签（如情感评分等），以辅助推断和预测标签相关的主题，相对无监督的LDA，该模型具有更优的预测能力。

LDA作为概率主题模型中简单且经典的模型，为主题模型提供了一个标准框架，在学术界和工业界具有广泛的研究和应用价值，但其自身的局限性却不容忽视。随着变分自编码（Variational Auto-Encoders，VAEs）模型的提出，使用变分自编码深度学习在特征提取方面（如情感、主题等）取得巨大的成功^[11-12]。VAEs是一种深度生成模型，又称为AEVB算法，该模型基于变分的贝叶斯理论，将编码器和解码器设置为神经网络，通过迭代优化过程学习最佳的编码-解码方案。结果表明^[13]，相比使用吉布斯采样的LDA主题模型，VAEs在主题模型上的应用能够有效挖掘主题，且更易扩展。此外，重参数化技巧RT（Reparameterization Trick）及SGVB估计算法建立AEVB算法的梯度反向传播机制。RT在技术方面的提高使得更多的分布能被应用在VAEs中，同时为VAEs近似复杂概率模型提供更多的可能性。

研究工作表明^[14-15]，先验分布的复杂度及超参数的选择对于深度生成模型或贝叶斯神经网络的性能具有重要意义。本文提出基于变分自编码的有监督主题情感联合分析模型SJST-VAE。通过先验知识和情感标签辅助主题的训练和生成，利用截断高斯模型变分参数构造适合主题挖掘过程的神经变分推断形式，采用主题分布下的情感分类预测实现主题情感的联合分析。

1 相关工作

变分自编码在主题概率模型中得到广泛应用^[16]。LDA的任何变体都需派生自定义推理算法，然而变分自编码具有较强适应数据特征的能力，其推理方法为隐藏变量建模提供强大的架构，具有更强的可扩展性。AVITM（Autoencoding Variational Inference for Topic Models）模型^[13]通过构建变分自编码与主题模型的桥梁，降低Dirichlet先验和组件坍塌（类似于先验信任的局部最优）对AEVB算法产生的影响。针对传统主题模型在短文本上表现较差的问题，文献[17]利用词向量和主题向量的点积构建词的主题分布，并定义了词的上下文表征以区分一词多义的现象，提出一种利用词向量语义关系辅助主题挖掘的嵌套变分贝叶斯的主题模型。文献[18]提出使用Gumbel-Softmax模型和高斯混合模型建模变分自编码主题类别分布，解决局部最优的问题，并分析选择不同分布模型对主题生成的影响。文献[19]利用动态因子图模拟主题在时间上的动态变化，基于变分自编码构建动态的主题模型。针对传统主题模型无法动态确定主题数量的问题，文献[20]基于自编码变分推断的架构，提出一种循环神经主题模型，以发现从概念上无界限的主题。这些模型虽然根据变分自编码易扩展的特性展现出在主题挖掘上的优势，但是缺乏主题的情感指导或主题与情感的联合分析。

主题情感的联合分析是一种细粒度的意见挖掘，其目标是从文本主观评论中获取情感倾向的观点或情感要素。在旅游领域中具体的实际应用尤其是旅游推荐具有重要意义。结合深度学习的思想，基于方面或目标实体的情感分类（TABSA）虽然在挖掘文本特征信息和对应情感属性上取得较大进展，但是大多依赖于文本类别、特征属性及对应情感类别的标注，使得实际工作面临较大的困难。传统的无监督主题情感模型在一定程度上解决数据标注缺乏的问题，但因计算复杂度高且时间消耗久等问题，导致模型难以扩展。变分自编码主题模型的实现成为解决该问题的关键。文献[18]基于传统情感主题联合模型JST，预先定义特征种子词，通过对AVITM模型进行扩展，实现变分自编码的无监督情感与主题的联合分析。但是任何无监督的模型都无法假设现实中的所有情况^[10]，其相较于有监督模型的准确率较低。根据当前旅游社交网站中文本评论及情感评分易于获取的特点，本文基于AVITM模型，以逻辑或知识表示先验知识，利用情感监督主题的识别辅助预测情感分类，从而实现主题情感的联合分析和酒店游客的特征画像。

2 LDA模型

LDA模型由Dirichlet先验的主题分布得名，Dirichlet先验的选择对于可解释性主题的获得具有重要作用。在LDA模型中，主题被看作相关主题的词汇分布，每个文档被看作多个主题的分布。为生成文档d，该过程会随机选择主题的分布$ {{\mathit{\boldsymbol{\theta }}}}_{d} $，通过从主题分布中随机选择一个主题$ {z}_{d, n} $，从相应主题或主题的词汇分布$ {{\mathit{\boldsymbol{\beta }}}}_{k} $随机选择一个词来生成文档中每个可观测词$ {w}_{d, n} $。因此，LDA中文档d的生成如下：

$ p\left(w|\alpha , {\mathit{\boldsymbol{\beta }}}\right)={\int }_{{\mathit{\boldsymbol{\theta }}}}\left(\prod\limits_{n=1}^{N}\sum\limits_{{z}_{n}=1}^{k}p\left({w}_{n}|{z}_{n}, {\mathit{\boldsymbol{\beta }}}\right)p\left({z}_{n}|{\mathit{\boldsymbol{\theta }}}\right)\right)p\left({\mathit{\boldsymbol{\theta }}}\right|\alpha )d{\mathit{\boldsymbol{\theta }}} $

(1)

$ {z}_{n}\sim\mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{m}\mathrm{i}\mathrm{a}\mathrm{l}\left(1, {\mathit{\boldsymbol{\theta }}}\right) $

(2)

$ {w}_{n}\sim\mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{m}\mathrm{i}\mathrm{a}\mathrm{l}\left(1, {{\mathit{\boldsymbol{\beta }}}}_{{z}_{n}}\right) $

(3)

其中：$ \alpha $为Dirichlet分布的超参数。在多项分布假设下，$ {\mathit{\boldsymbol{\theta }}} $和$ {\mathit{\boldsymbol{\beta }}} $之间的耦合导致隐变量$ {\mathit{\boldsymbol{\theta }}} $和$ z $后验分布的推理难以计算，需要借助各种近似方法。LDA模型采用吉布斯采样方法，即一类MCMC（Markov Chain Monte Carlo）算法，通过抽取大量样本估计真实的后验分布，但该方法计算复杂度高且时间消耗量大。

3 变分自编码框架下主题分布的参数化

针对LDA模型中后验分布难以计算的问题，研究人员提出变分推理方法，通过优化过程寻求一种变分分布近似真实的后验分布。MFVI（Mean-Field Variational Inference）方法是一种比较经典的变分推理方法，但是由于计算原因难以扩展到新的模型。AEVB算法旨在以一种“黑匣子”推理方法来解决该问题，该算法利用推断和学习使得简单的采样就能进行有效的近似推断，不需要复杂的迭代推理方式（如MCMC）。

在LDA模型中，隐变量z是离散变量，无法进行重参数化处理，通过求和运算折叠z变量，即将式（1）转变为：

$ p\left(w|\alpha , {\mathit{\boldsymbol{\beta }}}\right)={\int }_{\theta }\left(\prod\limits_{n=1}^{N}p\left({w}_{n}|{\mathit{\boldsymbol{\beta }}}, {\mathit{\boldsymbol{\theta }}}\right)\right)p\left({\mathit{\boldsymbol{\theta }}}\right|\alpha )d{\mathit{\boldsymbol{\theta }}} $

(4)

其中：$ {w}_{n}|{\mathit{\boldsymbol{\beta }}}, {\mathit{\boldsymbol{\theta }}}\sim\mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{m}\mathrm{i}\mathrm{a}\mathrm{l}\left(1, {\mathit{\boldsymbol{\beta }}}{\mathit{\boldsymbol{\theta }}}\right) $。

因此，后验分布难以计算的问题转化为评估$ {\mathit{\boldsymbol{\theta }}} $和$ {\mathit{\boldsymbol{\beta }}} $的分布。VAE使用自编码学习$ {\mathit{\boldsymbol{\theta }}} $和$ {\mathit{\boldsymbol{\beta }}} $的分布，同时通过拉普拉斯将原始Dirichlet先验分布近似为变分分布。在LDA主题模型中，主题变量的先验$ {\mathit{\boldsymbol{\theta }}}=\left({\theta }_{1}, {\theta }_{2}, \cdots , {\theta }_{K}\right) $（K为主题个数）被定义为Dirichlet分布，经过变分推理，主题变量的Dirichlet先验$ p\left({\mathit{\boldsymbol{\theta }}}\right|\alpha ) $通过拉普拉斯被近似为一个多元高斯分布。多元高斯分布由均值向量$ {\mathit{\boldsymbol{\mu }}} $和对角协方差矩阵$ {\mathit{\pmb{\Sigma}}} $定义，其中$ {\mathit{\boldsymbol{\mu }}}=（{\mu }_{1}, {\mu }_{2}, \cdots , {\mu }_{K}） $，$ {\mathit{\pmb{\Sigma}}}=\left[\begin{array}{cccc}{\sigma }_{1}^{2}& 0& \cdots & 0\\ 0& {\sigma }_{2}^{2}& \cdots & 0\\ ⋮& ⋮& \ddots & ⋮\\ 0& 0& \cdots & {\sigma }_{K}^{2}\end{array}\right] $，所以$ p\left({\mathit{\boldsymbol{\theta }}}\right|\alpha ) $近似为$ q\left({\mathit{\boldsymbol{\theta }}}\right)=\mathcal{L}\mathcal{N}\left({\mathit{\boldsymbol{\theta }}}\right|{\mathit{\boldsymbol{\mu }}}, \bf{\Sigma }) $，其中$ \mathcal{L}\mathcal{N} $是逻辑正态分布。逻辑正态分布更能促进主题一致性。

通过拉普拉斯近似计算得到多元高斯分布的均值向量$ {\mathit{\boldsymbol{\mu }}} $和对角协方差矩阵$ {\mathit{\pmb{\Sigma}}} $，如式（5）和式（6）所示：

$ {\mu }_{k}=\mathrm{l}\mathrm{n}{\alpha }_{k}-\frac{1}{K}\sum\limits_{i}^{K}{\ln}{\alpha }_{i} $

(5)

$ {\mathrm{\Sigma }}_{kk}=\frac{1}{{\alpha }_{k}}\left(1-\frac{2}{K}\right)+\frac{1}{{K}^{2}}\sum\limits_{i}^{K}\frac{1}{{\alpha }_{i}} $

(6)

在变分自编码框架下，将观测数据文档$ {\mathit{\boldsymbol{w}}} $词序列作为输入，将2个推断网络作为前向神经网络$ {f}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}}\left({\mathit{\boldsymbol{w}}}, {\mathit{\boldsymbol{\delta }}}\right) $和$ {f}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}\left({\mathit{\boldsymbol{w}}}, {\mathit{\boldsymbol{\delta }}}\right) $，其中，$ {\mathit{\boldsymbol{\delta }}} $为推断网络的参数，即变分参数，$ {\mathit{\boldsymbol{\delta }}}=\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $，从而估计$ \stackrel{-}{{\mathit{\boldsymbol{\mu }}}} $和$ \stackrel{-}{{\mathit{\pmb{\Sigma}}}} $的值，每个网络的输出均为K维向量。

变分自编码架构使用RT操作进行反向传播，令$ {\mathit{\boldsymbol{x}}}=\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}+ϵ{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}^{\frac{1}{2}} $，通过采样$ ϵ $生成样本$ {\mathit{\boldsymbol{x}}} $，其中$ {\mathit{\boldsymbol{x}}}\sim\mathcal{N}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right)，$$ ϵ\sim\mathcal{N}\left(\mathrm{0, 1}\right) $。

变分分布的构造有多种形式，高斯分布是其经典的变分分布形式。在变量原始分布未知的情况下，高斯分布可以为噪声和不确定性建模。通过高斯先验分布和RT技术为变分分布建立无偏差或低方差的梯度估计器，如SGVB。

3.1 单高斯分布模型

设$ {\mathit{\boldsymbol{x}}}\sim\mathcal{N}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $，隐变量$ {\mathit{\boldsymbol{\theta }}} $如式（7）所示：

$ {\mathit{\boldsymbol{\theta }}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\;\mathrm{m}\mathrm{a}\mathrm{x}\left({{\mathit{\boldsymbol{W}}}}_{1}^{\mathrm{T}}{\mathit{\boldsymbol{x}}}\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\;\mathrm{m}\mathrm{a}\mathrm{x}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}+ϵ{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}^{\frac{1}{2}}\right) $

(7)

$ {\mathit{\boldsymbol{\theta }}} $服从单高斯分布模型（Gaussian SoftMax，GSM），即：

$ {\mathit{\boldsymbol{\theta }}}\sim{G}_{\mathrm{G}\mathrm{S}\mathrm{M}}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $

其中：$ {{\mathit{\boldsymbol{W}}}}_{1} $为线性变换权重，偏差项做了省略处理。

3.2 截断高斯模型

SB（Stick-Breaking）过程被用于主题变量Dirichlet过程的建设性定义，为其先验提供初始关联权重。在截断高斯（GSB）模型构建过程中，通过逐次分割单位为1的区间顺序获取高斯先验，其中$ {\theta }_{k} $表示每个分量。SB构建过程如图 1所示。

	Download: JPG larger image
图 1 SB构建过程 Fig. 1 SB construction process

设第1个类别的概率为分割比例$ {\eta }_{1} $，其余比例$ 1-{\eta }_{1} $为后续的分割计算。高斯先验的每一维计算如式（8）所示：

$ {\theta }_{k}=\left\{\begin{array}{c}{\eta }_{k}\prod\limits_{j < k}\left(1-{\eta }_{j}\right), k < K\\ \prod\limits_{j\le \mathrm{K}}\left(1-{\eta }_{j}\right), k=K\end{array}\right. $

(8)

不同的K值需满足$ \sum\limits_{k=1}^{K}{\theta }_{k}=1 $。多项式概率参数的建模被转化为二项式概率参数的对数建模。

设高斯样本$ {\mathit{\boldsymbol{x}}}\in {\mathbb{R}}^{K} $，$ {{\mathit{\boldsymbol{W}}}}_{2}\in {\mathbb{R}}^{K\times \left(K-1\right)} $，则$ {\mathit{\boldsymbol{\theta }}}\sim{G}_{\mathrm{G}\mathrm{S}\mathrm{B}}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $，其构造过程如式（9）所示：

$ {\mathit{\boldsymbol{x}}}\sim\mathcal{N}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) \text{，} {\mathit{\boldsymbol{\eta }}}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left({{\mathit{\boldsymbol{W}}}}_{2}^{\mathrm{T}}{\mathit{\boldsymbol{x}}}\right)\text{，}{\mathit{\boldsymbol{\theta }}}={f}_{\mathrm{S}\mathrm{B}}\left({\mathit{\boldsymbol{\eta }}}\right) $

(9)

与Dirichlet过程的SB定义相比，高斯过程的SB为神经变分推断提供更合适的形式。在高斯先验的分配过程中，SB构建过程缺乏控制力，SB先验可以更好地保留类别边界，为半监督学习提供有效的正则化。同时，SB过程能够降低模型对主题数量变化的敏感度，更具稳定性。

4 本文模型

无监督主题模型缺乏有效先验知识的指导或监督学习中数据的标注。针对该问题，本文基于LDA模型，引入词频相对主题的权重，以影响主题的先验分布，从而指导主题的生成，同时通过情感标签监督生成主题，利用主题特征预测情感分类，从而实现主题情感的联合分析。本文模型SJST-VAE以VAE为主要架构，主要由先验知识的指导、情感标签的监督、变分目标损失函数的计算和主题情感的联合分析这4个部分组成。SJST-VAE模型架构如图 2所示。

	Download: JPG larger image
图 2 SJST-VAE模型架构 Fig. 2 Framework of SJST-VAE model

4.1 先验知识的指导

VAE架构的优势是为编码网络提供一种可以引入先验信息的扩展方法。本文模型SJST-VAE以词的Bag-of-words表征作为输入，通过变分自编码网络获取文档的特征。此外，针对文本中权重过高的词大多不能进行局部主题表示的问题，如IMDB语料库中，单词“film”或“movie”在主题模型学习中往往相对不重要，本文通过弱化词频过高的词，设置背景术语从而获取相对常见的词，以此促进主题的一致性。

假设语料由D个文档组成，语料词典大小为V，如图 2所示，在变分自编码网络框架下，SJST-VAE模型以文档词序列$ {\mathit{\boldsymbol{w}}} $作为输入，通过2个MLP推断网络$ {f}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}}\left({\mathit{\boldsymbol{w}}}\right) $和$ {f}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}\left({\mathit{\boldsymbol{w}}}\right) $变分近似为具有对角正态先验的文本表征$ {\mathit{\boldsymbol{r}}} $，即$ {\mathit{\boldsymbol{r}}}\sim\mathcal{N}(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}) $，如式（10）所示：

$ \stackrel{-}{{\mathit{\boldsymbol{\mu }}}}={f}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}}\left({\mathit{\boldsymbol{w}}}\right)={{\mathit{\boldsymbol{W}}}}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}}{\mathit{\boldsymbol{w}}}+{{\mathit{\boldsymbol{b}}}}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}} $

$ \stackrel{-}{{\mathit{\pmb{\Sigma}}}}={f}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}\left({\mathit{\boldsymbol{w}}}\right)={{\mathit{\boldsymbol{W}}}}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}{\mathit{\boldsymbol{w}}}+{{\mathit{\boldsymbol{b}}}}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}} $

(10)

从而获得$ {\mathit{\boldsymbol{r}}} $的近似后验分布，如式（11）所示：

$ {q}_{\delta }\left({\mathit{\boldsymbol{r}}}|{\mathit{\boldsymbol{w}}}\right)=\mathcal{N}\left({\mathit{\boldsymbol{r}}}\right|\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}) $

(11)

其中：$ {{\mathit{\boldsymbol{W}}}}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}} $、$ {{\mathit{\boldsymbol{b}}}}_{\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}} $、$ {{\mathit{\boldsymbol{W}}}}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}} $、$ {{\mathit{\boldsymbol{b}}}}_{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}} $分别为2个神经网络的线性参数，且$ {\mathit{\boldsymbol{\delta }}}=\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $。为解决神经网络反向传播的问题，通过从高斯噪声中采样$ ϵ $，且$ ϵ\sim\mathcal{N}\left(\mathrm{0, 1}\right) $，使得$ {\mathit{\boldsymbol{r}}}=\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}+ϵ{\stackrel{-}{{\mathit{\pmb{\Sigma}}}}}^{\frac{1}{2}} $。通过GSB构造将文本表征$ {\mathit{\boldsymbol{r}}} $转化为单纯形$ {\mathit{\boldsymbol{\theta }}} $，其映射过程如图 3所示。

	Download: JPG larger image
图 3 SB映射过程 Fig. 3 SB mapping process

单纯形$ {\mathit{\boldsymbol{\theta }}} $如式（12）所示：

$ {\mathit{\boldsymbol{\theta }}}\sim{G}_{\mathrm{G}\mathrm{S}\mathrm{B}}\left({\mathit{\boldsymbol{r}}}\right|\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}) $

(12)

本文设置稀疏诱导先验，即正态指数复合先验，置于权重矩阵$ {\mathit{\boldsymbol{B}}}\in {R}_{K\times V} $（主题词分布矩阵的初始化），使模型学习到词频相对主题的权重信息，同时定义背景术语$ {\mathit{\boldsymbol{d}}}\in {R}_{V} $，表示词频中所有词的词频对数值，旨在通过B与$ {\mathit{\boldsymbol{d}}} $的偏离程度将主题权重倾向于文档中出现频率大致相同的常见词，而不是词频过高的词。权重矩阵B的正态指数复合先验过程如式（13）和式（14）所示：

$ {\tau }_{k, v}\sim\mathrm{E}\mathrm{x}\mathrm{p}\mathrm{o}\mathrm{n}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{a}\mathrm{l}\left(\xi \right) $

(13)

$ {B}_{k, v}\sim\mathcal{N}\left(0, {\tau }_{k, v}\right) $

(14)

其中：$ \xi > 0 $为指数分布率参数。重构文档为：

$ \widehat{{\mathit{\boldsymbol{w}}}}={\mathit{\boldsymbol{d}}}+{{\mathit{\boldsymbol{\theta }}}}^{\mathrm{T}}{\mathit{\boldsymbol{B}}} $

(15)

整个神经网络的损失函数如式（16）所示：

$ \mathcal{L}\left({\mathit{\boldsymbol{w}}}, \widehat{{\mathit{\boldsymbol{w}}}}\right)={\mathit{\boldsymbol{w}}}-{\widehat{{\mathit{\boldsymbol{w}}}}}^{2} $

(16)

4.2 情感标签的监督

除了能有效推断文本主题外，本文模型SJST-VAE还能推断文本的潜在表达及预测文本的情感倾向，利用情感标签对主题生成前后进行监督。生成主题后的监督是在可观测词的条件下，完成主题模型的变分自编码解码的过程，利用多层神经网络进行训练，将预测标签与真实标签的交叉熵作为损失函数，从而实现情感标签的预测。情感预测标签的计算如式（17）所示：

$ \widehat{{\mathit{\boldsymbol{y}}}}=\mathrm{a}\mathrm{r}\mathrm{g}\;\underset{y\in \mathcal{Y}}{\mathrm{m}\mathrm{a}\mathrm{x}}p\left({\mathit{\boldsymbol{y}}}\right|{f}_{y}\left({\mathit{\boldsymbol{\theta }}}\right)) $

(17)

其中：$ {f}_{y} $为多层神经网络。

在主题生成过程中，情感标签还用于监督主题训练过程，以促进局部主题的生成。SJST-VAE模型在预测情感标签时，利用one-hot编码表征文档的情感标签$ {{\mathit{\boldsymbol{e}}}}_{y} $，并对编码器网络进行训练，情感标签$ {{\mathit{\boldsymbol{e}}}}_{y} $被用于构建文本表征的特征，如（18）和式（19）所示：

$ {q}_{\delta }\left({\mathit{\boldsymbol{r}}}|\chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)\right)=\mathcal{N}\left({\mathit{\boldsymbol{r}}}\right|\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}) $

(18)

$ \chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)={f}_{g}\left(\left[{{\mathit{\boldsymbol{W}}}}_{x}{\mathit{\boldsymbol{w}}}\text{；}{{\mathit{\boldsymbol{W}}}}_{y}{{\mathit{\boldsymbol{e}}}}_{y}\right]\right) $

(19)

其中：$ {f}_{g} $为多层感知器；$ {{\mathit{\boldsymbol{W}}}}_{x}\mathrm{和}{{\mathit{\boldsymbol{W}}}}_{y} $为线性权重参数。

在训练过程中，情感类别标签作为可观测变量。在测试时，本文模型考虑所有可能的情感标签向量，如正向或负向，使得文档中所有词概率对数和最大的标签为所预测标签，如式（20）所示：

$ \widehat{{\mathit{\boldsymbol{y}}}}=\underset{y\in \mathcal{Y}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}\sum\limits_{i=1}^{V}\mathrm{l}\mathrm{n}p\left({v}_{i}\right|{\mathit{\boldsymbol{r}}}, {{\mathit{\boldsymbol{e}}}}_{y}) $

(20)

其中：$ {v}_{i} $为词典中的词，$ i=\left\{\mathrm{1, 2}, \cdots , V\right\} $。

4.3 变分目标损失函数

与传统变分推理类似，SJST-VAE模型构造一个Dirichlet先验的拉普拉斯近似，使Dirichlet分布可以近似为逻辑正态分布。本文假设Dirichlet先验是对称的，即所有超参数$ \alpha $取相同值，由式（5）和式（6）可得：

$ {\mu }_{k}=0 \text{，} {\mathrm{\Sigma }}_{kk}=\frac{K-1}{\alpha K} $

(21)

在变分自编码架构下，本文设计高斯变分分布，以近似后验分布$ {q}_{\delta }\left({\mathit{\boldsymbol{r}}}|{\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right) $。模型学习的目标是使近似后验分布尽可能接近于真实后验分布$ p\left({\mathit{\boldsymbol{r}}}\right|\alpha ) $。本文采用KL散度进行相似度计算，找到能使KL散度尽可能小的变分参数$ {\mathit{\boldsymbol{\delta }}}=\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}, \stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right) $，如式（22）所示：

$ {q}_{\delta }^{\mathrm{*}}\left({\mathit{\boldsymbol{r}}}|\chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)\right)=\underset{\delta }{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{D}_{\mathrm{K}\mathrm{L}}\left({q}_{\delta }\left({\mathit{\boldsymbol{r}}}\left|\chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)\right||p\right.\right({\mathit{\boldsymbol{r}}}\left|\alpha \right)) $

(22)

通过一系列计算推演，式（22）转换为使变分下界ELBO最大化，其变分下界如式（23）所示：

$ \mathcal{L}\left({\mathit{\boldsymbol{w}}}\right)\approx \mathrm{l}\mathrm{n}\;p\left({\mathit{\boldsymbol{w}}}|{\mathit{\boldsymbol{r}}}\right)+\mathrm{l}\mathrm{n}\;p\left(y|{\mathit{\boldsymbol{r}}}\right)-{D}_{\mathrm{K}\mathrm{L}}\left({q}_{\delta }\left({\mathit{\boldsymbol{r}}}|\chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)\right)\right|\left|p\right({\mathit{\boldsymbol{r}}}\left|\alpha \right)) $

(23)

其中：KL散度为正则项；其他部分为重构损失。KL散度如式（24）所示：

$ {D}_{\mathrm{K}\mathrm{L}}\left({q}_{\delta }\left({\mathit{\boldsymbol{r}}}|\chi \left({\mathit{\boldsymbol{w}}}, {{\mathit{\boldsymbol{e}}}}_{y}\right)\right)\left|\right|p\left({\mathit{\boldsymbol{r}}}|{\mathit{\boldsymbol{\alpha }}}\right)\right)= $

$ \frac{1}{2}\left(\mathrm{t}\mathrm{r}\left({{\mathit{\pmb{\Sigma}}}}^{-1}\stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right)+{\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}-{\mathit{\boldsymbol{\mu }}}\right)}^{\mathrm{T}}{{\mathit{\pmb{\Sigma}}}}^{-1}\left(\stackrel{-}{{\mathit{\boldsymbol{\mu }}}}-{\mathit{\boldsymbol{\mu }}}\right)-K+\mathrm{l}\mathrm{n}\frac{\left|{\mathit{\pmb{\Sigma}}}\right|}{\left|\stackrel{-}{{\mathit{\pmb{\Sigma}}}}\right|}\right) $

(24)

4.4 主题情感的联合分析

SJST-VAE模型通过变分自编码网络获取各文档的主题分布$ {\theta }_{{d}_{1}}, {\theta }_{{d}_{2}}, \cdots , {\theta }_{{d}_{D}} $，并将其作为输入，通过文档的情感监督对MLP神经网络进行训练，从而实现情感分类的预测。

本文假设文档数据集有K个主题，并将只包含第$ k $个主题的文本主题分布$ {t}_{k} $定义为除第$ k $个分量为1外，其余各分量均为0的向量。因此，为获得第$ k $个主题的情感分布，模型以$ {t}_{k} $作为输入向量进行情感预测，其中$ k=\mathrm{1, 2}, \cdots , K $，以获取各个主题下的情感概率分布。

5 实验结果与分析 5.1 数据集与参数设置

本文将IMDB语料集作为评估SJST-VAE模型的数据集，该数据集包含50 000条电影评论，其中25 000条负面评论和25 000条正面评论，且训练集25 000条和测试集25 000条。在数据集中所有单词通过预处理均被转化为字母小写形式，并删除了标点符号、数字及小于3个字符和停用词表中的所有单词。词典由在大多数文档中都出现的单词组成，大小设为2 000。在模型训练过程中，本文使用softplus激励函数、Adam优化器（参数设为0.99），学习率设为0.002，批量大小设为200，$ ϵ $采样数量设为1，训练迭代次数设为200。在测试文档估计ELBO值时，$ ϵ $采样数量设为20。

5.2 评估标准

SJST-VAE模型是基于情感监督进行主题情感联合分析。研究人员给出不同的衡量标准，如困惑度、相关性、稀疏度等，以客观评价主题获取的优劣程度。困惑度表示文档属于哪个主题的不确定性，困惑度越低，聚类效果越好，主题与主题的区分性越强；相关性表示模型获取主题的top-n个词的语义一致性，一致性越高表示主题可解释性越好；稀疏度在一定意义上表示模型的可解释性，因为每个主题能够接受被描绘的词往往是有限的，主题的词分布矩阵越稀疏（即稀疏度越大），可解释性越强。虽然这3种评估标准具有一定的有效性，但其不能完全作为评估标准，有时需要直观的主题表示进行评估。模型主题困惑度如式（25）所示：

$ \mathrm{p}\mathrm{e}\mathrm{r}\mathrm{p}\mathrm{l}\mathrm{e}\mathrm{x}\mathrm{i}\mathrm{t}\mathrm{y}\left(C\right)=\mathrm{e}\mathrm{x}\mathrm{p}\left(-\frac{\sum\limits_{d=1}^{D}\mathrm{l}\mathrm{n}\;p\left({w}_{d}\right)}{\sum\limits_{d=1}^{D}{N}_{d}}\right) $

(25)

其中：C为测试语料且包含D篇文档；$ {N}_{d} $为每篇文档包含词的数量；$ p\left({w}_{d}\right) $为文档d中词产生的概率。

本文采用NPMI（Normalized Pointwise Mutual Information）对文本语料主题相关性进行评估。PMI主要用于度量一些词的共现，以此判定词的相关性，PMI如式（26）所示：

$ \mathrm{P}\mathrm{M}\mathrm{I}\left({w}_{1}, {w}_{2}\right)=\mathrm{l}\mathrm{n}\frac{p\left({w}_{1}, {w}_{2}\right)}{p\left({w}_{1}\right)p\left({w}_{2}\right)} $

(26)

对于PMI的正则化有多种选择，如通过$ -\mathrm{l}\mathrm{n}\;p\left({w}_{1}\right) $和$ -\mathrm{l}\mathrm{n}\;p\left({w}_{2}\right) $的乘积或通过$ -\mathrm{l}\mathrm{n}\;p\left({w}_{1}, {w}_{2}\right) $正则化。本文以后者作为正则化选项，该正则化过程规范了上限和下限，具有较优的性能。因此，NPMI如式（27）所示：

$ {i}_{n}\left({w}_{1}, {w}_{2}\right)=\left(\mathrm{l}\mathrm{n}\frac{p\left({w}_{1}, {w}_{2}\right)}{p\left({w}_{1}\right)p\left({w}_{2}\right)}\right)/\left(-\mathrm{l}\mathrm{n}\;p\left({w}_{1}, {w}_{2}\right)\right) $

(27)

5.3 模型评估与结果分析

本文研究先验知识和情感监督对主题获取的影响，因此，评估分析了模型在相同实验条件和参数设置条件下有先验知识和无先验知识的性能对比，以及有情感监督和无情感监督的性能对比，并验证了在GSM和GSB构造下不同主题数目设置对主题分布性能的影响。为验证本文方法的有效性，本文将SJST-VAE模型与其他3种基准主题模型进行对比。这3种基准模型分别为LDA、SAGE（Sparse Additive Generative Model）^[19]、NVDM（Neural Variational Document Model）^[20]。

IMDB语料的平均主题分布如图 4所示。从图 4可以看出，在GSM过程中获得100个主题的平均主题分布情况大致相同，而在GSB过程中的平均主题分布值在接近第10个主题位置后逐渐递减，在大概第20个主题后递减速度尤为明显，直至第40个主题后几乎没有分布。这是因为GSB过程在建立混合模型时，其SB结构隐含地假定了主题的顺序，前一个主题获得足够的梯度来更新主题分布。同时，SB结构的稀疏性使得尾部的主题被采样的可能性较小，模型对于超参数（主题数目）的变化会变得不太敏感，当主题设置数目远远超过模型需要的数目时，GSB过程的稳定性更强，而且更加有利于主题数目的设置。

	Download: JPG larger image
图 4 IMDB平均语料主题分布 Fig. 4 Average topics distribution of IMDB corpus

主题数为10~100及100~500时随模型测试集困惑度的变化情况如图 5所示。从图 5可以看出，主题数从10~100的变化过程中，GSB过程的主题困惑度略优于GSM过程，随着主题数从100~500逐渐增大，GSB过程在主题困惑度上表现出的优势越来越明显，说明GSB过程不会因主题数目变化而发生大幅波动，验证了GSB过程的稳定性。

	Download: JPG larger image
图 5 主题困惑度随主题数的变化趋势 Fig. 5 Trend of topic perlexities with number of topics

现有的主题模型主要在数据集20newsgroups进行训练，该数据集缺少情感标签数据。因此，本文以IMDB数据集为对象，选择具有代表性的基准模型对主题挖掘性能进行评估。LDA是经典的模型，几乎所有模型都以此为基础；SAGE模型引入恒定背景分布的对数频率，以防止过度拟合，即通过稀疏诱导先验加强模型主题的稀疏性，具有较强的鲁棒性；NVDM模型首次将神经变分框架的生成模型引入到文本建模中，旨在为每个文档提取一个连续的语义潜在变量，并应用于构建主题分类。

本文将主题数目设置为10和50，不同基准模型的主题困惑度、相关性和稀疏度的对比结果如表 1所示。

下载CSV 表 1 不同模型的主题评估指标 Table 1 Topic evaluation indicators of different models

相比基准模型，SJST-VAE模型在主题困惑度上具有较强的优势；SJST-VAE模型的主题相关性低于LDA和SAGE模型，但优于同是变分自编码框架的NVDM模型；SAGE模型的主题稀疏性仍占有绝对优势，SJST-VAE模型相对于其他模型略有改进。同时，本文对比SJST-VAE模型在背景术语缺失（SJST-VAE-bg）和情感监督缺失（SJST-VAE-senti）以及GSM和GSB过程下的主题性能评估。在主题数目设置为10和50时，GSB过程中SJST-VAE模型、SJST-VAE-bg模型、SJST-VAE-senti模型的主题困惑度均优于GSM过程中的SJST-VAE模型，说明GSB过程在主题困惑度的表现上具有绝对优势。当主题数目设置为50时，SJST-VAE模型的GSM过程的相关性具有一定优势。GSB过程的SJST-VAE模型相对于SJST-VAE-bg模型和SJST-VAE-senti模型的稀疏性略有提高，说明SJST-VAE模型具有较强的主题可解释性。由于高频背景术语的缺失以及情感词的加入使得模型在主题数目增多的情况下，发生主题一致性降低的情况。其原因为随着主题数目增多时，无明显意义主题词出现的概率会增大，而主题一致性的计算基于词的共现，高频词的缺失和情感词的加入导致词共现率下降。

有情感联合和无情感联合这2种主题样例对比如表 2所示。本文在主题数目设置为5的条件下以中文形式分别列举这2种方式主题的前8个词。

下载CSV 表 2 IMDB数据集主题样例 Table 2 Topic samples of IMDB dataset

从表 2可以看出，有情感联合的主题表示样例大致可以将电影语料的主题概括为色情、犯罪、纪录、动画、恐怖5种类型，而无情感联合则稍显杂烩，较难概况其主题类型。该过程说明有情感联合可以学习更稀疏、更有意义的表示，其表达的主题关联强，其他主题关联弱的关键词较少，具有较优的表达主题语义的能力，主题解释性更强。相比无情感联合的主题表示，有情感联合的主题表示包含更多的情感词，有利于主题情感特征的获取，具有重要的实际意义。由于引入背景术语先验知识，这2种主题表示样例中均减少了大量的“movie”、“film”等高频无显著主题表达意义的词的出现概率。

本文将构建SJST-VAE模型的文本语料的情感预测和主题的情感分布，利用生成的文档主题表征进行情感分类，通过单个主题的表征进行情感分布预测。由于本文主要侧重于挖掘主题的性能，因此不对情感分类准确率与其他模型进行对比。本文分别对10~100个主题数目进行模型训练，获得在不同主题数目设置条件下的情感分类准确率，并累计计算5次情感预测准确率总和并取平均值，SJST-VAE模型情感预测准确率如图 6所示。

	Download: JPG larger image
图 6 SJST-VAE模型情感预测准确率 Fig. 6 Sentiment prediction accuracy of SJST-VAE model

SJST-VAE模型在低维度文档表达条件下，仍具有较高的情感分类准确率，情感分类准确率并未随主题数增加而大幅波动，具有较强的稳定性。由于电影评论涉及较多情节内容，且其中包含的大量情感词不具有明确的实际褒贬意义，因此本文将在第6节的旅游具体应用中重点分析主题的情感分布过程，以及其如何用于指导主题的情感特征。

6 基于SJST-VAE模型的酒店用户画像构建

本文选择一组酒店评论文本集作为分析数据集^[21]，为验证SJST-VAE模型在旅游推荐或游客群体画像中的实用性。该数据集中所有评论均来源于TripAdvisor.com的英国用户评价且每个评论文本均标注了情感极性，并区分了不同酒店级别和男女性别。据调查显示^[22]，在较高星级酒店的选择上，男性和女性群体分别表现出不同的情感偏好和特征。通过挖掘分析获取不同群体的需求或喜好特点，进而推荐符合不同群体需求的酒店，成为提升游客体验和酒店运营的一个有效手段。

本文选取三星和四星这2种不同类型的酒店评论各6 400条，每种类型酒店均包含男女性评论各3 200条，并以此作为分析对象。整个数据集被划分为4个不同的特征数据集，如图 7所示。同时，本文将各数据集的80%作为训练集和20%作为测试集（正负评论数量均衡）。在训练过程中，本文设置词典大小为1 000，批量大小设为50。主题个数设为10，既符合旅游酒店属性先验知识，也便于更细粒度了解用户需求和情感。

	Download: JPG larger image
图 7 不同特征数据集的划分 Fig. 7 Division of different feature datasets

本文针对4种不同属性的酒店评论数据集分别进行主题情感的联合分析。SJST-VAE模型在4种不同属性的酒店评论数据集中情感预测准确率对比如图 8所示。SJST-VAE模型在训练集和测试集的情感预测准确率均在90%以上，具有较高的准确率，验证了SJST-VAE模型在挖掘酒店用户评论特征进而获取情感预测的可行性。

	Download: JPG larger image
图 8 在不同数据集上SJST-VAE模型的情感预测准确率对比 Fig. 8 Sentiment prediction accuracy comparison of SJST-VAE model on different datasets

SJST-VAE模型分别对英国三星酒店男性和女性评论提取特征对比如表 3、表 4所示。

下载CSV 表 3 三星酒店男性评论特征 Table 3 Feature of male reviews in Samsung hotels

下载CSV 表 4 三星酒店女性评论特征 Table 4 Feature of female reviews in Samsung hotels

男性用户和女性用户均在房间噪音、内饰环境、餐饮、服务质量（包括入住办理、客房服务）上表现出负面倾向，如在内饰环境上的情感特征有“肮脏的”“发霉的”等，在服务质量上的情感特征有“羞耻的”“粗鲁的”“令人震惊的”等。在交通区位、休闲娱乐上，男性和女性均表现出一定的正面倾向，如交通区位上的情感特征有“便捷的”，休闲娱乐上的情感特征有“精彩的”“享受的”“谢谢”等。

女性的负面主题（7个）多于男性的负面主题（6个），可以推断女性在三星酒店消费中可能比男性更为苛刻。相较于男性，女性更加注重细节，如房间内饰环境关键词上，女性增加了窗帘、家具的关注，在交通区位关键词上，女性增加了步行、停车、出租车、购物的关注，而男性则只是多了餐馆的关注。另外，在酒店休闲娱乐选择上，男女性也表现出不同的特点，如男性的休闲娱乐相关词有高尔夫等，女性的休闲娱乐相关词有水疗、游泳池、花园等。

SJST-VAE模型对英国四星酒店男性用户和女性用户评论提取的特征如表 5、表 6所示。

下载CSV 表 5 四星酒店男性评论特征 Table 5 Feature of male reviews in four stars hotels

下载CSV 表 6 四星酒店女性评论特征 Table 6 Feature of female reviews in four stars hotels

与三星酒店类似，男女性用户同样在房间噪音、内饰环境、餐饮、服务质量上表现出负面倾向，如在房间噪音上的情感特征有“打扰”“噪音”等，在内饰环境上的情感特征有“磨损的”“潮湿的”“破碎的”“脏的”等，在服务质量上的情感特征有“封闭的”“慢”“差”等。在交通区位、休闲娱乐、配套服务（如婚礼）上，男性女性均表现出一定的正面倾向，如交通区位上的情感特征有“便捷的”，休闲娱乐上的情感特征有“享受的”“宜人的”“精彩的”“喜欢”等。

男性关注的负面主题（7个）多于女性的负面（4个），可以推测四星酒店男性用户较三星酒店男性用户要求有所提高。在餐饮关键词上，男性多关注鸡肉、牛排，而女性更偏向于甜点如蛋糕、奶油和茶等。在房间内饰环境关键词上，男女性用户都关注了地毯、墙，男性相较于女性多了天花板、窗帘、衣柜、厕所的关注，女性则多了床垫的关注。在交通区位关键词上，男女性都关注了购物，男性较女性多了酒吧的关注，女性较男性则多了步行的关注。在休闲娱乐上，男性用户评论的关键词有海滩、海、美味、桑拿、游泳池等，女性用户评论的关键词有护理、蒸汽、水疗、按摩、海、花园等。

通过以上分析，酒店运营者可以从男性和女性用户在不同星级酒店消费过程中所关注的内容和相应感受，获取男性女性用户的不同特征，进而有针对性地从客户偏好层次上进行酒店或房间的推荐。通过对男性女性用户所表现出的负面主题和情感特点进行分析，以促使酒店管理者发现内部不足进而提出改进措施。相对主题和情感的割裂分析，针对主题情感分布的挖掘更具有实际应用价值。

SJST-VAE模型是基于正负分布均衡的酒店评论数据集，但是表 3~表 6所呈现出的用户负面主题却明显大于正面主题，这或许是由于用户的表达习惯所决定的。在评价事物时，负面信息的可诊断性要强于正面信息，消费者会赋予负面信息更高的权重或注意力。对于用户是否习惯于在负面主题的表达更加具象，而在正面主题的表达更加笼统如“太美了、太舒服了、非常享受等”，从而导致模型挖掘到的负面主题方面多于正面，还需要后续大量的实验进行佐证。

7 结束语

为充分捕捉用户细粒度的意见，本文构建基于变分自编码的神经网络训练模型SJST-VAE。利用先验知识和情感标签辅助主题的训练和生成，基于截断高斯模型，构造更适合Dirichlet过程的神经变分推断形式，其中截断高斯模型中的截断结构能够有效地捕获离散数据中的相关性，适用于主题分类数据的分析。实验结果证明，SJST-VAE模型能够利用主题分布实现情感分类的预测。酒店运营者通过SJST-VAE模型获取用户群体的情感偏好或舆情报告，有助于制定详实可靠的改进措施。下一步将把本文模型应用在旅游领域的精准推荐系统中，以实现在不同应用场景下信息的融合与扩展。

参考文献

[1]	何力, 郑灶贤, 项凤涛. 基于深度学习的文本分类技术研究进展[J]. 计算机工程, 2021, 47(2): 1-11. HE L, ZHENG Z X, XIANG F T, et al. Research progress of text classification technology based on deep learning[J]. Computer Engineering, 2021, 47(2): 1-11. (in Chinese)
[2]	YOUNG T, HAZARIKA D, PORIA S, et al. Recent trends in deep learning based natural language processing[J]. IEEE Computational Intelligence Magazine, 2018, 13(3): 55-75. DOI:10.1109/MCI.2018.2840738
[3]	LIN C, HE Y. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. New York, USA: ACM Press, 2009: 375-384.
[4]	JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, USA: ACM Press, 2011: 815-824.
[5]	ALAM M H, RYU W-J, LEE S. Joint multi-grain topic sentiment: modeling semantic aspects for online reviews[J]. Information Sciences, 2016, 339: 206-223. DOI:10.1016/j.ins.2016.01.013
[6]	郝洁, 谢珺, 苏婧琼, 等. 基于词加权LDA算法的无监督情感分类[J]. 智能系统学报, 2016, 11(4): 539-545. HAO J, XIE J, SU J Q, et al. An unsupervised approach for sentiment classification based on weightedlatent dirichlet allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545. (in Chinese)
[7]	NGUYEN T H, SHIRAI K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: [s. n], 2015: 1354-1364.
[8]	LIANG Q, RANGANATHAN S, WANG K, et al. JST-Rr model: joint modeling of ratings and reviews in sentiment-topic prediction[EB/OL]. [2021-03-25]. https://arxiv.org/abs/2102.11048v1.
[9]	袁非牛, 章琳, 史劲亭, 等. 自编码神经网络理论及应用综述[J]. 计算机学报, 2019, 42(1): 203-230. YUAN F N, ZHANG L, SHI J T. Theories and applications of auto-encoder neural networks: a literature survey[J]. Chinese Journal of Computers, 2019, 42(1): 203-230. (in Chinese)
[10]	BLEI D M, KUCUKELBIR A, MCAULIFFE J D. Supervised topic models[EB/OL]. [2021-03-25]. https://arxiv.org/pdf/1601.00670.pdf.
[11]	BOWMAN S R, VILNIS L, VINYALS O, et al. Generating sentences from a continuous space[EB/OL]. [2021-03-25]. http://de.arxiv.org/pdf/1511.06349.
[12]	XU W, SUN H, DENG C, et al. Variational autoencoder for semi-supervised text classification[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2017: 1-10.
[13]	SRIVASTAVA A, SUTTON C. Autoencoding variational inference for topic models[EB/OL]. [2021-03-25]. https://arxiv.org/abs/1703.01488v1.
[14]	TOMCZAK J, WELLING M. VAE with a VampPrior[EB/OL]. [2021-03-25]. https://arxiv.org/pdf/1705.07120.pdf.
[15]	TAKAHASHI H, IWATA T, YAMANAKA Y, et al. Variational autoencoder with implicit optimal priors[C]//Proceedings of AAAI Conference on Artificial Intelligence. [S. l. ]: AAAI Press, 2019: 5066-5073.
[16]	黄佳佳, 李鹏伟, 彭敏, 等. 基于深度学习的主题模型研究[J]. 计算机学报, 2020, 43(5): 75-103. HUANG J J, LI P W, PENG M, et al. Review of deep learning-based topic model[J]. Chinese Journal of Computers, 2020, 43(5): 75-103. (in Chinese)
[17]	HOANG T, LE H, QUAN T. Towards autoencoding variational inference for aspect-based opinion summary[J]. Applied Artificial Intelligence, 2019, 33(9): 796-816. DOI:10.1080/08839514.2019.1630148
[18]	EISENSTEIN J, AHMED A, XING E P. Sparse additive generative models of text[C]//Proceedings of the 28th International Conference on International Conference on Machine Learning. Washington D. C., USA: IEEE Press, 2011: 1041-1048.
[19]	MIAO Y, YU L, BLUNSOM P. Neural variational inference for text processing[C]//Proceedings of International Conference on Machine Learning. Washington D. C., USA: IEEE Press, 2016: 1727-1736.
[20]	TripAdvisor UK reviews gendered data sets with equal numbers of all five ratings[EB/OL]. [2021-03-25]. https://figshare.com/articles/dataset/TripAdvisor_reviews_of_hotels_and_restaurants_by_gender/6255284.
[21]	LI Q, LI S, ZHANG S, et al. A review of text corpus-based tourism big data mining[J]. Applied Sciences, 2019, 9(16): 3300. DOI:10.3390/app9163300
[22]	JUWAHEER T D. Gender bias in hotel guests' perceptions of service quality: an empirical investigation of hotels in Mauritius[J]. E-review of Tourism Research, 2011, 9(5): 1-10.