基于DMA与特征划分的多源文本主题模型

引用本文

许伟佳, 秦永彬, 黄瑞章, 等. 基于DMA与特征划分的多源文本主题模型[J]. 计算机工程, 2021, 47(7), 59-66. DOI: 10.19678/j.issn.1000-3428.0058372.

XU Weijia, QIN Yongbin, HUANG Ruizhang, et al. Multi-Source Text Topic Model Based on DMA and Feature Division[J]. Computer Engineering, 2021, 47(7), 59-66. DOI: 10.19678/j.issn.1000-3428.0058372.

基金项目

国家自然科学基金联合基金重点项目（U1836205）；国家自然科学基金重大研究计划项目（91746116）；贵州省科技厅重大专项（黔科合重大专项字2017-3002号）；贵州省科学技术基金重点项目（黔科合基础2020-1Z055号）

作者简介

许伟佳(1996-), 女, 硕士研究生, 主研方向为数据与文本挖掘、机器学习;
秦永彬, 教授、博士生导师;
黄瑞章, 副教授、博士;
陈艳平, 副教授、博士

文章历史

收稿日期：2020-05-19
修回日期：2020-07-04

Contents Abstract Full text Figures/Tables PDF

基于DMA与特征划分的多源文本主题模型

许伟佳^1,2 , 秦永彬^1,2 , 黄瑞章^1,2 , 陈艳平^1,2

1. 贵州大学计算机科学与技术学院, 贵阳 550025;
2. 公共大数据国家重点实验室, 贵阳 550025

收稿日期：2020-05-19；修回日期：2020-07-04

基金项目：国家自然科学基金联合基金重点项目（U1836205）；国家自然科学基金重大研究计划项目（91746116）；贵州省科技厅重大专项（黔科合重大专项字2017-3002号）；贵州省科学技术基金重点项目（黔科合基础2020-1Z055号）

作者简介：许伟佳(1996-), 女, 硕士研究生, 主研方向为数据与文本挖掘、机器学习; 秦永彬, 教授、博士生导师; 黄瑞章, 副教授、博士; 陈艳平, 副教授、博士.

E-mail: 1316721141@qq.com

摘要：针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题，设计一种基于狄利克雷多项式分配（DMA）与特征划分的多源文本主题模型。以DMA模型为基础，放宽对预先输入的主题数量的限制，为每个数据源分配专有的主题分布参数，使用Gibbs采样算法估计每个数据源的主题数量。同时，对每个数据源分配专有的噪音词分布参数以及主题-词分布参数，采用特征划分方法区分每个数据源的特征词和噪音词，并学习每个数据源的用词特征，避免噪音词集对模型聚类的干扰。实验结果表明，与传统主题模型相比，该模型能够保留每个数据源特有的词特征，具有更好的主题发现效果及鲁棒性。

Multi-Source Text Topic Model Based on DMA and Feature Division

XU Weijia^1,2 , QIN Yongbin^1,2 , HUANG Ruizhang^1,2 , CHEN Yanping^1,2

1. College of Computer Science and Technology, Guizhou University, Guiyang 550025, China;
2. State Key Laboratory of Public Big Data, Guiyang 550025, China

Abstract: Given the poor performance exhibited by the existing topic models for mining information on multi-source text data sets, a multi-source text topic model based on Dirichlet Multinomial Allocation(DMA) and feature division is designed.This model relaxes the restrictions on the number of pre-input topics, assigns a special topic distribution parameter for each data source, and automatically estimates the number of topics for each data source by using the Gibbs sampling algorithm.In addition, the model assigns a specific noise word distribution parameter and topic-word distribution parameter for each data source.The feature words and noise words of each data source are distinguished by using the feature categorization method, and the word features of each data source are learnt to avoid the influence of the noise word set on model clustering.Experimental results show that compared with the existing topic models, the proposed model can keep the unique word features of each data source, and has better topic discovery performance as well as improved robustness.

开放科学（资源服务）标志码（OSID）：

0 概述

随着计算机网络技术的快速发展，各种各样的Internet/Intranet应用在全球范围内日益普及，产生了大量的文本信息。研究人员将来自多个应用平台的不同来源的文本集合到一起构成多源文本数据集。在一般情况下，多源文本数据集中的主题信息要比单源文本数据集中的主题信息更加全面准确。因此，研究一种能挖掘多源文本数据集中主题信息的文本挖掘模型是非常必要的^[1]。

主题模型是目前较流行的文本挖掘模型，因此需研究一种针对多源文本数据集的主题模型来挖掘多源文本数据集中的文本信息，但传统主题模型挖掘多源文本数据集信息时存在两方面的问题。一方面，在多源文本数据集中，每一篇文档都由大量的词来表示，包括特征词和大量的无关噪声词，并且由于书写风格的不同，因此来自不同数据源的噪声词也不同，不相关的噪声词会干扰模型构建，导致模型性能不佳。另一方面，每个数据源中相同主题的词分布相似但不相同也会影响主题模型的性能，例如新闻网站和社交媒体论述同一主题，部分能够明确指向主题含义的词语会同时出现在这两个数据源中，但由于描述角度的不同会导致一些特定词语只出现在其中一个数据源中。因此，直接采用传统主题模型挖掘多源文本的词特征等信息会因为不同来源的主题的书写风格差异以及描述角度的不同严重影响模型性能，并且在多源文本数据集中对主题数量的估计也非常困难。对于多数传统主题模型而言，主题数量被认为是需用户事先确定的参数，但在进行主题模型挖掘前提供正确的主题数量是不切实际的。此外，对于不同的数据源，主题数量通常是不同的，从而大幅增加了主题数量正确估计的难度。因此，如果多源文本主题模型能够自动地估计每个数据源的主题数量，则对于模型的推广和应用是非常有利的。本文提出一种新的多源文本主题模型MCDMAfp。MCDMAfp以狄利克雷多项式分配(Dirichlet Multinomial Allocation，DMA)模型为基础。当主题数量无穷大时，DMA模型近似为狄利克雷过程混合(Dirichlet Process Mixture，DPM)模型^[2]。DMA模型作为DPM模型的近似模型，能够自动推断出数据集的主题数量，而无需提前设置主题数量。

1 相关工作

网络信息随着互联网的高速发展呈现爆炸式增长，如何快速准确地从这些海量数据中获取有用的信息成为研究人员关注的焦点。主题模型是目前较流行的文本挖掘模型，其中较常见的隐含狄利克雷分配(Latent Dirichlet Allocation，LDA)模型由BLEI等^[3]于2003年提出。后续的主题模型多数建立在LDA模型的基础上，例如针对短文本集的PYPM模型^[4]以及TRTD模型^[5]，其中，PYPM模型可在无需人为提前设置主题数量的情况下进行主题聚类，TRTD模型利用词的贴近性和重要性，解决了短文本集信息稀疏的问题。但是，目前文本信息的来源多样，而上述模型均在单源数据集上进行，不能直接应用于多源数据集。

近年来，针对多源文本的主题模型被陆续提出，例如DLDA模型^[6]、DDMAfs模型^[7]和DDMR模型^[8]，这3种模型的主要思想是利用辅助数据源的文本信息提升目标数据源的主题发现效果，但其目标仍是解决单个数据源的建模问题。除此之外，一部分多源文本主题模型虽然旨在解决多数据源的建模问题，但仅能应用于特定领域^[9]，例如：结合ATM^[10]与LDA模型的HTM模型^[11]，HTM模型假设Twitter文本为ATM模型生成，新闻文本由LDA模型生成，两者受同一主题-词分布影响，提升了整体聚类效果；COTM模型^[12]是针对新闻及其评论数据源的主题模型，能从这两个数据源中学习相应的主题，并提升整体聚类效果；HHTM模型^[13]主要针对新闻报道和用户评论，提高了摘要生成质量。

由于上述主题模型仅能应用于特定领域，不具备普适性，因此针对多源文本的主题模型的研究也逐渐增多。文献[14]提出的mf-CTM模型适用于多源文本数据集，基于CTM^[15]模型扩展得到，继承了CTM的优点，能够对主题之间的相关性进行建模，并且能对多领域及多数据源进行主题建模，但mf-CTM模型假设所有数据源的文本集共享相同的主题分布参数，而现实生活中不同数据源通常有不同的主题分布，这就导致了mf-CTM模型不能很好地应用于多源数据集主题模型的构建。文献[16]提出的Probabilistic Source LDA模型能够为每个数据源计算潜在主题，维护源之间的主题-主题对应关系，保留每个数据源独特的特征，但是该模型的构建需要已知数据源的先验知识，这提升了模型构建的难度，并且该模型是标准的LDA^[17]扩展模型，不能自动推断每个数据源的主题数量。文献[18]提出的C-LDA和C-HDP模型扩展了ccLDA以适应集合主题级的不对称性，使得两个模型能发现具有不同主题数量的任意集合之间的主题关联性。C-LDA模型与LDA模型类似，需要人为提前设定主题数量。C-HDP模型继承了HDP模型^[19]的优点，无需人为设定主题数量，方便了模型的应用。但是，C-HDP与C-LDA模型多数针对同一数据源的多个数据集，若应用于多源数据集，则不能较好地学习每个数据源的源级词特征。

2 MCDMAfp模型 2.1 相关定义

单词$ w $是文本的最小单元，是$ \{\mathrm{1, 2}, \cdots , W\} $词汇表中的一项。词汇表由所有数据源共享，每个数据源都可以使用词汇表中的部分单词。一篇文档由$ W $维向量$ {\mathit{\boldsymbol{x}}}_{d}=\{{x}_{d1}, {x}_{d2}, \cdots , {x}_{dW}\} $表示，其中$ {x}_{dj} $是第$ d $个文档中第$ j $个单词出现的次数。数据源$ \chi $是由$ D $个文档组成的集合，表示为$ \chi =\{{x}_{1}, {x}_{2}, \cdots , {x}_{D}\} $。多源文本数据集$ M $是由$ S $个数据源组成的集合，表示为$ M=\{{\chi }_{1}, {\chi }_{2}, \cdots , {\chi }_{S}\} $。

由于词汇表中只有一部分词对数据集中的不同文档有区分作用，因此本文引入一个潜在的二元向量$ \mathit{\boldsymbol{\gamma }}=\{{\gamma }_{1}, {\gamma }_{2}, \cdots , {\gamma }_{W}\} $来识别有区分作用的特征词，其中$ \Omega $表示特征词集。对于每个$ j\in \{\mathrm{1, 2}, \cdots , W\} $，$ \mathit{\boldsymbol{\gamma }} $表示为：

$ \mathit{\gamma }=\left\{\begin{array}{l}1, j\in \Omega \\ 0, j\notin \Omega \end{array}\right. $

(1)

本文为$ \mathit{\boldsymbol{\gamma }} $分配一个先验参数，并假设$ \mathit{\boldsymbol{\gamma }} $是由伯努利分布$ B(1, \omega ) $生成的，参数$ \omega $可以看作是词汇表中每个单词的先验概率。潜在变量$ \mathit{\boldsymbol{\gamma }} $采用文献[19]中的随机变量搜索思想进行选择。

2.2 模型基本思想

MCDMAfp模型的基本思想是：1)多源文本数据集中同一主题的词分布共享同一先验；2)多源文本数据集中每个数据源具有主题分布、主题-词分布以及噪音词分布参数。MCDMAfp模型的图形化表示如图 1所示。

	Download: JPG larger image
图 1 MCDMAfp模型的图形化表示 Fig. 1 Graphical representation of MCDMAfp model

本文模型假设多源文本数据集$ M $的生成过程如下：

1) 对于每个数据源$ {\chi }_{s}\in \{{\chi }_{1}, {\chi }_{2}, \cdots , {\chi }_{S}\} $

(1) 选择$ {\gamma }_{j}^{s}|{\omega }^{s}\sim B(1, {\omega }^{s}), j=\mathrm{1, 2}, \cdots , W $。

(2) 选择$ {\eta }_{0}^{s}|\beta \sim \mathrm{D}\mathrm{i}\mathrm{r}\mathrm{i}\mathrm{c}\mathrm{h}\mathrm{l}\mathrm{e}\mathrm{t}({\beta }_{1}, {\beta }_{2}, \cdots , {\beta }_{W}) $。

(3) 选择$ \left|{x}_{d}^{s}\right|\sim \mathrm{P}\mathrm{o}\mathrm{i}\mathrm{s}\mathrm{s}\mathrm{o}\mathrm{n}\left(\xi \right), d=\mathrm{1, 2}, \cdots , {D}^{s} $。

2) 对于每个主题$ i\in N $

(1) 选择$ {\eta }_{i}^{s}|{\lambda }_{i}\sim \mathrm{D}\mathrm{i}\mathrm{r}\mathrm{i}\mathrm{c}\mathrm{h}\mathrm{l}\mathrm{e}\mathrm{t}({\lambda }_{i}^{1}, {\lambda }_{i}^{2}, \cdots , {\lambda }_{i}^{W}) $。

(2) 选择$ {{p}^{s}}\left| \alpha \right.\sim \text{Dirichlet}\left( {\scriptstyle{}^{\alpha }\!\!\diagup\!\!{}_{N}\;},{\scriptstyle{}^{\alpha }\!\!\diagup\!\!{}_{N}\;},\cdots {\scriptstyle{}^{\alpha }\!\!\diagup\!\!{}_{N}\;} \right) $。

3) 对于每篇文档$ {d}^{s}\in \{\mathrm{1, 2}, \cdots , {D}^{s}\} $

(1) 选择$ {z}_{d}^{s}|{P}^{s}\sim \mathrm{D}\mathrm{i}\mathrm{s}\mathrm{c}\mathrm{r}\mathrm{e}\mathrm{t}\mathrm{e}({P}_{1}^{s}, {P}_{2}^{s}, \cdots , {P}_{N}^{s}) $。

(2) 选择$ {x}_{d}^{s}\mathit{\boldsymbol{\gamma }}|{\eta }_{{z}_{d}}^{s}, \mathit{\boldsymbol{\gamma }}\sim \mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{m}\mathrm{i}\mathrm{a}\mathrm{l}(|{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}};{\eta }_{{z}_{d}}^{s}) $。

(3) 选择$ {x}_{d}^{s}(1-\mathit{\boldsymbol{\gamma }})|{\eta }_{0}^{}, \mathit{\boldsymbol{\gamma }}\sim \mathrm{M}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}\mathrm{n}\mathrm{o}\mathrm{m}\mathrm{i}\mathrm{a}\mathrm{l}(|{x}_{d}^{s}{|}_{1-\mathit{\boldsymbol{\gamma }}};{\eta }_{0}^{s}) $。

其中：$ \left|{x}_{d}^{s}\right| $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中文档$ {d}_{\mathrm{t}\mathrm{h}} $的单词数量；$ {z}_{d}^{s} $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中文档$ {d}_{\mathrm{t}\mathrm{h}} $的潜在簇分配；$ {\eta }_{{z}_{d}}^{s} $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中主题为$ {z}_{d} $的词分布；$ {\eta }_{0}^{s} $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中所有文档共享的噪音词分布；$ {x}_{d}^{s}\mathit{\boldsymbol{\gamma }} $和$ {x}_{d}^{s}(1-\mathit{\boldsymbol{\gamma }}) $分别表示$ ({x}_{d1}^{s}{{\gamma }_{1}}^{s}, {x}_{d2}^{s}{{\gamma }_{2}}^{s}, \cdots , {x}_{dW}^{s}{{\gamma }_{W}}^{s}) $和$ \left({x}_{d1}^{s}\right(1-{{\gamma }_{1}}^{s}), \cdots , {x}_{dW}^{s}(1-{{\gamma }_{W}}^{s}\left)\right) $；$ |{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}}=\sum\limits_{{\gamma }_{j}^{s}=1}{x}_{dj}^{s} $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中文档$ {d}_{\mathrm{t}\mathrm{h}} $的特征词数量；$ |{x}_{d}^{s}{|}_{(1-\mathit{\boldsymbol{\gamma }})}=\sum\limits_{{\gamma }_{j}^{s}=0}{x}_{dj}^{s} $表示数据源$ {s}_{\mathrm{t}\mathrm{h}} $中文档$ {d}_{\mathrm{t}\mathrm{h}} $的噪音词数量；$ N $表示簇的数目；$ {P}^{s} $表示簇的混合比例。由上文生成过程可知，文本中的特征词与噪音词都是由特征词分布$ {\eta }_{{z}_{d}}^{s} $和噪音词分布$ {\eta }_{0}^{s} $经多项式分布得到的，并且本文假设特征词集和噪声词集之间没有相关性，因此由多项式分布可得到$ {x}_{d}^{s} $的条件概率密度函数为：

$ \begin{array}{l}f\left({x}_{d}^{s}\right|\mathit{\boldsymbol{\gamma }}, {\eta }_{{z}_{d}}^{s}, {\eta }_{0}^{s})=f({x}_{d}^{s}\mathit{\boldsymbol{\gamma }}\left|{\eta }_{{z}_{d}}^{s}\right)f\left({x}_{d}^{s}\right(1-\mathit{\boldsymbol{\gamma }}\left)\right|{\eta }_{0}^{s})=\\ \frac{|{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}}!}{\prod \limits_{\begin{array}{l}j=1\\ {\gamma }_{j}^{s}=1\end{array}}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}({\eta }_{{z}_{d}, j}^{s}{)}^{{x}_{dj}^{s}{\gamma }_{j}^{s}}\frac{|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{\begin{array}{l}j=1\\ {\gamma }_{j}^{s}=0\end{array}}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}({\eta }_{0, j}^{s}{)}^{{x}_{dj}^{s}(1-{\gamma }_{j}^{s})}=\\ \frac{|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{j=1}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}\left({\eta }_{{z}_{d}, j}^{s}{)}^{{}^{{x}_{dj}^{s}{\gamma }_{j}^{s}}}\right({\eta }_{0, j}^{s}{)}^{{x}_{dj}^{s}(1-{\gamma }_{j}^{s})}\end{array} $

(2)

其中，$ |{x}_{d}^{s}{|}_{\mathit{\gamma }}+|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}=\sum\limits_{j=1}^{W}{x}_{dj}^{s} $，并且由生成过程可知，$ {\eta }_{i}^{s} $和$ {\eta }_{0}^{s} $均由Dirichlet分布得到，即$ p\left({\eta }_{i}^{s}\right|{\lambda }_{i})=\mathrm{D}\mathrm{i}\mathrm{r}({\eta }_{i}^{s}\left|{\lambda }_{i}\right) $、$ p\left({\eta }_{0}^{s}\right|\beta )=\mathrm{D}\mathrm{i}\mathrm{r}({\eta }_{0}^{s}\left|\beta \right) $。由于Dirichlet分布是多项式分布参数的共轭先验，因此可通过对$ {\eta }_{0}, {\eta }_{1}, \cdots , {\eta }_{N} $积分来获得整个数据集$ M $的条件概率密度函数，结合式(2)并参考文献[20]得到式(3)，其中$ {\mathit{\boldsymbol{n}}}_{s} $表示数据源$ s $下所有文档的簇类标签。

$ \begin{array}{l}f\left(M\right|Z, \mathit{\boldsymbol{\gamma }}, \beta )=\prod \limits_{s=1}^{S}\prod \limits_{d=1}^{{D}^{s}}\int p\left({x}_{d}^{s}\right|\mathit{\boldsymbol{n}}, {\eta }^{s}, {\eta }_{0}^{s}\left)p\right({\eta }^{s}\left|{\lambda }_{i}\right)\cdot \\ p\left({\eta }_{0}^{s}\right|\beta )\mathrm{d}{\eta }^{s}\mathrm{d}{\eta }_{0}^{s}=\prod \limits_{s=1}^{S}\prod \limits_{d=1}^{{D}^{s}}\frac{|{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}}!|{x}_{d}^{s}{|}_{1-\mathit{\boldsymbol{\gamma }}}!}{\prod \limits_{j=1}^{W}{x}_{dj}^{s}!}\cdot {S}_{\lambda , \beta }\cdot {S}_{\lambda }\cdot {S}_{\beta }\end{array} $

(3)

$ {S}_{\lambda , \beta }=\prod \limits_{i=1}^{N}\frac{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)}{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\lambda }_{i}^{j}\right)}\cdot \frac{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}\right)}{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\beta }_{j}\right)} $

(4)

$ {S}_{\lambda }=\prod \limits_{i=1}^{N}\frac{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\lambda }_{i}^{j}+\sum\limits_{\{d:{z}_{d}=i\}}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)}{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:{z}_{d}=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)} $

(5)

$ {S}_{\beta }=\frac{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\beta }_{j}+\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)}{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}+\sum\limits_{j=1}^{W}\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)} $

(6)

3 Gibbs采样算法

传统主题模型多数为了方便计算，将主题-词分布的狄利克雷先验参数设置为统一值，但实际上先验参数代表了词的分布情况，例如$ {\lambda }_{i}^{j}>{\lambda }_{i}^{x} $，表示在主题$ i $中获得单词$ j $的概率比获得单词$ x $的概率大，即单词$ j $在主题$ i $中更具代表性。笔者发现不同数据源具有不同但相似的主题-词分布，因此认为不同数据源的主题-词分布由同一先验产生，通过研究多源文本数据中表现较好的数据源的文本信息得到更具代表性的先验参数$ \lambda $^[21]，从而提升模型的整体性能表现。

3.1 先验参数

本文通过优化生成整个数据集的后验概率来获得参数$ \lambda $，已知多源数据集中数据源$ {\chi }_{s} $的概率近似为：

$ P\left({\chi }_{s}\right)\approx \prod \limits_{d=1}^{{D}^{s}}\frac{|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{j=1}^{W}{x}_{dj}!}\cdot {S}_{\lambda , \beta }\cdot {S}_{\lambda }\cdot {S}_{\beta } $

(7)

为了方便计算，本文使用对数似然函数进行运算，计算如下：

$ \begin{array}{l}\mathrm{l}\mathrm{n}P\left({\chi }_{s}\right)\approx \sum\limits_{d=1}^{{D}^{s}}\left(\stackrel{}{\underset{}{\mathrm{l}\mathrm{n}\left(\right|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!)-}}\right.\\ \left.\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}({x}_{dj}^{s}!)+\mathrm{l}\mathrm{n}{S}_{\lambda , \beta }+\mathrm{l}\mathrm{n}{S}_{\lambda }+\mathrm{l}\mathrm{n}{S}_{\beta }\right)\end{array} $

(8)

$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\lambda , \beta }=\sum\limits_{i=1}^{N}\left(\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)-\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\lambda }_{i}^{j}\right)\right)+\\ \mathrm{l}\mathrm{n}\mathrm{ }\left(\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}^{}\right)-\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\beta }_{j}^{}\right)\right)\end{array} $

(9)

$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\lambda }=\sum\limits_{i=1}^{N}\left(\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\right.\left({\lambda }_{i}^{j}+\sum\limits_{d:{z}_{d}=i}^{}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-\\ \left.\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:{z}_{d}=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\right)\end{array} $

(10)

$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\beta }=\sum\limits_{j=1}^{W}\left(\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\beta }_{j}^{}+\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)-\right.\\ \left.\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}^{}+\sum\limits_{j=1}^{W}\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)\right)\end{array} $

(11)

然后得到参数$ \lambda $的梯度函数：

$ \begin{array}{l}\frac{\partial \mathrm{l}\mathrm{n}P\left({\chi }_{s}\right)}{\partial {\lambda }_{i}^{j}}={\mathit{\Psi}} \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)-{\mathit{\Psi}} \left({\lambda }_{i}^{j}\right)+\\ {\mathit{\Psi}} \left({\lambda }_{i}^{j}+\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-{\mathit{\Psi}} \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\end{array} $

(12)

其中，$ {\mathit{\Psi}} \left(x\right) $是$ \mathrm{\Gamma }\left(x\right) $的对数导数函数，由式(12)可得到更新后的$ {\lambda }_{i}^{j} $：

$ {\lambda }_{i\mathrm{n}\mathrm{e}\mathrm{w}}^{j}={\lambda }_{i}^{j}\frac{\sum\limits_{d=1}^{{D}^{s}}\left(\Psi \left({\lambda }_{i}^{j}+\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-\Psi \left({\lambda }_{i}^{j}\right)\right)}{\sum\limits_{d=1}^{{D}^{s}}\left(\Psi \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right.+\sum\limits_{J=1}^{W}\left.\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\right.\left.-\Psi \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)\right)} $

(13)

3.2 基于Blocked-Gibbs的参数学习

对于MCDMAfp模型，本文得到马尔科夫链，$ \{\mathit{\gamma }, {\Theta }^{1}, {\Theta }^{2}, \cdots \mathrm{ }, {\Theta }^{s}, {\eta }_{0}, {\eta }_{1}^{1}, {\eta }_{2}^{1}, \cdots \mathrm{ }, {\eta }_{N}^{1}, \cdots , {\eta }_{1}^{s}, {\eta }_{2}^{s}, \cdots \mathrm{ }, {\eta }_{N}^{s}, {z}_{1}^{1}, {z}_{2}^{1}, \cdots , {z}_{{D}^{1}}^{1}, \cdots , {z}_{1}^{s}, {z}_{2}^{s}, \cdots , {z}_{{D}^{s}}^{s}\} $，使用$ \{{{z}_{1}^{1}}^{\mathrm{*}}, {{z}_{2}^{1}}^{\mathrm{*}}, \cdots , {z}_{{M}^{1}}^{1\mathrm{*}}, \cdots , {{z}_{1}^{s}}^{\mathrm{*}}, $ $ {{z}_{2}^{s}}^{\mathrm{*}}, \cdots , {z}_{{M}^{s}}^{s\mathrm{*}}\} $表示$ \{{z}_{1}^{1}, {z}_{2}^{1}, \cdots , {z}_{{D}^{1}}^{1}, \cdots , {z}_{1}^{s}, {z}_{2}^{s}, \cdots , {z}_{{D}^{s}}^{s}\} $中不同值的集合，初始化潜在变量$ \{{\gamma }_{1}^{1}, {\gamma }_{2}^{1}, \cdots , {\gamma }_{W}^{1}, {z}_{1}^{1}, {z}_{2}^{1}, \cdots , $ $ {z}_{{D}^{1}}^{1}, {\gamma }_{1}^{s}, {\gamma }_{2}^{s}, \cdots , {\gamma }_{W}^{s}, {z}_{1}^{s}, {z}_{2}^{s}, \cdots , {z}_{{D}^{s}}^{s}\} $的超参数$ \{\alpha , \omega , \lambda , \beta \} $后，Blocked-Gibbs的采样过程具体如下：

1) 通过重复以下步骤$ R $次更新潜在特征词指示符$ \mathit{\boldsymbol{\gamma }} $：通过随机选取$ {\mathit{\boldsymbol{\gamma }}}_{\mathrm{o}\mathrm{l}\mathrm{d}} $中的$ W $个索引中的一个并改变其值，生成新的候选$ {\mathit{\boldsymbol{\gamma }}}_{\mathrm{n}\mathrm{e}\mathrm{w}} $并添加或删除特征词。新候选值被接受的概率q为：

$ q=\mathrm{m}\mathrm{i}\mathrm{n}\left\{1, \frac{f\left({\mathit{\boldsymbol{\gamma }}}_{\mathrm{n}\mathrm{e}\mathrm{w}}\right|{\chi }^{s}, {z}^{s})}{f\left({\mathit{\boldsymbol{\gamma }}}_{\mathrm{o}\mathrm{l}\mathrm{d}}\right|{\chi }^{s}, {z}^{s})}\right\} $

(14)

其中，$ f\left(\mathit{\boldsymbol{\gamma }}\right|{\chi }^{s}, {z}^{s})\propto f({\chi }^{s}|{\gamma }^{s}, {z}^{s})p\left({\gamma }^{s}\right) $。

2) 在给定其他潜在变量的条件下，对于$ i=\mathrm{1, 2}, \cdots , N $，如果$ i $不在$ \{{{z}_{1}^{1}}^{\mathrm{*}}, {{z}_{2}^{1}}^{\mathrm{*}}, \cdots , {{z}_{{M}^{1}}^{1}}^{\mathrm{*}}, \cdots , {{z}_{1}^{s}}^{\mathrm{*}}, {{z}_{2}^{s}}^{\mathrm{*}}, \cdots , $ $ {z}_{{M}^{s}}^{s\mathrm{*}}\} $中，则从以$ {\lambda }_{i} $为参数的Dirichlet分布中得出$ {\eta }_{i}^{s} $，否则将T₁作为Dirichlet分布的参数，采样更新$ {\eta }_{i}^{s} $：

$ {T}_{1}=\left\{{\lambda }_{i}^{1}+\sum\limits_{d:{z}_{d}=i}{x}_{d1}^{s}{\gamma }_{1}^{s}, {\lambda }_{i}^{2}+\sum\limits_{d:{z}_{d}=i}{x}_{d2}^{s}{\gamma }_{2}^{s}, \cdots , {\lambda }_{i}^{W}+\sum\limits_{d:{z}_{d}=i}{x}_{dW}^{s}{\gamma }_{W}^{s}\right\} $

(15)

3) 将T₂作为Dirichlet分布的参数，采样更新$ {\eta }_{0}^{s} $：

$ {T}_{2}=\left\{{\beta }_{1}+\sum\limits_{d=1}^{{D}^{s}}{x}_{d1}^{s}(1-{\gamma }_{1}^{s}), {\beta }_{2}+\sum\limits_{d=1}^{{D}^{s}}{x}_{d2}^{s}(1-{\gamma }_{2}^{s}), \cdots , {\beta }_{W}+\sum\limits_{d=1}^{{D}^{s}}{x}_{dW}^{s}(1-{\gamma }_{W}^{s})\right\} $

(16)

4) 将T₃作为Dirichlet分布的参数，采样更新$ P $：

$ {T}_{3}=\left\{\frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=1), \frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=2), \cdots , \frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=N)\right\} $

(17)

其中，$ I({z}_{d}=i) $为示性函数，当$ {z}_{d}=i $时，$ I({z}_{d}=i)=1 $，否则$ I({z}_{d}=i)= $0。

5) 在给定其他潜在变量时，对于$ d=\mathrm{1, 2}, \mathrm{ }\cdots , {D}^{s} $，通过从参数为$ \{{s}_{d, 1}^{}, {s}_{d, 2}^{}, \cdots , {s}_{d, N}^{}\} $的离散分布中采样更新$ {z}_{d}^{s} $，其中$ \sum\limits_{i=1}^{N}{s}_{d, i}=1 $且$ {s}_{d, i}\propto {p}_{i}f\left({x}_{d}^{s}\right|{\eta }_{i}^{s}, {\eta }_{0}, {\gamma }^{s}), i=\mathrm{1, 2}, \cdots , N $。

在采样过程的不同数据源中，为保证主题的一一对应，即数据源$ {s}_{i} $中的簇类$ k $和数据源$ {s}_{j} $中的簇类$ k $相同，可在开始时将所有数据源的文本看成单个数据源进行一次采样，再对每个数据源进行单独采样。在采样结果收敛后，根据各个数据源在算法运行过程中的最大生成概率判断表现最优秀的数据集，按照式(15)对参数$ \lambda $进行更新操作。性能表现差的数据源因为得到了较准确的先验知识，提升了整体效果，作为更新依据的数据源也因为强化了自身的先验知识，整体效果也有所提升。在获得新的参数$ \lambda $后重复采样过程，便可得到更好的主题发现结果。

4 实验结果与分析 4.1 度量标准

本文使用标准化互信息(Normalized Mutual Information，NMI)来评估聚类质量。NMI表示主题模型得到的聚类结果与标准结果之间的相似性，其取值区间为$ \left(\mathrm{0, 1}\right) $，越接近1，表示主题发现的效果越好，计算公式如下^[22]：

$ {N}_{\mathrm{N}\mathrm{M}\mathrm{I}}=\frac{\sum\limits_{h, l}{d}_{h, l}\mathrm{l}\mathrm{b}\frac{D{d}_{h, l}}{{d}_{h}{c}_{l}}}{\sqrt{\sum\limits_{h}{d}_{h}\mathrm{l}\mathrm{b}\frac{{d}_{h}}{D}\sum\limits_{l}{c}_{l}\mathrm{l}\mathrm{b}\frac{{c}_{l}}{D}}} $

(18)

其中：$ D $表示文档数；$ {d}_{h} $表示主题$ h $中的文档数；$ {c}_{l} $表示集群$ l $中的文档数；$ {d}_{h, l} $表示主题$ h $和集群$ l $中的文档数。

4.2 数据集

本文使用NASet和BTSet两个真实的多源文本数据集来验证MCDMAfp模型的准确性：

1) NASet数据集。该数据集包含9 986篇文本和food与sport两个主题，其中，5 000篇文本来自HuffPost网站的新闻文章(记为NewSet)，剩余文本来自Amazon网站的评论文本(记为ASet)。

2) BTSet数据集。该数据集包含10 000篇文本和4个主题，其中：5 000篇文本来自BBC网站收集的新闻文章(记为bbcSet)，共有travel、bussiness、sport、politic等4个主题；5 000篇文本来自Twitter收集的文章(记为TSet)，共有bussiness、sport、politic等3个主题。

对于这两个数据集，本文进行以下预处理：1)将字母转换为小写字母；2)删除非拉丁字符和停止字符；3)删除长度小于2或大于15的单词。

4.3 实验结果

本文在NASet和BTSet数据集上进行实验，并评估MCDMAfp模型的性能。为便于对比研究，将K-means模型^[23]作为基线模型，对比模型包括基于单源数据集的PYPM模型以及基于多源数据集的C-LDA和C-HDP模型。各模型在NASet和BTSet数据集上的聚类效果如表 1所示。PYPM模型与K-means模型表示将每个多源数据集中每个数据源的文本集单独作为该模型的输入。PYPM_all模型和K-means_all模型表示将多源数据集中所有数据源的文本集融合成一个数据集，并当作单源数据集作为该模型的输入。K-means模型(k=30)表示在K-means模型中设定的主题数量为30，K-means模型(k为真实值)表示在K-means模型中设定的主题数量为各数据集中真实的主题数量。PYPM_all模型在NASet和BTSet多源数据集上的NMI值为0.770和0.237。K-means_all模型(k=30)在NASet和BTSet多源数据集上的NMI值为0.276和0.207。K-means_all模型(k为真实值)在NASet和BTSet多源数据集上的NMI值为0.209和0.110。从表 1可以看出，MCDMAfp模型相比其他模型聚类效果更好。

下载CSV 表 1 5种模型在NASet和BTSet多源数据集上的NMI值 Table 1 NMI values of five models on NASet and BTSet multi-source datasets

各模型估计的主题数量如表 2所示，其中PYPM_all模型在NASet和BTSet多源数据集上的主题数量为9 986和10 000。从表 2可以看出：PYPM模型估计的主题数量比较多，这是因为PYPM模型无需提前输入主题数量，而是直接将文档数目当作主题数量，所以PYPM模型估计的主题数目比较大；MCDMAfp模型相比其他模型发现的主题数量更接近于真实情况，而且每个数据源都拥有被估计的主题数量，这证明了MCDMAfp模型能保留多源数据集中每个数据源的主题特征。

下载CSV 表 2 4种模型在NASet和BTSet多源数据集上估计的主题数量 Table 2 Number of topics estimated by four models on NASet and BTSet multi-source datasets

本文进一步研究了NASet多源数据集中每个数据源的部分特征词和噪音词，如表 3所示。可以看出，每个数据源的噪音词集不同，并且与特征词集无关。这证明了MCDMAfp模型能够将每个数据源的特征词集与噪音词集分开，避免了噪音词集对模型的干扰。在表 3中的特征词展示的是每个主题下概率最大的前20个特征词。针对food主题，两个数据集都出现了food、chocolate等词，主要原因为这些词可以明确指示主题的含义，即使数据源不同，这些词也会在不同数据源的词分布中占据重要地位。但因为不同的数据源侧重点不同，taste和price等判别词只会较多出现在Aset数据集中，而几乎不出现在NewSet数据集中，主要原因为亚马逊的评论通常侧重从食物的价格和味道来评判食物，而新闻主要是从食物本身的风味特征来描述食物，所以不同数据源下相同主题的判别词虽然相似但不同。类似地，对于sport主题，新闻文章与评论文章都有game、player等词，但新闻文章通常集中在奥运会等重要的体育赛事上，而评论文章对sport主题的评论通常与普通赛事有关，这证明了不同数据源具有不同但相似的主题-词分布，而判别词的不同也证明了MCDMAfp模型能够学习并保留每个数据源独特的源级词特征。

下载CSV 表 3 NASet多源数据集上每个数据源的部分特征词和噪音词 Table 3 Some feature words and noise words of each data source in NASet multi-source dataset

4.4 超参数对MCDMAfp模型性能的影响 4.4.1 超参数$ \omega $

本文研究了$ \omega $值对MCDMAfp模型性能的影响，将迭代次数、α、N、λ和β分别设为160、1.0、30、0.9和4.0，通过改变$ \omega $值，观察MCDMAfp模型的性能变化，其中$ \omega $的取值为0.5、0.6、0.8、0.9和1.0。图 2给出了当ω取不同值时，由NMI评估的MCDMAfp模型的文档聚类性能变化。可以看出，当$ \omega $值位于0.5~0.9时，NMI值较稳定，当$ \omega $取值为1.0时，多源数据集的NMI值有明显降低。图 3给出了当$ \omega $取不同值时，MCDMAfp模型发现的噪音词数量的变化曲线。

	Download: JPG larger image
图 2 $ \mathit{\omega } $值对MCDMAfp模型聚类效果的影响 Fig. 2 The influence of the values of $ \mathit{\omega } $ on clustering effect of MCDMAfp model

	Download: JPG larger image
图 3 不同$ \mathit{\omega } $值下MCDMAfp模型发现的噪音词数量 Fig. 3 The number of noise words found by MCDMAfp model under different values of $ \mathit{\omega } $

由图 3可知，当$ \omega $值为1.0时，MCDMAfp模型发现的噪音词数量为0，这表示没有区分噪音词集与特征词集，因此文档聚类效果较差。随着$ \omega $值的增大，MCDMAfp模型发现的噪音词越来越少，这是因为噪音词的指示符$ \mathit{\gamma } $服从$ B(1, \omega ) $的伯努利分布。除此之外，可以看出在ASet数据集中发现的噪音数总比在NewSet数据集中发现的多，这是因为新闻文档用词较专业，而评论文档用词较随意。

4.4.2 超参数$ \alpha $

本文研究了$ \alpha $值对MCDMAfp模型性能的影响，将迭代次数、N、β、λ和ω分别设为160、30、4.0、0.9和0.9，通过改变$ \alpha $值，观察MCDMAfp模型的性能变化，其中$ \alpha $的取值为0.2、0.4、0.6、0.8和1.0。图 4给出了当α取不同值时，由NMI评估的MCDMAfp模型的文档聚类性能变化。可以看出，MCDMAfp模型在不同$ \alpha $值下聚类效果能够保持相对的稳定，这说明$ \alpha $值对MCDMAfp模型的影响较小。

	Download: JPG larger image
图 4 $ \mathit{\alpha } $值对MCDMAfp模型聚类效果的影响 Fig. 4 The influence of the values of $ \mathit{\alpha } $ on clustering effect of MCDMAfp model

4.4.3 超参数$ \beta $

本文研究了$ \beta $值对MCDMAfp模型性能的影响，将迭代次数、N、λ、ω和α分别设为160、30、0.9、0.9和1.0，通过改变β值，观察MCDMAfp模型的性能变化，其中$ \beta $的取值为2、3、4、5和6。图 5给出了当β取不同值时，以NMI为评估标准的MCDMAfp模型的文档聚类性能变化。可以看出，随着$ \beta $值的改变，MCDMAfp模型的聚类效果波动幅度不大，这说明$ \beta $值对MCDMAfp模型的影响较小。

	Download: JPG larger image
图 5 $ \mathit{\beta } $值对MCDMAfp模型聚类效果的影响 Fig. 5 The influence of the values of $ \mathit{\beta } $ on clustering effect of MCDMAfp model

4.4.4 超参数$ \lambda $

本文研究了$ \lambda $值对MCDMAfp模型性能的影响，将迭代次数、N、β、ω和α分别设为160、30、4.0、0.9和1.0，通过改变$ \lambda $值，观察MCDMAfp模型的性能变化，其中$ \lambda $的取值分别为0.7、0.8、0.9、1.0和1.2。图 6给出了当λ取不同值时，由NMI评估的MCDMAfp模型的文档聚类性能变化。可以看出，当$ \lambda $初始值在一定范围内变化时，对MCDMAfp模型的聚类效果没有较大影响。这是因为MCDMAfp模型会对$ \lambda $值进行更新，最大程度地减少$ \lambda $初始值对模型的干扰，从而证明MCDMAfp模型具有较强的鲁棒性。

	Download: JPG larger image
图 6 $ \mathit{\lambda } $值对MCDMAfp模型聚类效果的影响 Fig. 6 The influence of the values of $ \mathit{\lambda } $ on clustering effect of MCDMAfp model

4.4.5 主题数量$ N $

本文为证明MCDMAfp模型能够较好地估计每个数据源的主题数量，研究$ N $值对MCDMAfp模型性能的影响，将迭代次数、β、ω、α和λ分别设为160、4.0、0.9、1.0和0.9，通过改变N值，观察MCDMAfp模型的性能变化，其中$ N $的取值分别为10、15、20、25和30。图 7给出了当$ N $取不同值时，由NMI评估的MCDMAfp模型的文档聚类性能的变化。可以看出，MCDMAfp模型在不同$ N $值下保持了一定的稳定性，这证明了提前设定的$ N $值对MCDMAfp模型的影响较小，但随着$ N $值的增加，MCDMAfp模型的运行时间有所增加。

	Download: JPG larger image
图 7 $ \mathit{N} $值对MCDMAfp模型聚类效果的影响 Fig. 7 The influence of the values of $ \mathit{N} $ on clustering effect of MCDMAfp model

5 结束语

本文提出一种基于DMA与特征划分的多源文本主题模型MCDMAfp。MCDMAfp模型采用Gibbs采样算法自动估计每个数据源的主题数量，并为每个数据源提供单独的主题分布、噪音词分布以及主题-词分布参数学习每个数据源的主题特点，同时利用特征划分方法识别每个数据源内的特征词和噪声词，防止混合后的结果影响主题发现效果。在两个真实数据集上的实验结果表明，MCDMAfp模型能够保留多源数据集中每个数据源的独特性，并具有较好的主题发现效果。下一步考虑将文字嵌入与多源文本主题模型相结合，进行基于语义的多源文本主题发现研究。

参考文献

[1]	SUN Y J, QIN Y B. Multi-angle personalized microblog recommendation algorithm based on LDA model[J]. Computer Engineering, 2017, 43(4): 177-182. (in Chinese) 孙玉洁, 秦永彬. 基于LDA模型的多角度个性化微博推荐算法[J]. 计算机工程, 2017, 43(4): 177-182. DOI:10.3969/j.issn.1000-3428.2017.04.030
[2]	HUANG R Z, YU G, WANG Z J, et al. Dirichlet process mixture model for document clustering with feature partition[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(8): 1748-1759. DOI:10.1109/TKDE.2012.27
[3]	BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[4]	QIANG J P, LI Y, YUAN Y H, et al. Short text clustering based on Pitman-Yor process mixture model[J]. Applied Intelligence, 2018, 48(7): 1802-1812. DOI:10.1007/s10489-017-1055-4
[5]	YANG S, HUANG G, CAI B. Discovering topic representative terms for short text clustering[J]. IEEE Access, 2019, 7: 92037-92047. DOI:10.1109/ACCESS.2019.2927345
[6]	JIN O, LIU N N, ZHAO K, et al. Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management. New York, USA: ACM Press, 2011: 775-784.
[7]	YAN Y Y, HUANG R Z, MA C, et al. Improving document clustering for short texts by long documents via a Dirichlet multinomial allocation model[C]//Proceedings of Asia-Pacific Web(APWeb) and Web-Age Information Management(WAIM) Joint Conference on Web and Big Data. Berlin, Germany: Springer, 2017: 626-641.
[8]	YAN Y Y, HUANG R Z, WANG R, et al. A document understanding method for short texts by auxiliary long documents[J]. Journal of Shandong University(Engineering Science), 2017, 48(3): 67-74. (in Chinese) 闫盈盈, 黄瑞章, 王瑞, 等. 一种长文本辅助短文本的文本理解方法[J]. 山东大学学报(工学版), 2017, 48(3): 67-74.
[9]	HONG L, DOM B, GURUMURTHY S, et al. A time-dependent topic model for multiple text streams[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2011: 832-840.
[10]	ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. [S. l. ]: AUAI Press, 2004: 487-494.
[11]	CHEN L, ZHANG H Z, JOSE J M, et al. Topic detection and tracking on heterogeneous information[J]. Journal of Intelligent Information Systems, 2018, 51(1): 115-137. DOI:10.1007/s10844-017-0487-y
[12]	YANG Y, WANG F F, ZHANG J N, et al. A topic model for co-occurring normal documents and short texts[J]. World Wide Web, 2018, 21(2): 487-513. DOI:10.1007/s11280-017-0467-8
[13]	QIANG J P, CHEN P, DING W, et al. Heterogeneous-length text topic modeling for reader-aware multi-document summarization[J]. ACM Transactions on Knowledge Discovery from Data, 2019, 13(4): 1-21.
[14]	SALOMATIN K, YANG Y, LAD A. Multi-field correlated topic modeling[C]//Proceedings of 2009 SIAM International Conference on Data Mining. [S. l. ]: Society for Industrial and Applied Mathematics, 2009: 628-637.
[15]	BLEI D M, LAFFERTY J D. Correlated topic models[EB/OL]. [2020-04-11]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=410BA922B13452F633E26A63E2B1D12A?doi=10.1.1.61.2352&rep=rep1&type=pdf.
[16]	NIU S S, CHAI X L, LI D Q, et al. A text classification algorithm based on neural network and LDA[J]. Computer Engineering, 2019, 45(10): 208-214. (in Chinese) 牛硕硕, 柴小丽, 李德启, 等. 一种基于神经网络与LDA的文本分类算法[J]. 计算机工程, 2019, 45(10): 208-214.
[17]	GHOSH R, ASUR S. Mining information from heterogeneous sources: a topic modeling approach[J]. Information, 2017, 8(3): 79. DOI:10.3390/info8030079
[18]	ZHANG J W, GEROW A, ALTOSAAR J, et al. Fast, flexible models for discovering topic correlation across weakly-related collections[EB/OL]. [2020-04-11]. https://arxiv.org/abs/1508.04562.
[19]	TEH Y W, JORDAN M I, BEAL M J, et al. Sharing clusters among related groups: hierarchical Dirichlet processes[C]//Proceedings of the 17th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2005: 1385-1392.
[20]	KIM S, TADESSE M G, VANNUCCI M. Variable selection in clustering via Dirichlet process mixture models[J]. Biometrika, 2006, 93(4): 877-893. DOI:10.1093/biomet/93.4.877
[21]	HEINRICH G. Parameter estimation for text analysis[EB/OL]. [2020-04-11]. https://www.researchgate.net/publication/228654366_Parameter_Estimation_for_Text_Analysis.
[22]	ZHONG S. Semi-supervised model-based document clustering: a comparative study[J]. Machine Learning, 2006, 65(1): 3-29. DOI:10.1007/s10994-006-6540-7
[23]	JAIN A K. Data clustering: 50 years beyond K-means[J]. Pattern Recognition Letters, 2010, 31(8): 651-666.