2. 公共大数据国家重点实验室, 贵阳 550025
2. State Key Laboratory of Public Big Data, Guiyang 550025, China
开放科学(资源服务)标志码(OSID):
随着计算机网络技术的快速发展,各种各样的Internet/Intranet应用在全球范围内日益普及,产生了大量的文本信息。研究人员将来自多个应用平台的不同来源的文本集合到一起构成多源文本数据集。在一般情况下,多源文本数据集中的主题信息要比单源文本数据集中的主题信息更加全面准确。因此,研究一种能挖掘多源文本数据集中主题信息的文本挖掘模型是非常必要的[1]。
主题模型是目前较流行的文本挖掘模型,因此需研究一种针对多源文本数据集的主题模型来挖掘多源文本数据集中的文本信息,但传统主题模型挖掘多源文本数据集信息时存在两方面的问题。一方面,在多源文本数据集中,每一篇文档都由大量的词来表示,包括特征词和大量的无关噪声词,并且由于书写风格的不同,因此来自不同数据源的噪声词也不同,不相关的噪声词会干扰模型构建,导致模型性能不佳。另一方面,每个数据源中相同主题的词分布相似但不相同也会影响主题模型的性能,例如新闻网站和社交媒体论述同一主题,部分能够明确指向主题含义的词语会同时出现在这两个数据源中,但由于描述角度的不同会导致一些特定词语只出现在其中一个数据源中。因此,直接采用传统主题模型挖掘多源文本的词特征等信息会因为不同来源的主题的书写风格差异以及描述角度的不同严重影响模型性能,并且在多源文本数据集中对主题数量的估计也非常困难。对于多数传统主题模型而言,主题数量被认为是需用户事先确定的参数,但在进行主题模型挖掘前提供正确的主题数量是不切实际的。此外,对于不同的数据源,主题数量通常是不同的,从而大幅增加了主题数量正确估计的难度。因此,如果多源文本主题模型能够自动地估计每个数据源的主题数量,则对于模型的推广和应用是非常有利的。本文提出一种新的多源文本主题模型MCDMAfp。MCDMAfp以狄利克雷多项式分配(Dirichlet Multinomial Allocation,DMA)模型为基础。当主题数量无穷大时,DMA模型近似为狄利克雷过程混合(Dirichlet Process Mixture,DPM)模型[2]。DMA模型作为DPM模型的近似模型,能够自动推断出数据集的主题数量,而无需提前设置主题数量。
1 相关工作网络信息随着互联网的高速发展呈现爆炸式增长,如何快速准确地从这些海量数据中获取有用的信息成为研究人员关注的焦点。主题模型是目前较流行的文本挖掘模型,其中较常见的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型由BLEI等[3]于2003年提出。后续的主题模型多数建立在LDA模型的基础上,例如针对短文本集的PYPM模型[4]以及TRTD模型[5],其中,PYPM模型可在无需人为提前设置主题数量的情况下进行主题聚类,TRTD模型利用词的贴近性和重要性,解决了短文本集信息稀疏的问题。但是,目前文本信息的来源多样,而上述模型均在单源数据集上进行,不能直接应用于多源数据集。
近年来,针对多源文本的主题模型被陆续提出,例如DLDA模型[6]、DDMAfs模型[7]和DDMR模型[8],这3种模型的主要思想是利用辅助数据源的文本信息提升目标数据源的主题发现效果,但其目标仍是解决单个数据源的建模问题。除此之外,一部分多源文本主题模型虽然旨在解决多数据源的建模问题,但仅能应用于特定领域[9],例如:结合ATM[10]与LDA模型的HTM模型[11],HTM模型假设Twitter文本为ATM模型生成,新闻文本由LDA模型生成,两者受同一主题-词分布影响,提升了整体聚类效果;COTM模型[12]是针对新闻及其评论数据源的主题模型,能从这两个数据源中学习相应的主题,并提升整体聚类效果;HHTM模型[13]主要针对新闻报道和用户评论,提高了摘要生成质量。
由于上述主题模型仅能应用于特定领域,不具备普适性,因此针对多源文本的主题模型的研究也逐渐增多。文献[14]提出的mf-CTM模型适用于多源文本数据集,基于CTM[15]模型扩展得到,继承了CTM的优点,能够对主题之间的相关性进行建模,并且能对多领域及多数据源进行主题建模,但mf-CTM模型假设所有数据源的文本集共享相同的主题分布参数,而现实生活中不同数据源通常有不同的主题分布,这就导致了mf-CTM模型不能很好地应用于多源数据集主题模型的构建。文献[16]提出的Probabilistic Source LDA模型能够为每个数据源计算潜在主题,维护源之间的主题-主题对应关系,保留每个数据源独特的特征,但是该模型的构建需要已知数据源的先验知识,这提升了模型构建的难度,并且该模型是标准的LDA[17]扩展模型,不能自动推断每个数据源的主题数量。文献[18]提出的C-LDA和C-HDP模型扩展了ccLDA以适应集合主题级的不对称性,使得两个模型能发现具有不同主题数量的任意集合之间的主题关联性。C-LDA模型与LDA模型类似,需要人为提前设定主题数量。C-HDP模型继承了HDP模型[19]的优点,无需人为设定主题数量,方便了模型的应用。但是,C-HDP与C-LDA模型多数针对同一数据源的多个数据集,若应用于多源数据集,则不能较好地学习每个数据源的源级词特征。
2 MCDMAfp模型 2.1 相关定义单词
由于词汇表中只有一部分词对数据集中的不同文档有区分作用,因此本文引入一个潜在的二元向量
$ \mathit{\gamma }=\left\{\begin{array}{l}1, j\in \Omega \\ 0, j\notin \Omega \end{array}\right. $ | (1) |
本文为
MCDMAfp模型的基本思想是:1)多源文本数据集中同一主题的词分布共享同一先验;2)多源文本数据集中每个数据源具有主题分布、主题-词分布以及噪音词分布参数。MCDMAfp模型的图形化表示如图 1所示。
![]() |
Download:
|
图 1 MCDMAfp模型的图形化表示 Fig. 1 Graphical representation of MCDMAfp model |
本文模型假设多源文本数据集
1) 对于每个数据源
(1) 选择
(2) 选择
(3) 选择
2) 对于每个主题
(1) 选择
(2) 选择
3) 对于每篇文档
(1) 选择
(2) 选择
(3) 选择
其中:
$ \begin{array}{l}f\left({x}_{d}^{s}\right|\mathit{\boldsymbol{\gamma }}, {\eta }_{{z}_{d}}^{s}, {\eta }_{0}^{s})=f({x}_{d}^{s}\mathit{\boldsymbol{\gamma }}\left|{\eta }_{{z}_{d}}^{s}\right)f\left({x}_{d}^{s}\right(1-\mathit{\boldsymbol{\gamma }}\left)\right|{\eta }_{0}^{s})=\\ \frac{|{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}}!}{\prod \limits_{\begin{array}{l}j=1\\ {\gamma }_{j}^{s}=1\end{array}}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}({\eta }_{{z}_{d}, j}^{s}{)}^{{x}_{dj}^{s}{\gamma }_{j}^{s}}\frac{|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{\begin{array}{l}j=1\\ {\gamma }_{j}^{s}=0\end{array}}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}({\eta }_{0, j}^{s}{)}^{{x}_{dj}^{s}(1-{\gamma }_{j}^{s})}=\\ \frac{|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{j=1}^{W}{x}_{dj}^{s}!}\prod \limits_{j=1}^{W}\left({\eta }_{{z}_{d}, j}^{s}{)}^{{}^{{x}_{dj}^{s}{\gamma }_{j}^{s}}}\right({\eta }_{0, j}^{s}{)}^{{x}_{dj}^{s}(1-{\gamma }_{j}^{s})}\end{array} $ | (2) |
其中,
$ \begin{array}{l}f\left(M\right|Z, \mathit{\boldsymbol{\gamma }}, \beta )=\prod \limits_{s=1}^{S}\prod \limits_{d=1}^{{D}^{s}}\int p\left({x}_{d}^{s}\right|\mathit{\boldsymbol{n}}, {\eta }^{s}, {\eta }_{0}^{s}\left)p\right({\eta }^{s}\left|{\lambda }_{i}\right)\cdot \\ p\left({\eta }_{0}^{s}\right|\beta )\mathrm{d}{\eta }^{s}\mathrm{d}{\eta }_{0}^{s}=\prod \limits_{s=1}^{S}\prod \limits_{d=1}^{{D}^{s}}\frac{|{x}_{d}^{s}{|}_{\mathit{\boldsymbol{\gamma }}}!|{x}_{d}^{s}{|}_{1-\mathit{\boldsymbol{\gamma }}}!}{\prod \limits_{j=1}^{W}{x}_{dj}^{s}!}\cdot {S}_{\lambda , \beta }\cdot {S}_{\lambda }\cdot {S}_{\beta }\end{array} $ | (3) |
$ {S}_{\lambda , \beta }=\prod \limits_{i=1}^{N}\frac{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)}{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\lambda }_{i}^{j}\right)}\cdot \frac{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}\right)}{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\beta }_{j}\right)} $ | (4) |
$ {S}_{\lambda }=\prod \limits_{i=1}^{N}\frac{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\lambda }_{i}^{j}+\sum\limits_{\{d:{z}_{d}=i\}}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)}{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:{z}_{d}=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)} $ | (5) |
$ {S}_{\beta }=\frac{\prod \limits_{j=1}^{W}\mathrm{\Gamma }\left({\beta }_{j}+\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)}{\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}+\sum\limits_{j=1}^{W}\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)} $ | (6) |
传统主题模型多数为了方便计算,将主题-词分布的狄利克雷先验参数设置为统一值,但实际上先验参数代表了词的分布情况,例如
本文通过优化生成整个数据集的后验概率来获得参数
$ P\left({\chi }_{s}\right)\approx \prod \limits_{d=1}^{{D}^{s}}\frac{|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!}{\prod \limits_{j=1}^{W}{x}_{dj}!}\cdot {S}_{\lambda , \beta }\cdot {S}_{\lambda }\cdot {S}_{\beta } $ | (7) |
为了方便计算,本文使用对数似然函数进行运算,计算如下:
$ \begin{array}{l}\mathrm{l}\mathrm{n}P\left({\chi }_{s}\right)\approx \sum\limits_{d=1}^{{D}^{s}}\left(\stackrel{}{\underset{}{\mathrm{l}\mathrm{n}\left(\right|{x}_{d}^{s}{|}_{\mathit{\gamma }}!|{x}_{d}^{s}{|}_{1-\mathit{\gamma }}!)-}}\right.\\ \left.\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}({x}_{dj}^{s}!)+\mathrm{l}\mathrm{n}{S}_{\lambda , \beta }+\mathrm{l}\mathrm{n}{S}_{\lambda }+\mathrm{l}\mathrm{n}{S}_{\beta }\right)\end{array} $ | (8) |
$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\lambda , \beta }=\sum\limits_{i=1}^{N}\left(\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)-\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\lambda }_{i}^{j}\right)\right)+\\ \mathrm{l}\mathrm{n}\mathrm{ }\left(\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}^{}\right)-\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\beta }_{j}^{}\right)\right)\end{array} $ | (9) |
$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\lambda }=\sum\limits_{i=1}^{N}\left(\sum\limits_{j=1}^{W}\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\right.\left({\lambda }_{i}^{j}+\sum\limits_{d:{z}_{d}=i}^{}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-\\ \left.\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:{z}_{d}=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\right)\end{array} $ | (10) |
$ \begin{array}{l}\mathrm{l}\mathrm{n}{S}_{\beta }=\sum\limits_{j=1}^{W}\left(\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left({\beta }_{j}^{}+\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)-\right.\\ \left.\mathrm{l}\mathrm{n}\mathrm{ }\mathrm{\Gamma }\left(\sum\limits_{j=1}^{W}{\beta }_{j}^{}+\sum\limits_{j=1}^{W}\sum\limits_{d=1}^{D}{x}_{dj}^{s}(1-{\gamma }_{j}^{s})\right)\right)\end{array} $ | (11) |
然后得到参数
$ \begin{array}{l}\frac{\partial \mathrm{l}\mathrm{n}P\left({\chi }_{s}\right)}{\partial {\lambda }_{i}^{j}}={\mathit{\Psi}} \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)-{\mathit{\Psi}} \left({\lambda }_{i}^{j}\right)+\\ {\mathit{\Psi}} \left({\lambda }_{i}^{j}+\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-{\mathit{\Psi}} \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}+\sum\limits_{j=1}^{W}\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\end{array} $ | (12) |
其中,
$ {\lambda }_{i\mathrm{n}\mathrm{e}\mathrm{w}}^{j}={\lambda }_{i}^{j}\frac{\sum\limits_{d=1}^{{D}^{s}}\left(\Psi \left({\lambda }_{i}^{j}+\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)-\Psi \left({\lambda }_{i}^{j}\right)\right)}{\sum\limits_{d=1}^{{D}^{s}}\left(\Psi \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right.+\sum\limits_{J=1}^{W}\left.\sum\limits_{d:zd=i}{x}_{dj}^{s}{\gamma }_{j}^{s}\right)\right.\left.-\Psi \left(\sum\limits_{j=1}^{W}{\lambda }_{i}^{j}\right)\right)} $ | (13) |
对于MCDMAfp模型,本文得到马尔科夫链,
1) 通过重复以下步骤
$ q=\mathrm{m}\mathrm{i}\mathrm{n}\left\{1, \frac{f\left({\mathit{\boldsymbol{\gamma }}}_{\mathrm{n}\mathrm{e}\mathrm{w}}\right|{\chi }^{s}, {z}^{s})}{f\left({\mathit{\boldsymbol{\gamma }}}_{\mathrm{o}\mathrm{l}\mathrm{d}}\right|{\chi }^{s}, {z}^{s})}\right\} $ | (14) |
其中,
2) 在给定其他潜在变量的条件下,对于
$ {T}_{1}=\left\{{\lambda }_{i}^{1}+\sum\limits_{d:{z}_{d}=i}{x}_{d1}^{s}{\gamma }_{1}^{s}, {\lambda }_{i}^{2}+\sum\limits_{d:{z}_{d}=i}{x}_{d2}^{s}{\gamma }_{2}^{s}, \cdots , {\lambda }_{i}^{W}+\sum\limits_{d:{z}_{d}=i}{x}_{dW}^{s}{\gamma }_{W}^{s}\right\} $ | (15) |
3) 将T2作为Dirichlet分布的参数,采样更新
$ {T}_{2}=\left\{{\beta }_{1}+\sum\limits_{d=1}^{{D}^{s}}{x}_{d1}^{s}(1-{\gamma }_{1}^{s}), {\beta }_{2}+\sum\limits_{d=1}^{{D}^{s}}{x}_{d2}^{s}(1-{\gamma }_{2}^{s}), \cdots , {\beta }_{W}+\sum\limits_{d=1}^{{D}^{s}}{x}_{dW}^{s}(1-{\gamma }_{W}^{s})\right\} $ | (16) |
4) 将T3作为Dirichlet分布的参数,采样更新
$ {T}_{3}=\left\{\frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=1), \frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=2), \cdots , \frac{\alpha }{N}+\sum\limits_{d=1}^{{D}^{s}}I({z}_{d}=N)\right\} $ | (17) |
其中,
5) 在给定其他潜在变量时,对于
在采样过程的不同数据源中,为保证主题的一一对应,即数据源
本文使用标准化互信息(Normalized Mutual Information,NMI)来评估聚类质量。NMI表示主题模型得到的聚类结果与标准结果之间的相似性,其取值区间为
$ {N}_{\mathrm{N}\mathrm{M}\mathrm{I}}=\frac{\sum\limits_{h, l}{d}_{h, l}\mathrm{l}\mathrm{b}\frac{D{d}_{h, l}}{{d}_{h}{c}_{l}}}{\sqrt{\sum\limits_{h}{d}_{h}\mathrm{l}\mathrm{b}\frac{{d}_{h}}{D}\sum\limits_{l}{c}_{l}\mathrm{l}\mathrm{b}\frac{{c}_{l}}{D}}} $ | (18) |
其中:
本文使用NASet和BTSet两个真实的多源文本数据集来验证MCDMAfp模型的准确性:
1) NASet数据集。该数据集包含9 986篇文本和food与sport两个主题,其中,5 000篇文本来自HuffPost网站的新闻文章(记为NewSet),剩余文本来自Amazon网站的评论文本(记为ASet)。
2) BTSet数据集。该数据集包含10 000篇文本和4个主题,其中:5 000篇文本来自BBC网站收集的新闻文章(记为bbcSet),共有travel、bussiness、sport、politic等4个主题;5 000篇文本来自Twitter收集的文章(记为TSet),共有bussiness、sport、politic等3个主题。
对于这两个数据集,本文进行以下预处理:1)将字母转换为小写字母;2)删除非拉丁字符和停止字符;3)删除长度小于2或大于15的单词。
4.3 实验结果本文在NASet和BTSet数据集上进行实验,并评估MCDMAfp模型的性能。为便于对比研究,将K-means模型[23]作为基线模型,对比模型包括基于单源数据集的PYPM模型以及基于多源数据集的C-LDA和C-HDP模型。各模型在NASet和BTSet数据集上的聚类效果如表 1所示。PYPM模型与K-means模型表示将每个多源数据集中每个数据源的文本集单独作为该模型的输入。PYPMall模型和K-meansall模型表示将多源数据集中所有数据源的文本集融合成一个数据集,并当作单源数据集作为该模型的输入。K-means模型(k=30)表示在K-means模型中设定的主题数量为30,K-means模型(k为真实值)表示在K-means模型中设定的主题数量为各数据集中真实的主题数量。PYPMall模型在NASet和BTSet多源数据集上的NMI值为0.770和0.237。K-meansall模型(k=30)在NASet和BTSet多源数据集上的NMI值为0.276和0.207。K-meansall模型(k为真实值)在NASet和BTSet多源数据集上的NMI值为0.209和0.110。从表 1可以看出,MCDMAfp模型相比其他模型聚类效果更好。
![]() |
下载CSV 表 1 5种模型在NASet和BTSet多源数据集上的NMI值 Table 1 NMI values of five models on NASet and BTSet multi-source datasets |
各模型估计的主题数量如表 2所示,其中PYPMall模型在NASet和BTSet多源数据集上的主题数量为9 986和10 000。从表 2可以看出:PYPM模型估计的主题数量比较多,这是因为PYPM模型无需提前输入主题数量,而是直接将文档数目当作主题数量,所以PYPM模型估计的主题数目比较大;MCDMAfp模型相比其他模型发现的主题数量更接近于真实情况,而且每个数据源都拥有被估计的主题数量,这证明了MCDMAfp模型能保留多源数据集中每个数据源的主题特征。
![]() |
下载CSV 表 2 4种模型在NASet和BTSet多源数据集上估计的主题数量 Table 2 Number of topics estimated by four models on NASet and BTSet multi-source datasets |
本文进一步研究了NASet多源数据集中每个数据源的部分特征词和噪音词,如表 3所示。可以看出,每个数据源的噪音词集不同,并且与特征词集无关。这证明了MCDMAfp模型能够将每个数据源的特征词集与噪音词集分开,避免了噪音词集对模型的干扰。在表 3中的特征词展示的是每个主题下概率最大的前20个特征词。针对food主题,两个数据集都出现了food、chocolate等词,主要原因为这些词可以明确指示主题的含义,即使数据源不同,这些词也会在不同数据源的词分布中占据重要地位。但因为不同的数据源侧重点不同,taste和price等判别词只会较多出现在Aset数据集中,而几乎不出现在NewSet数据集中,主要原因为亚马逊的评论通常侧重从食物的价格和味道来评判食物,而新闻主要是从食物本身的风味特征来描述食物,所以不同数据源下相同主题的判别词虽然相似但不同。类似地,对于sport主题,新闻文章与评论文章都有game、player等词,但新闻文章通常集中在奥运会等重要的体育赛事上,而评论文章对sport主题的评论通常与普通赛事有关,这证明了不同数据源具有不同但相似的主题-词分布,而判别词的不同也证明了MCDMAfp模型能够学习并保留每个数据源独特的源级词特征。
![]() |
下载CSV 表 3 NASet多源数据集上每个数据源的部分特征词和噪音词 Table 3 Some feature words and noise words of each data source in NASet multi-source dataset |
本文研究了
![]() |
Download:
|
图 2 |
![]() |
Download:
|
图 3 不同 |
由图 3可知,当
本文研究了
![]() |
Download:
|
图 4 |
本文研究了
![]() |
Download:
|
图 5 |
本文研究了
![]() |
Download:
|
图 6 |
本文为证明MCDMAfp模型能够较好地估计每个数据源的主题数量,研究
![]() |
Download:
|
图 7 |
本文提出一种基于DMA与特征划分的多源文本主题模型MCDMAfp。MCDMAfp模型采用Gibbs采样算法自动估计每个数据源的主题数量,并为每个数据源提供单独的主题分布、噪音词分布以及主题-词分布参数学习每个数据源的主题特点,同时利用特征划分方法识别每个数据源内的特征词和噪声词,防止混合后的结果影响主题发现效果。在两个真实数据集上的实验结果表明,MCDMAfp模型能够保留多源数据集中每个数据源的独特性,并具有较好的主题发现效果。下一步考虑将文字嵌入与多源文本主题模型相结合,进行基于语义的多源文本主题发现研究。
[1] |
SUN Y J, QIN Y B. Multi-angle personalized microblog recommendation algorithm based on LDA model[J]. Computer Engineering, 2017, 43(4): 177-182. (in Chinese) 孙玉洁, 秦永彬. 基于LDA模型的多角度个性化微博推荐算法[J]. 计算机工程, 2017, 43(4): 177-182. DOI:10.3969/j.issn.1000-3428.2017.04.030 |
[2] |
HUANG R Z, YU G, WANG Z J, et al. Dirichlet process mixture model for document clustering with feature partition[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(8): 1748-1759. DOI:10.1109/TKDE.2012.27 |
[3] |
BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. |
[4] |
QIANG J P, LI Y, YUAN Y H, et al. Short text clustering based on Pitman-Yor process mixture model[J]. Applied Intelligence, 2018, 48(7): 1802-1812. DOI:10.1007/s10489-017-1055-4 |
[5] |
YANG S, HUANG G, CAI B. Discovering topic representative terms for short text clustering[J]. IEEE Access, 2019, 7: 92037-92047. DOI:10.1109/ACCESS.2019.2927345 |
[6] |
JIN O, LIU N N, ZHAO K, et al. Transferring topical knowledge from auxiliary long texts for short text clustering[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management. New York, USA: ACM Press, 2011: 775-784.
|
[7] |
YAN Y Y, HUANG R Z, MA C, et al. Improving document clustering for short texts by long documents via a Dirichlet multinomial allocation model[C]//Proceedings of Asia-Pacific Web(APWeb) and Web-Age Information Management(WAIM) Joint Conference on Web and Big Data. Berlin, Germany: Springer, 2017: 626-641.
|
[8] |
YAN Y Y, HUANG R Z, WANG R, et al. A document understanding method for short texts by auxiliary long documents[J]. Journal of Shandong University(Engineering Science), 2017, 48(3): 67-74. (in Chinese) 闫盈盈, 黄瑞章, 王瑞, 等. 一种长文本辅助短文本的文本理解方法[J]. 山东大学学报(工学版), 2017, 48(3): 67-74. |
[9] |
HONG L, DOM B, GURUMURTHY S, et al. A time-dependent topic model for multiple text streams[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2011: 832-840.
|
[10] |
ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]//Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. [S. l. ]: AUAI Press, 2004: 487-494.
|
[11] |
CHEN L, ZHANG H Z, JOSE J M, et al. Topic detection and tracking on heterogeneous information[J]. Journal of Intelligent Information Systems, 2018, 51(1): 115-137. DOI:10.1007/s10844-017-0487-y |
[12] |
YANG Y, WANG F F, ZHANG J N, et al. A topic model for co-occurring normal documents and short texts[J]. World Wide Web, 2018, 21(2): 487-513. DOI:10.1007/s11280-017-0467-8 |
[13] |
QIANG J P, CHEN P, DING W, et al. Heterogeneous-length text topic modeling for reader-aware multi-document summarization[J]. ACM Transactions on Knowledge Discovery from Data, 2019, 13(4): 1-21. |
[14] |
SALOMATIN K, YANG Y, LAD A. Multi-field correlated topic modeling[C]//Proceedings of 2009 SIAM International Conference on Data Mining. [S. l. ]: Society for Industrial and Applied Mathematics, 2009: 628-637.
|
[15] |
BLEI D M, LAFFERTY J D. Correlated topic models[EB/OL]. [2020-04-11]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=410BA922B13452F633E26A63E2B1D12A?doi=10.1.1.61.2352&rep=rep1&type=pdf.
|
[16] |
NIU S S, CHAI X L, LI D Q, et al. A text classification algorithm based on neural network and LDA[J]. Computer Engineering, 2019, 45(10): 208-214. (in Chinese) 牛硕硕, 柴小丽, 李德启, 等. 一种基于神经网络与LDA的文本分类算法[J]. 计算机工程, 2019, 45(10): 208-214. |
[17] |
GHOSH R, ASUR S. Mining information from heterogeneous sources: a topic modeling approach[J]. Information, 2017, 8(3): 79. DOI:10.3390/info8030079 |
[18] |
ZHANG J W, GEROW A, ALTOSAAR J, et al. Fast, flexible models for discovering topic correlation across weakly-related collections[EB/OL]. [2020-04-11]. https://arxiv.org/abs/1508.04562.
|
[19] |
TEH Y W, JORDAN M I, BEAL M J, et al. Sharing clusters among related groups: hierarchical Dirichlet processes[C]//Proceedings of the 17th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2005: 1385-1392.
|
[20] |
KIM S, TADESSE M G, VANNUCCI M. Variable selection in clustering via Dirichlet process mixture models[J]. Biometrika, 2006, 93(4): 877-893. DOI:10.1093/biomet/93.4.877 |
[21] |
HEINRICH G. Parameter estimation for text analysis[EB/OL]. [2020-04-11]. https://www.researchgate.net/publication/228654366_Parameter_Estimation_for_Text_Analysis.
|
[22] |
ZHONG S. Semi-supervised model-based document clustering: a comparative study[J]. Machine Learning, 2006, 65(1): 3-29. DOI:10.1007/s10994-006-6540-7 |
[23] |
JAIN A K. Data clustering: 50 years beyond K-means[J]. Pattern Recognition Letters, 2010, 31(8): 651-666. |