根据《科学引文索引》提供的数据, 2016年中国作者共计发表 32.42万篇论文[1]。随着科学技术的快速发展, 科研成果的数量呈快速增长趋势, 各学科的论文朝着学科交叉日益深化, 所蕴含的语义信息也更为复杂。科研工作者如何从这些海量学术成果中寻找到自己需要的信息, 获取论文的主题关键词, 已经成为当今的重要研究内容。
学术论文研究热点挖掘旨在提取论文主题, 而机器学习和自然语言处理等领域广泛使用主题模型挖掘一系列文档中的抽象主题。普遍使用的主题模型有概率隐性语义分析(Probabilistic Latent Semantic Analysis, PLSA)和隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)。PLSA是一种基于概率统计的主题模型, 其对文本进行概率统计建模, 把文档集投影到语义空间中[2]。概率隐性语义分析模型假设文档和词之间存在一层隐语义, 而该隐语义就是主题, 文档由主题生成; 文档主题符合多项分布, 一个主题中的词也符合多项分布, 但是PLSA没有提供文档级别的概率模型。文献[3]提出的LDA主题模型中加入了文档级别的概率模型表示, 也称为3层贝叶斯概率模型。该模型采用词袋(Bag of Words, BoW)表示的方法, 该方法将每一篇文档视为一个词频向量, 从而将文本信息转化为易于建模的数字信息。
近年来, 随着深度学习和机器学习的兴起, 许多学者对论文分析和主题挖掘进行了大量研究。文献[4]提出一种基于Doc2Vec与HMM算法的文本内容特征因子计算模型, 研究学术论文主题。文献[5]通过LDA模型与Word2Vec算法获取科技文献的主题词概率, 并构建词义相关的T-WV矩阵识别主题, 优化LDA模型。文献[6]通过潜在狄利克雷分布主题模型挖掘频繁出现的主题集合, 进行学术论文推荐。文献[7]通过主题模型挖掘企业新闻文本及情感分析。文献[8]提出MB-LDA模型并挖掘微博主题与人物间的关系。
虽然基于LDA模型的主题挖掘方法得到广泛应用, 但有时会得出一些难以理解或无意义的结果。为解决该问题, 本文提出一种改进LDA挖掘抽象主题的方法。随着大数据技术的发展, Apache Spark因具有运行速度快、易于使用、通用性和扩展性强等特点而广受欢迎[9]。Apache Spark的通用性体现在其包含Spark SQL、Spark Streaming、GraphX、MLlib等模块[10], 可以方便快速地利用其中一个或多个模块构建模型, 因此本文使用MLlib机器学习库中的LDA主题模型构建学术研究热点挖掘模型。
1 模型设计本节介绍学术论文研究热点挖掘模型的设计, 包括数据预处理、LDA模型求解、主题选择与主题排序。学术论文研究热点挖掘模型的整体框架如图 1所示。
![]() |
Download:
|
图 1 学术论文研究热点挖掘模型的整体框架 |
数据预处理是保证整个系统高效准确运行的基础。本文抽取了学术论文的标题、摘要和关键词并进行数据预处理, 主要包括分词、去停用词、文本表示等工作。
由于LDA算法需要的输入是每一篇文档的词的词频, 因此先要对文章中的句子进行分词。NLPIR分词系统的分词准确性较高, 因此选用NLPIR分词系统对文本进行分词[11]。在使用分词工具时, 加入词典能提高准确率, 学术论文中的关键词具有专业性和代表性, 在收集整理了所有语料库中的关键词后, 将其加载到分词工具中进行分词。
停用词是在处理自然语言数据之前或之后被过滤掉的词[12]。在中文语言中也同样存在停用词, 例如, “的”“是”“啊”等。本文在去除常用的停用词基础上, 还对分词后的词库进行词频统计, 去除一些高频词, 从而有效减少其对模型结果的干扰。
本文采用向量空间模型(Vector Space Model, VSM)[13]进行主题模型LDA的文本表示。向量空间模型将复杂的文档表示成多维空间模型, 同时引入特征权重, 而不像布尔模型那样使用0或1, 这样计算更加容易, 表示意义更加丰富, 是目前最有效的文本表示模型之一。
1.2 LDA模型求解LDA将文档与词的关系转化为文档与主题的关系和主题与词的关系。LDA实现过程如图 2所示, 其中,
![]() |
Download:
|
图 2 LDA模型实现过程 |
由基于LDA模型的实现过程可知, LDA模型通过Dirichlet分布先验假设对主题分布及词分布进行采样, 完成对文档集合的建模。因此, 在给定文档集合的条件下, 反推主题分布与词分布就是LDA模型的求解过程。
模型的求解方法分为精确求解和近似求解, 尽管LDA模型是一个简单的主题模型, 但对其参数的精确求解依然存在较大困难。一般采用近似求解的方法对LDA模型进行参数估计, 通常选取平均场变分期望最大化和Gibbs采样两种方法。
在Spark EM LDA算法中, 参数的求解是利用Gibbs采样估计。Gibbs采样方法基于马尔可夫链蒙特卡尔理论, 通过获取一系列近似等于指定多维概率分布的算法进行参数求解[14]。
根据图 2可知, 对于给定文档集合, 其可观测样本为词分布Wm, n, 则求解给定Dirichlet分布参数条件下的联合概率分布, 公式如下:
$ \begin{array}{l} p\left( {{\mathit{\boldsymbol{w}}_m},{\mathit{\boldsymbol{z}}_m},{\mathit{\boldsymbol{\vartheta}} _m},\mathit{\boldsymbol{\phi}} |\mathit{\boldsymbol{\alpha }},\mathit{\boldsymbol{\beta }}} \right) = \\ p(\phi |\mathit{\boldsymbol{\beta }})\prod\limits_{n = 1}^{{N_m}} {p\left( {{w_{m,n}}|{\bf{\mathit{\boldsymbol{ \pmb{\mathsf{ φ}} }}}},{z_{m,n}}} \right)} p({z_{m,n}}|{\mathit{\boldsymbol{\vartheta}} _m})p\left( {{\mathit{\boldsymbol{\vartheta}} _m}|\mathit{\boldsymbol{\alpha }}} \right) \end{array} $ | (1) |
在α、β已知的条件下, 给定的文档wm的似然函数可通过计算
$ \begin{array}{*{20}{l}} {p\left( {{\mathit{\boldsymbol{w}}_m}|\mathit{\boldsymbol{\alpha }},\mathit{\boldsymbol{\beta }}} \right) = }\\ {\iint{p\left( {{\mathit{\boldsymbol{\vartheta}} }_{m}}|\mathrm{ }\!\!\mathit{\boldsymbol{\alpha }}\!\!\text{ } \right)}p(\phi |\mathit{\boldsymbol{\beta }})\prod\limits_{n = 1}^{{N_m}} p \left( {{\mathit{\boldsymbol{w}}_{m,n}}|{\mathit{\boldsymbol{\vartheta}} _m},\phi } \right){\rm{d}}\phi {\rm{d}}{\mathit{\boldsymbol{\vartheta}} _m}} \end{array} $ | (2) |
对于整个文档集M而言, 整体似然函数可由每个文档的似然函数的乘积表示, 公式如下:
$ {p\left( {M|\mathit{\boldsymbol{\alpha }},\mathit{\boldsymbol{\beta }}} \right) = \prod\limits_{m = 1}^M {p\left( {{\mathit{\boldsymbol{w}}_m}|\mathit{\boldsymbol{\alpha }},\mathit{\boldsymbol{\beta }}} \right)} } $ | (3) |
由LDA算法流程可知, 超参数α采样生成主题分布
$ p\left( {{z_i} = k|{\mathit{\boldsymbol{z}}_{\neg i}},\mathit{\boldsymbol{w}}} \right) = \frac{{n_{k,\neg i}^{(t)} + {\beta _t}}}{{\sum\limits_{v = 1}^v {n_k^{(v)}} + {\beta _v}}} \cdot \frac{{n_{m,\neg i}^{(k)} + {\alpha _k}}}{{\sum\limits_{j = 1}^K {n_m^{(j)}} + {\alpha _j}}} $ | (4) |
其中,
对于LDA模型的训练, 主题个数的确定非常重要, 只有合适的主题个数, 才能得到相对较好的主题和词分布。本文采用困惑度来评估模型的优劣。在通常情况下, 模型困惑度越低说明主题划分越明确, 因此困惑度最低情况下的主题数可看作是最优主题数。困惑度的计算公式如下:
$ {{Perplexity }}(M) = \exp - \frac{{\sum\limits_{m = 1}^M {{{\log }_a}} p\left( {{\mathit{\boldsymbol{w}}_m}|M} \right)}}{{\sum\limits_{m = 1}^M {{N_m}} }} $ | (5) |
其中, M是给定文档集合, wm是由Gibbs采样获得的文档向量,
TF-IDF[15]公式如下:
$ tf - idf(w,d) = tf(w,d) \times idf(w) $ | (6) |
其中, tf(w, d)表示单词w在文档d中出现的频率, idf(w)表示语料库中单词w的逆向文本频率, 定义如下:
$ idf(w) = {\log _a}(N/{d_w}) $ | (7) |
其中, N表示语料库的总数, dw表示出现过单词w的文档数量。
由LDA模型可以得到两个概率分布矩阵:文档-主题概率分布矩阵Θ和主题-词概率分布矩阵Φ。借鉴文献[16]利用TF-IDF的思想, 将其转化成文档-主题评分矩阵Θ′和主题-词评分矩阵Φ′, 表示如下:
![]() |
(8) |
其中, 1≤k≤K, k是主题个数, M是文档数目, N是词的个数, wkn表示词n对主题k的评分, 计算公式如式(9)所示。tmk表示主题k对文档m的评分, 计算公式与式(9)同理。
$ {T_{kn}} = {p_{kn}}\log (\frac{1}{{{g_n}}}) - - {p_{kn}}{\log _a}({g_n}) $ | (9) |
其中, Tkn为词n对主题k的评分, pkn为词n表示主题k的概率, gn为词n在其他主题中的全局词频。gn值越大, 表明词n在其他主题中也常出现, 即对各主题来说它是一个平凡词, 通过loga(1/gn)平凡词将在评分矩阵中获得更低的评分, 最终结果是评分越高的词, 其代表性越强。这就类似TF-IDF算法思想, 弱化了常用而不重要的词语, 称为类TF-IDF算法。
一个主题若在所有的文档中的评分分布接近均匀分布, 那么该主题对这些文档的区分度就不大。在文档-主题评分矩阵中, 选择评分方差最小的主题作为背景主题。本文使用V表示文档-主题评分矩阵的背景主题, vd表示文档d对此主题的评分, 表示如下:
![]() |
(10) |
按照信息论的观点, 可以利用熵来衡量两个随机变量的相似度。现有两个向量, 一个是评分矩阵中的主题向量T, 另一个是背景主题向量V。通过计算两个向量之间的Jensen-Shannon散度判断主题的相似度, 并确定主题向量在排序中的位置。Jensen-Shannon散度计算公式如下:
$ \begin{array}{l} JSD(\mathit{\boldsymbol{T}}\parallel \mathit{\boldsymbol{V}}) = \frac{1}{2}D(\mathit{\boldsymbol{T}}\parallel \mathit{\boldsymbol{M}}) + \frac{1}{2}D(\mathit{\boldsymbol{V}}\parallel \mathit{\boldsymbol{M}})\\ \mathit{\boldsymbol{M}} = \frac{1}{2}(\mathit{\boldsymbol{T}} + \mathit{\boldsymbol{V}}) \end{array} $ | (11) |
实验环境是Spark集群, 包括1个Master节点和4个Worker节点, 采用分布式文件系统HDFS存储数据, 具体信息如表 1所示。
![]() |
下载CSV 表 1 实验环境具体信息 |
实验语料来源于知网上的硕士、博士论文, 通过关键词在主题模式、信息科技类别下进行检索, 获得论文题目、关键词作为基础语料库, 如表 2所示。
![]() |
下载CSV 表 2 实验语料 |
通过计算得到困惑度与主题个数的关系如图 3所示, 表示LDA在最佳迭代次数时, 选择不同主题个数的困惑度, 结果值是在多次实验后取平均值。实验结果表明, 当主题个数为5时, 主题模型LDA的困惑度最低, 即此时模型效果最优, 同时针对所选的5个子语料证明了此时最优的聚类类别为5。
![]() |
Download:
|
图 3 LDA在不同主题个数时的困惑度 |
本文为评估学术论文研究热点模型的挖掘准确性, 对排名的主题进行人工评价。表 3是由LDA直接得出的结果。可以看出, 由LDA直接得到的主题不能较好地反映语料库中的文档主题, 仅能在主题3和主题5中的个别词语中看出语料库中数量最多的数据挖掘文献。主题1和主题5与自然语言处理相关, 主题2和主题4不太明确。此外, 每个主题中的词语表现的主题不明显, 含有其他主题的词语。可见, 由LDA直接聚类得到的主题并不理想。
![]() |
下载CSV 表 3 LDA学术论文热点主题 |
表 4是在LDA得到的概率矩阵的基础上, 将其转换成评分矩阵, 经过背景主题排序后的结果, 其中, JSD是学术热点与背景主题的归一化离散度, “meaningful”是人工根据代表热点的特征词对该主题做出的评价指标, √表示热点主题具有现实意义和解释性。
![]() |
下载CSV 表 4 背景主题排序后的学术论文热点主题 |
表 4中的主题相对明确, 能够反映出数据挖掘为主的语料库主题, 具体分析如下:
1) 在主题排名1中, “聚类”“K-means算法”等关键词是数据挖掘领域中重要的算法和分析手段, 从这些词语中可以看出论文中最突出的主题是聚类, 其中不少论文涉及到K-means算法, 而聚类是数据挖掘的重要方法, 从而体现出实验预料中数据挖掘为最多的关键词。
2) 在主题2排名中, “Hadoop”“Map-Reduce”“Spark”是处理大数据的重要技术, Hadoop实现了分布式系统对海量数据的存储与计算, Spark计算引擎是对Hadoop的补充。大数据的意义在于对庞大的数据信息进行专业化处理, 关键在于提高数据的“加工能力”, 通过“加工”实现数据的“增值”, 同样也属于数据挖掘领域。
3) 在主题排名3中, “客户”“企业”等是与经济金融相关专业的词语, 但是比较常见, 没有代表性, 类似文本中的停用词, 因此可认为是无意义的。
4) 在主题排名4中, “推荐系统”“个性化推荐”也属于数据挖掘范畴, 在电子商务、社交网络中有着重要的应用。
5) 在主题排名5中, “文本分类”和“情感词典”是自然语言处理中的常用词, 可以看出, 在数据挖掘方向的学术论文中, 有很多论文会涉及到文本情感分析。
在2012年至2016年期间的基础语料库上进行学术论文研究热点挖掘实验, 计算各个年份的主题排序准确率如图 4所示。从实验结果可以看出, 除2014年以外, 其他年份中主题排序的准确率都在78%以上。综上所述, 本文方法可以得到更有意义及价值的热点主题。
![]() |
Download:
|
图 4 2012年至2016年期间的主题排序评估结果 |
本文对LDA主题模型生成的文档-主题概率分布矩阵和主题-词概率分布矩阵进行TF-IDF处理, 得到文档-主题评分矩阵和主题-词评分矩阵。在文档-主题评分矩阵中选择方差最小的主题作为背景主题, 以背景主题为参照对象, 基于Jensen-Shannon散度进行主题排序, 得到优化LDA模型的学术研究热点主题。利用知网上的学术论文作为对比实验的语料库, 实验结果表明本文方法可以提高LDA模型的挖掘效率。下一步将结合时间、下载量、被引用数等特征属性, 优化学术论文研究热点的挖掘方法。
[1] |
Research group of statistics and analysis on Chinese scientific papers. A brief report of statistics and analysis on Chinese scientific papers in 2016[J]. Chinese Journal of Scientific and Technical Periodicals, 2018, 29(1): 59-68. (in Chinese) 中国科技论文统计与分析课题组. 2016年中国科技论文统计与分析简报[J]. 中国科技期刊研究, 2018, 29(1): 59-68. |
[2] |
HOFMANN T. Probabilistic latent semantic analysis[C]//Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence. San Mateo, USA: Morgan Kaufmann Publishers Inc., 1999: 289-296. http://www.oalib.com/paper/4058073
|
[3] |
BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. |
[4] |
LU Wanhui, TAN Zongying. Measuring novelty of scholarly articles[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 22-29. (in Chinese) 逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究——基于Doc2Vec和HMM算法[J]. 数据分析与知识发现, 2018, 2(3): 22-29. |
[5] |
WANG Tingting, HAN Man, WANG Yu. Optimizing LDA model with various topic numbers:case study of scientific literature[J]. Data Analysis and Knowledge Discovery, 2018, 2(1): 29-39. (in Chinese) 王婷婷, 韩满, 王宇. LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 数据分析与知识发现, 2018, 2(1): 29-39. |
[6] |
LI Ran, LIN Hong. Academic paper recommendation based community detection citation-collaboration networks[J]. Application Research of Computers, 2019, 36(9): 2675-2678. (in Chinese) 李冉, 林泓. 基于频繁主题集偏好的学术论文推荐算法[J]. 计算机应用研究, 2019, 36(9): 2675-2678. |
[7] |
ZHANG Chenyi, SUN Jianling, DING Yiqun. Topic mining for microblog based on MB-LDA model[J]. Journal of Computer Research and Development, 2011, 48(10): 1795-1802. (in Chinese) 张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10): 1795-1802. |
[8] |
WANG Shuyi, LIAO Huatao, WU Chake. Mining news on competitors with sentiment classification[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 70-78. (in Chinese) 王树义, 廖桦涛, 吴查科. 基于情感分类的竞争企业新闻文本主题挖掘[J]. 数据分析与知识发现, 2018, 2(3): 70-78. |
[9] |
MAVRIDIS I, KARATZA E. Performance evaluation of cloud-based log file analysis with Apache Hadoop and Apache Spark[J]. Journal of Systems and Software, 2016, 125: 131-151. |
[10] |
MENG X, BRADLEY J, YAVUZ B, et al. MLlib:machine learning in Apache Spark[J]. Journal of Machine Learning Research, 2015, 17(1): 1235-1241. |
[11] |
ZHOU Lina, ZHANG Dongsong. NLPIR:a theoretical framework for applying natural language processing to information retrieval[J]. Journal of the American Society for Information Science and Technology, 2003, 54(2): 115-123. |
[12] |
TAGHVA K, BECKLEY R, SADEH M. A list of farsi stopwords[EB/OL].[2018-09-11].https://www.researchgate.net/publication/228427943_A_list_of_farsi_stopwords.
|
[13] |
ERK K. A structured vector space model for word meaning in context[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Philadelphia, USA: Association for Computational Linguistics, 2008: 897-906. http://www.researchgate.net/publication/313619129_A_structured_vector_space_model_for_word_meaning_in_context
|
[14] |
TERENIN A, SIMPSON D, DRAPER D. Asynchronous Gibbs sampling[J]. Statistics, 2015, 3: 760-762. |
[15] |
ZHANG W, YOSHIDA T, TANG X. TFIDF, LSI and multi-word in information retrieval and text categorization[C]//Proceedings of IEEE International Conference on Systems, Man and Cybernetics. Washington D. C., USA: IEEE Press, 2009: 108-113. http://www.researchgate.net/publication/224399797_TFIDF_LSI_and_multi-word_in_information_retrieval_and_text_categorization
|
[16] |
ZHANG C. Research on enhancing the effectiveness of the Chinese text automatic categorization based on ICTCLAS segmentation method[C]//Proceedings of IEEE International Conference on Software Engineering and Service Science. Washington D. C., USA: IEEE Press, 2013: 267-270. http://www.researchgate.net/publication/261522142_research_on_enhancing_the_effectiveness_of_the_chinese_text_automatic_categorization_based_on_ictclas_segmentation_method
|