近年来, 文本类型的数据呈指数级增长, 文本分类已成为信息检索、机器学习领域的一项重要任务。在进行文本分类时, 由于汉语语义关系复杂, 词语间存在同义词、近义词等复杂结构, 因此文本表示模型的性能将直接影响机器学习的效果。
文本表示模型主要包含向量空间模型(Vector Space Model, VSM)、潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型[1]及词向量模型(word2vec)[2-4]等。由于LDA模型可以保留原始语义信息[5], 基于此模型的分类预测[6-7]均具有较好的效果, 为适应不同情景, 研究者提出改进的LDA模型[8-9]。但是在使用LDA主题模型对类别模糊的文本分类时发现, 与基于VSM模型所建立的分类器相比, 利用主题信息对文本进行分类的效果提升并不明显。这是由于LDA所建立的主题内包含的词语概念被混淆, 主题内词语与各个类别均相关, 导致分类准确率较低。研究者将LDA主题模型与word2vec模型相结合, 提出多种文本分类方法。文献[10]在建立LDA模型时利用word2vec所提供的词向量, 将其并入到主题词空间, 通过伯努利分布来选择词语。文献[11]将LDA生成的主题映射到word2vec词向量空间内, 根据文档间各个主题的距离对文档进行分类。文献[12]将LDA所得到的主题词分布概率应用到word2vec的计算过程中, 以提升word2vec计算结果的准确度。除将主题映射到词向量空间内, 研究者还提出将主题空间与词向量空间进行连接的方法, 文献[13-15]将主题分布与文档在词向量空间内的分布相连接作为分类依据。文献[16]提出将浅特征主题模型(Latent Feature-LDA, LF-LDA)与主题映射到词向量空间相结合来提升文本的分类准确率。文献[17]提出基于词向量的循环神经网络(Recurrent Neural Network, RNN)分类方法。
本文筛选有利于分类的主题信息, 并将其映射到词向量空间内, 综合考虑主题层次信息与词语层次信息并对文本进行分类, 从而得到文本分类结果。
1 模糊文本在LDA主题模型中, 一篇文本的主题由多个服从狄利克雷分布的主题混合而成, 不同类别间的文本经常会混用多个主题, 当不同类别间文档的主题分布相差较大时, 这些文档较容易区分, 如搜狗语料库中包含艺术类、历史类、计算机类等较易被区分的文本集合。然而, 不同类别间的文本主题分布相似时, 就无法区分这些主题分布相似、内容相近的文本, 这类不易被区分的文本称为模糊文本, 如知网上类别相近的论文集合——电子计算机类、微型计算机类、程序语言类等。模糊文本集合中不同类别间的文档有较多相似的地方, 如电子计算机、微型计算机这2类文本集合共享计算机主题信息、系统主题信息等。
应用LDA算法对搜狗语料库(如历史类、经济类、运动类)建立对应的LDA主题模型, 并利用主成分分析(Principal Component Analysis, PCA)构建三维视图, 得到普通文本的主题分布如图 1所示。
|
Download:
|
| 图 1 普通文本的主题分布 | |
由图 1可知, 搜狗语料库内这3类文本在三维空间中不同主题下的分布具有规律性, 较容易被区分。因此, 这种类型的文档集合利用一般的分类模型就可以进行较为准确的分类预测。
使用LDA算法对知网上的模糊文本集合, 即类别相近的文档集合(如程序语言类、程序设计类、电子计算机类、微型计算机类)建立对应的LDA主题模型, 并且利用PCA降维后, 得到模糊文本的主题分布如图 2所示。
|
Download:
|
| 图 2 模糊文本的主题分布 | |
由图 2可知, 使用PCA降维后得到的模糊文本主题分布混乱, 不同类别的文本相互交叉, 很难被区分。
模糊文本的主题不明确, 无法根据当前所有的主题信息对其进行划分。通过研究LDA主题模型内的主题信息时发现, 多数主题内的主题词间词义相差较大, 且经常出现在不同类别的文档中, 由于主题中心不明确, 无法准确代表某一类别的主题信息, 若依靠这类主题作为分类的特征, 将不利于类别模糊文本的分类。因此, 需要筛选出利于模糊文本分类的主题作为特征, 以提升分类结果的准确性。
2 模糊文本分类算法在对文本进行分类时, LDA模型中的主题并非全部都对分类有作用, 因此筛选出LDA模型中主题意义集中度较高的主题, 利用各主题词在word2vec下的词向量加权求和的方法[11], 将主题映射到词向量空间内, 计算文档在词向量空间下的坐标与各个主题的距离, 并将其作为分类依据。这样可结合有利于分类的主题信息与词向量空间内的语义信息, 同时避免模糊主题对分类的干扰。
2.1 文本分类流程文本分类过程主要分为学习阶段与分类阶段2个部分[18]。学习阶段的内容主要是训练一个可靠的分类器, 具体过程为:将原始数据集分为训练集与测试集, 利用jieba分词工具对训练集与测试集进行分词, 去除训练集与测试集内的特殊符号、停用词, 并依据训练集建立LDA主题模型与word2vec模型, 筛选出清晰主题并将其映射到word2vec词向量空间内, 计算各个文档与词向量空间内清晰主题的距离值并将其作为分类特征, 建立分类模型, 然后计算测试文档与词向量空间内各个主题的距离, 利用分类器进行分类预测操作, 不断地对模型进行优化, 最终生成一个可以实际应用的自动化分类模型。分类过程则是通过使用优化过的模型对待分类文本进行自动化分类操作。文本分类流程如图 3所示。
|
Download:
|
| 图 3 文本分类流程 | |
分位数是将原始数列排列后, 按照数列内的个数划分为N份, 处于分割点的数值即为分位数, 上四分位数Q1与下四分位数Q3[19]计算公式如式(1)和式(2)所示。
| $ {Q_1} = {L_{{Q_1}}} + \frac{{\frac{{\Sigma f}}{4} - {s_{{Q_1} - 1}}}}{{{f_{{Q_1}}}}} \times {d_{{Q_1}}} $ | (1) |
| $ {Q_3} = {L_{{Q_3}}} + \frac{{\frac{{3\Sigma f}}{4} - {s_{{Q_3} - 1}}}}{{{f_{{Q_3}}}}} \times {d_{{Q_3}}} $ | (2) |
其中, LQ1、LQ3分别代表下四分位和上四分位数所在下限, SQ1-1、SQ3-1分别代表下四分位和上四分位数所在组位置以下的累计次数, f为单位统计量, fQ1、fQ3分别代表下四分位和上四分位数所在组的次数, dQ1、dQ2分别表示下四分位和上四分位数的组距。
2.2.2 主题划分利用LDA模型训练后得到的主题, 并非全部都对识别文本类别有用, 很多主题内的信息比较杂乱, 其主题词分属于不同类别, 可以认为这些信息混杂的主题就是不同类别的模糊文本交叉处。
定义1(模糊主题) 主题内的主题词词义间隔大、相似度低, 且该主题经常出现在不同类别的文档集合中。模糊主题用集合法描述如式(3)所示。
| $ Topi{c_{{\rm{fuzy}}}} \in \left\{ {\mathit{Topic}\left| {\frac{{\sum\limits_{i = 1}^c {\mathit{topi}{\mathit{c}_i}} }}{{\max \left( {\mathit{topi}{\mathit{c}_i}} \right)}} > \mathit{Threshol}{\mathit{d}_{{\rm{fuzy}}}}} \right.} \right\} $ | (3) |
其中, Topicfuzzy为模糊主题, C为类别数目, topici为主题topic在第i类文档集合中出现的次数, max(topici)为主题topic在不同类别中出现最多的次数, Thresholdfuzzy为筛选模糊主题的阈值, 将各个主题$\frac{{\sum\limits^C_{i=1}{ topic}_i}}{{\max(topic_i)}}$的上四分位数作为该阈值。
定义2(清晰主题) 主题内的主题词词义相近、相似度低, 该主题经常出现在某一类别中, 在其他类别中基本不出现。清晰主题用集合法描述如式(4)所示。
| $ Topi{c_{{\rm{clear}}}} \in \left\{ {\mathit{Topic}\left| {\frac{{\sum\limits_{i = 1}^c {\mathit{topi}{\mathit{c}_i}} }}{{\max \left( {\mathit{topi}{\mathit{c}_i}} \right)}}} \right. < \mathit{Threshol}{\mathit{d}_{{\rm{clear}}}}} \right\} $ | (4) |
其中, Topicclear为清晰主题, Thresholdclear为筛选清晰主题的阈值, 将各个主题$\frac{{\sum\limits^C_{i=1}{ topic}_i}}{{\max(topic_i)}}$的下四分位数作为该阈值。
为区分模糊文本, 应避免模糊主题对分类的影响, 选择清晰主题作为分类的特征, 进而提高模糊文本分类的准确性。
2.3 文本表示模型为准确区分模糊集文档类别, 本文在筛选出清晰主题作为主题层级别语义特征后, 将清晰主题映射到词向量空间内, 建立文档在词向量空间内的分布向量, 并计算与词向量空间内各清晰主题的距离, 将其作为新的文档的表示模型。文本表示模型具体步骤描述如下:
步骤1 利用LDA主题模型处理训练集, 得到各个主题的集合T={topic1, topic2, …, topicn}。
步骤2 统计各个主题在不同类别中出现的次数Topici, 利用式(4)选择清晰主题Topicclear。
步骤3 选取清晰主题Topicclear内前N个词做为主题词, 计算各个主题词权重weighti, 通过主题词在词向量空间下坐标wordi与权重的乘积和作为清晰主题在词向量空间下的坐标Topicclear_vec, 如式(5)所示。
| $ Topi{c_{{\rm{clear}} - }}vec = \frac{{\sum\limits_{i = 1}^N {\left[ {\mathit{wor}{\mathit{d}_i} \cdot weigh{t_i}} \right]} }}{N} $ | (5) |
其中, $weight_i= \frac{{w_i}}{{\sum\limits^N_{n=1}w_n}}$, 为第i个主题词所占主题的比重。
步骤4 计算文档d内所有词在词向量空间下的坐标和作为文档在词向量空间下的坐标docvec, 如式(6)所示。
| $ \mathit{do}{\mathit{c}_{{\rm{vec}}}} = \frac{{\sum\limits_{i = 1}^{do{c_{{\rm{words}}}}} w or{d_i}}}{{do{c_{{\rm{words}}}}}} $ | (6) |
其中, docwords为文档中词语的数目。
步骤5 计算文档di与各清晰主题Topicclearj的距离distencei, j作为文档di的主题分布doc_topici, 如式(7)所示。
| $ doc\_topi{c_i} = \left\{ {\mathit{distenc}{\mathit{e}_{i,1}},\mathit{distenc}{\mathit{e}_{i,2}}, \cdots ,\mathit{distenc}{\mathit{e}_{i,h}}} \right\} $ | (7) |
其中, distencei, j=‖docveci-Topicclearj‖2。
步骤6 通过机器学习中的K最近邻(K-Nearest Neighbor, KNN)算法对文档与各清晰主题的距离分布distencei, j进行建模, 并利用该模型对测试文档进行分类, 以验证模型的准确性。
3 实验结果与分析不同类别间有较多主题相近的信息, 例如电子计算机类与微型计算机类大多都涉及硬件等相关知识, 而程序语言类与程序设计类均倾向于软件编程。由于一篇文档的摘要包含大部分的文章信息[20], 本文选取知网上电子计算机类、微型计算机类、程序语言类以及程序设计类共4类同属于信息方向的论文题目与摘要的集合, 作为模糊文本分类样本集合, 其中每类文档各3 000篇。另外, 将搜狗语料库作为普通文本进行对比实验。本文实验内容包括对数据预处理、筛选主题和综合评价分类结果。
3.1 数据预处理利用jieba分词的精确模式对模糊文本集与搜狗语料库进行分词, 并去除停用词, 将文本表示为字词集合, 结果如图 4所示。
|
Download:
|
| 图 4 文本预处理字词集合示意图 | |
利用LDA主题模型, 设置主题数目为200, 对模糊文本以及搜狗语料库进行训练, 得到主题信息, 计算四分位数后设置Thresholdclear=1.5, Thresholdfuzzy=2.0。
随机抽取模糊文本内的模糊主题和清晰主题, 2类主题的主题词分布如表 1所示。
|
下载CSV 表 1 模糊文本的模糊主题与清晰主题的主题词分布 |
从表 1可以看出, 清晰主题与模糊主题之间主题词涵盖范围区别明显, 模糊主题中包含不同类别的词语, 如词语“数据处理”倾向于程序设计类, 而词语“语言”则倾向于程序语言类别。此外, 一个模糊主题内的各个主题词类别也不统一, 词语间的间隔大, 模糊主题内的主题词类别混杂, 不利于模糊文档的分类。相对来讲, 清晰主题中词语的语义则比较统一, 例如, 从主题词“单片机”“串行”“硬件”等词语可以看出, 该主题的主题中心明确, 主题词均倾向于微型计算机类别, 从主题词“程序设计”“教学”“课程”等词语则可以看出, 该主题词属于程序语言类, 这类文档集合中大多为语言教学方面的论文。由于清晰主题可以将某一类别与其他类别明确的进行区分, 因此选取清晰主题作为文档分类的特征之一。
模糊文本中的模糊主题数目为103, 清晰主题数目为32。表 1中4个主题在4类文档中出现的次数如图 5所示。
|
Download:
|
| 图 5 模糊文本中主题在各类文档中的出现次数 | |
从图 5可以看出, 清晰主题只会在某一类别内经常出现, 而模糊主题在每个类别下出现的次数大致相同。
随机抽取搜狗语料库内文本的模糊主题、清晰主题, 2类主题的主题词分布如表 2所示。
|
下载CSV 表 2 普通文本的模糊主题与清晰主题的主题词分布 |
普通文本中的模糊主题数目为34, 清晰主题数目为93。表 2中4个主题在4类文档中出现的次数如图 6所示。
|
Download:
|
| 图 6 普通文本中主题在各类文档中的出现次数 | |
由表 1、表 2、图 5和图 6可以看出, 对模糊文本和普通文本建立主题模型时, 同样会存在模糊主题与清晰主题的差别。模糊文本中清晰主题的数量较少, 仅有32个清晰主题, 而模糊主题的数量达到103个。对于普通文本, 清晰主题的数量则比较多, 有93个, 模糊主题的数量仅有34个。从清晰主题与模糊主题之间数量的差距就可以看出模糊文本与普通文本间的区别。
3.3 分类实验本文利用10折交叉验证方法对模糊文本进行分类实验, 选取的对比方法描述如下:
1) LDA+KNN。将各个文档的主题分布通过KNN模型来对模糊文档进行分类的方法。
2) C_LDA+KNN。选择清晰主题作为分类特征, 并结合KNN模型进行分类的方法。
3) LDA+word2vec[11]。将LDA生成的主题映射到word2vec词向量空间内的方法。
4) C_LDA+word2vec。将清晰主题映射到词向量空间后计算各个文档与各清晰主题距离并作为特征, 利用KNN模型进行分类的方法。
5) RNN+word2vec。计算词向量, 利用RNN深度学习模型进行分类的方法[17]。
计算上述5种方法的准确率、召回率和F1值, 结果如表 3所示。
|
下载CSV 表 3 模糊文本分类准确率、召回率、F1值对比 |
从表 3可以看出, 在对模糊文本进行分类时, 选择清晰主题进行优化主题分布的方法(C_LDA+KNN和C_LDA+word2vec), 其准确率、召回率和F1值均优于同等条件下使用LDA所用的主题(LDA+KNN和LDA+word2vec)进行分类的方法, 同时其效果与深度学习模型分类效果基本相同。
对普通文本进行分类实验, 计算各分类方法10次实验的准确率、召回率和F1值的均值如表 4所示。
|
下载CSV 表 4 普通文本分类的准确率、召回率、F1值对比 |
从表 4可以看出, 对于普通文本分类, 由于清晰主题数量足够多, 因此不论是否筛选清晰主题, 其最终的实验结果都相差较小, 在加入词向量空间后, 各项指标提升程度并不明显。
本文研究目标是对模糊文本进行分类研究, 基于主题信息的不同方法, 通过工作特征曲线(Receiver Operator Characteristic Curve, ROC)和ROC曲线下的面积(Area Under Curve, AUC)对模糊文本分类器进行对比, 结果如图 7所示。
|
Download:
|
| 图 7 不同分类器的ROC曲线对比 | |
从图 7可以看出, 选择清晰主题进行分类的2个分类器的ROC曲线均高于未筛选主题的分类器, 且AUC值同样也大于未筛选主题的分类器。
上述结果表明, 利用清晰主题对模糊文本进行分类时, 在加入词向量空间后, 分类器的分类性能也有了很大程度的提高, 说明词语级别的语义信息对模糊文本分类具有重要的作用。使用清晰主题结合词向量空间模型的分类器C_LDA+word2ve进行模糊文本分类, 由于其综合考虑了多种信息, 使得结果最优, 相比之下, 单纯使用LDA主题结合机器学习算法KNN进行分类的效果最差。
3.4 结果分析由表 1与表 2中清晰主题与模糊主题之间主题词对比可知, 本文通过计算主题分布来选择清晰主题的方法可以选择出主题中心明确的主题。由表 3和图 7可知, 在使用清晰主题进行分类时, 效果比使用全部主题来分类的效果更优, 也验证了将主题级别的信息映射到词向量空间内的效果比单纯使用主题分布来分类的效果好。其中, 将清晰主题映射到word2vec词向量空间下, 计算不同文档与清晰主题间的距离来对模糊文档进行分类, 此类方法相较于其他方法对模糊文本分类的效果更优。此外, 相较于深度学习模型[17], 本文所采取的分类有具体计算过程, 避免了深度学习模型的黑盒过程, 可以知道文本分类的依据及分类过程的影响因素。由此可知, 相较于文献[7]与文献[11]未筛选主题信息的分类方法, 选择出有效的清晰主题并映射到词向量空间内, 计算文档与各个主题距离来对文本分类的方法能有效避免模糊文档之间共有的模糊主题的影响, 提升模糊文档分类的效果。
4 结束语对于主题不明确或不同类别间的文本共享多数主题的模糊文本, 利用普通分类方法较难区分。为此, 本文提出基于主题优化分布的模糊分类方法。基于LDA主题信息, 分析模糊文本与普通文本之间的差别, 将四分位数设置为清晰主题筛选的阈值来选择主题, 并将其映射到词向量空间内作为分类的特征, 进而得到分类结果。实验结果表明, 与C_LDA+KNN方法相比, 该方法具有较好的文本分类效果。下一步将研究如何在LDA建模时避免产生模糊主题。
| [1] |
BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3(4/5): 993-1022. ( 0)
|
| [2] |
MIKOLOV T, CHEN K, CORRADO G, et al.Efficient estimation of word representations in vector space[EB/OL].[2018-06-05].https://arxiv.org/pdf/1301.3781.pdf.
( 0)
|
| [3] |
熊富林, 邓怡豪, 唐晓晟. Word2vec的核心架构及其应用[J]. 南京师范大学学报(工程技术版), 2015, 15(1): 43-48. DOI:10.3969/j.issn.1672-1292.2015.01.008 ( 0)
|
| [4] |
周练. Word2vec的工作原理及应用探究[J]. 科技情报开发与经济, 2015, 25(2): 145-148. DOI:10.3969/j.issn.1005-6033.2015.02.061 ( 0)
|
| [5] |
秦春秀, 祝婷, 赵捧未, 等. 自然语言语义分析研究进展[J]. 图书情报工作, 2014, 58(22): 130-137. ( 0)
|
| [6] |
ZHAI Chengxiang.Probabilistic topic models for text data retrieval and analysis[C]//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York, USA: ACM Press, 2017: 1399-1401. https://www.researchgate.net/publication/318763994_Probabilistic_Topic_Models_for_Text_Data_Retrieval_and_Analysis
( 0)
|
| [7] |
张勇.基于词性与LDA主题模型的文本分类技术研究[D].合肥: 安徽大学, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10357-1016128013.htm
( 0)
|
| [8] |
BAO Yang, COLLIER N, DATTA A.A partially supervised cross-collection topic model for cross-domain text classification[C]//Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.New York, USA: ACM Press, 2013: 239-248. http://dl.acm.org/citation.cfm?id=2505556
( 0)
|
| [9] |
MEHROTRA R, SANNER S, BUNTINE W, et al.Improving LDA topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York, USA: ACM Press, 2013: 889-892. https://www.researchgate.net/publication/260639616_Improving_LDA_Topic_Models_for_Microblogs_via_Tweet_Pooling_and_Automatic_Labeling
( 0)
|
| [10] |
NGUYEN D Q, BILLINGSLEY R, DU L, et al. Improving topic models with latent feature word representations[J]. Transactions of the Association for Computational Linguistics, 2015, 3: 299-313. DOI:10.1162/tacl_a_00140 ( 0)
|
| [11] |
WANG Zhibo, MA Long, ZHANG Yanqing.A hybrid document feature extraction method using latent Dirichlet allocation and Word2Vec[C]//Proceedings of International Conference on Data Science in Cyberspace.Washington D.C., USA: IEEE Press, 2016: 98-103. https://www.researchgate.net/publication/314202842_A_Hybrid_Document_Feature_Extraction_Method_Using_Latent_Dirichlet_Allocation_and_Word2Vec
( 0)
|
| [12] |
NIU Liqiang, DAI Xinyu, ZHANG Jianbing, et al.Topic2Vec: learning distributed representations of topics[C]//Proceedings of International Conference on Asian Language Processing.Washington D.C., USA: IEEE Press, 2015: 193-196. https://www.researchgate.net/publication/279458609_Topic2Vec_Learning_Distributed_Representations_of_Topics
( 0)
|
| [13] |
WANG Zhibo, ZHANG Yanqing.A text information retrieval method by integrating global and local textual information[C]//Proceedings of the 40th Annual Computer Software and Applications Conference.Washington D.C., USA: IEEE Press, 2016: 504-505 https://www.researchgate.net/publication/306925965_A_Text_Information_Retrieval_Method_by_Integrating_Global_and_Local_Textual_Information
( 0)
|
| [14] |
张群, 王红军, 王伦文. 词向量与LDA相融合的短文本分类方法[J]. 现代图书情报技术, 2016(12): 27-35. DOI:10.11925/infotech.1003-3513.2016.12.04 ( 0)
|
| [15] |
SHI Min, LIU Jianxun, ZHOU Dong, et al.WE-LDA: a word embeddings augmented LDA model for Web services clustering[C]//Proceedings of IEEE International Conference on Web Services.Washington D.C., USA: IEEE Press, 2017: 9-16. https://www.researchgate.net/publication/319633221_WE-LDA_A_Word_Embeddings_Augmented_LDA_Model_for_Web_Services_Clustering
( 0)
|
| [16] |
陈磊, 李俊. 基于LF-LDA和Word2vec的文本表示模型研究[J]. 电子技术, 2017, 46(7): 1-5. ( 0)
|
| [17] |
XU Hongyang, LU Hui, YANG Guowei, et al.Sentiment analysis of Chinese version using SVM & RNN[C]//Proceedings of the 6th International Conference on Information Engineering.New York, USA: ACM Press, 2017: 1-5.
( 0)
|
| [18] |
梁艳红, 檀润华, 马建红. 面向产品创新设计的专利文本分类研究[J]. 计算机集成制造系统, 2013, 19(2): 382-390. ( 0)
|
| [19] |
周群, 左文革, 陈仕吉. 基于百分位数的文献计量指标研究综述[J]. 现代图书情报技术, 2013(7/8): 82-88. ( 0)
|
| [20] |
KRISHNAMURTHI K, PANUGANTI V R, BULUSU V V. Understanding document semantics from summaries[J]. ACM Transactions on Asian and Low-resource Language Information Processing, 2016, 16(1): 1-20. ( 0)
|
2019, Vol. 45

0)