基于方差权重因子选词的SIF句向量模型

引用本文

孙毅, 裘杭萍, 康睿智. 基于方差权重因子选词的SIF句向量模型[J]. 计算机工程, 2019, 45(9), 204-210, 234. DOI: 10.19678/j.issn.1000-3428.0052381.

SUN Yi, QIU Hangping, KANG Ruizhi. SIF Sentence Vector Model Based on Word Selection by Variance Weight Factor[J]. Computer Engineering, 2019, 45(9), 204-210, 234. DOI: 10.19678/j.issn.1000-3428.0052381.

基金项目

江苏省自然科学基金（BK20150721，BK20161469）；江苏省重点研发计划（BE2015728，BE2016904，BE2017616）

作者简介

孙毅(1993-), 男, 硕士研究生, 主研方向为自然语言处理、网络通信 E-mail：sunyi_lgdx@sina.com;
裘杭萍, 教授、博士;
康睿智, 博士研究生

文章历史

收稿日期：2018-08-13
修回日期：2018-09-13

Contents Abstract Full text Figures/Tables PDF

基于方差权重因子选词的SIF句向量模型

孙毅 , 裘杭萍 , 康睿智

中国人民解放军陆军工程大学指挥控制工程学院, 南京 210000

收稿日期：2018-08-13；修回日期：2018-09-13

基金项目：江苏省自然科学基金（BK20150721，BK20161469）；江苏省重点研发计划（BE2015728，BE2016904，BE2017616）

作者简介：孙毅(1993-), 男, 硕士研究生, 主研方向为自然语言处理、网络通信 E-mail：sunyi_lgdx@sina.com; 裘杭萍, 教授、博士; 康睿智, 博士研究生.

摘要：针对平滑反频率（SIF）模型在文本分类和情感分析中性能较差的问题，在SIF模型的基础上，根据单词在不同分类任务类别中的分布情况，计算其对任务贡献度的方差权重（VW）因子，建立一种VW因子选词句向量模型CwVW-SIF。在标准文本分类数据集和情感分析数据集上进行测试，结果表明，CwVW-SIF相对SIF模型具有较高的分类精度。

SIF Sentence Vector Model Based on Word Selection by Variance Weight Factor

SUN Yi , QIU Hangping , KANG Ruizhi

Institute of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210000, China

Abstract: To address the poor performance of the Smooth Inverse Frequency(SIF) model in text classification and sentiment analysis, based on the SIF model, the Variance Weight(VW) of the task contribution is calculated according to the distribution of words in different classification task, and a VW factor selection sentence vector model CwVW-SIF is established.Tested on the standard text classification datasets and sentiment analysis datasets, the results show that CwVW-SIF has higher classification accuracy than SIF model.

0 概述

使用不同方法生成词向量是自然语言处理(Natural Language Processing, NLP)和信息检索(Information Retrieval, IR)领域的基本任务之一。目前, 词向量生成模型主要有Word2Vec^[1]、GloVe^[2]、FastText^[3]、PSL^[4]和ELMo^[5]。其中, Word2Vec和GloVe是基于分布假设的无监督方法, FastText在Word2Vec的基础上添加了基于字符的N-gram模型, 可以计算表外单词的向量, PSL模型利用解释数据集PPDB^[6]有监督地对词向量进行调整, 在文本相似性任务上具有较好的性能, ELMo(Embeddings from Language Models)模型利用深度上下文单词表征方法, 学习不同上下文的词汇多义性。

近年来, 国内外学者研究了句向量模型在文本相似度比较、文本分类和文本情感分析等下游任务中的应用。文献[7]在Word2Vec基础上, 提出分布式记忆句向量(Distributed Memory of Paragraph Vector, PV-DM)和分布式词袋句向量(Distributed Bag of Words of Paragraph Vector, PV-DBOW)2种模型。文献[8]提出神经词袋(Neural Bag-of-Words, NBOW)和深度平均网络(Deep Averaging Network, DAN)2种句向量模型, 实验结果验证了深层无序组合方法的有效性。文献[9]提出Skip-thoughts模型, 通过训练2个循环神经网络(Recurrent Neural Network, RNN)组成的编码-解码模型得到句向量, 并通过词汇扩展方法来编码训练集外的单词。文献[10]提出RNNs模型, 利用长短时记忆(Long Short-Term Memory, LSTM)来捕捉长距离依存关系。文献[11]提出PP(Paragram-Phrase embeddings)模型, 通过将句子中词的词向量进行算术平均得到句向量, 并利用投影方法来对模型进行优化, 同时运用PSL词向量来改善模型在各项任务中的性能。文献[12]采用TF-IDF加权的方法形成句向量, 并在文本相似度任务上取得较好的效果。文献[13]提出平滑反频率(Smooth Inverse Frequency, SIF)模型, 该模型与PP模型相似, 但是选择了加权平均的方法, 并通过移除句子的第一主成分上矢量的方法进行优化, 该方法在各项任务上(除情感分类任务)均优于其他方法的性能。文献[14]提出p-mean模型, 通过集成学习的方法来提升句向量的性能。

SIF模型统计了通用数据集上词的频率, 但未考虑与任务无关词的筛选或权重的修正, 在情感分析方面相对RNN和LSTM方法性能较差。为此, 本文利用方差选词的方法对SIF模型进行优化, 去除对分类任务贡献值较低单词, 以提高SIF模型在文本分类和情感分析方面的性能。

1 平滑反频率句向量模型

随机游走(Random Walk, RW)是网络图的经典算法之一, 从给定图的初始位置出发, 随机地选择并移动到邻居节点上, 将当前节点作为出发点, 迭代上述过程, 其特点是无后效性, 即基于过去的表现, 无法预测将来事件的发生步骤和方向。

平滑反频率模型将语句的产生视为一个动态的随机游走过程, 在第t步产生第t个单词, 每一步都由一个话题向量c_t∈$\in \mathbb { R } ^ { d }$决定。对于给定的句子s, 其句向量是对决定该句子的话题向量c_t的最大后验概率估计。同时, 由于在一句话中话题向量c_t的改变很小即一个句子中的话题相对固定, 因此将所有都近似为c_s。在平滑反频率模型中平滑基于以下2种假设:

1) 部分单词并不是根据上下文出现的。

2) 一些高频词汇(如“the”“and”)的出现与句子的话题无关。

单词w出现在以c_s为话题的句子中的概率为:

$ \Pr \left[ {{\mathit{\boldsymbol{w}}_s}\left| {{\mathit{\boldsymbol{c}}_s}} \right.} \right] = \alpha p\left( w \right) + \left( {1 - \alpha } \right)\frac{{\exp \left( { < {{\mathit{\boldsymbol{\tilde c}}}_s},{\mathit{\boldsymbol{v}}_w} > } \right)}}{{{Z_{{{\mathit{\boldsymbol{\tilde c}}}_s}}}}} $

(1)

其中, c~_s=βc₀+(1－β)c_s, c₀与c_s正交。第1项αp(w)对应假设1, p(w)表示单词在整个语料集中出现的频率, α为常量, 允许单词的概率极小, 但仍以αp(w)的概率出现。第2项对应假设2, 假设对所有的句子都有一个共同的话题向量c₀∈$\in \mathbb { R } ^ { d }$, 当单词w是高频词即与共同话题c₀相关时, 能以一定的概率出现, β为常量, ${Z_{{{\mathit{\boldsymbol{\tilde c}}}_s}}} = \sum\limits_{w \in V} {\exp } \left({ < {{\mathit{\boldsymbol{\widetilde c}}}_s}, {\mathit{\boldsymbol{v}}_w} > } \right)$将第2项进行归一化。

基于以上的假设, 以c_s为话题的句子s的生成概率为:

$ \begin{array}{l} p\left[ {s\left| {{\mathit{\boldsymbol{c}}_s}} \right.} \right] = \prod\limits_{w \in s} {p\left( {w\left| {{\mathit{\boldsymbol{c}}_s}} \right.} \right)} = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\prod\limits_{w \in s} {\left[ {\alpha p\left( w \right) + \left( {1 - a} \right)\frac{{\exp < {\mathit{\boldsymbol{v}}_w},{{\mathit{\boldsymbol{\tilde c}}}_s} > }}{Z}} \right]} \end{array} $

(2)

令${f_w}\left({{{\mathit{\boldsymbol{\tilde c}}}_s}} \right) = \ln \left[{\alpha p(w) + (1 - \alpha)\frac{{\exp \left({ < {\mathit{\boldsymbol{v}}_w}, {{\mathit{\boldsymbol{\tilde c}}}_s} > } \right)}}{Z}} \right]$, 对其进行微分, 有:

$ \begin{array}{l} \nabla {f_w}\left( {{{\mathit{\boldsymbol{\tilde c}}}_s}} \right) = \frac{1}{{\alpha p\left( w \right) + \left( {1 - \alpha } \right)\exp \left( { < {\mathit{\boldsymbol{v}}_w},{{\mathit{\boldsymbol{\tilde c}}}_s} > } \right)/Z}} \times \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{{1 - \alpha }}{Z}\exp \left( { < {\mathit{\boldsymbol{v}}_w},{{\mathit{\boldsymbol{\tilde c}}}_s} > } \right){\mathit{\boldsymbol{v}}_w} \end{array} $

(3)

根据泰勒展开, 有:

$ \begin{array}{l} {f_w}\left( {{{\mathit{\boldsymbol{\tilde c}}}_s}} \right) \approx {f_w}\left( 0 \right) + \nabla {f_w}{\left( 0 \right)^{\rm{T}}}{{\mathit{\boldsymbol{\tilde c}}}_s} = \\ \;\;\;\;\;\;\;\;\;\;\;\;C + \frac{{\left( {1 - \alpha } \right)/\left( {\alpha Z} \right)}}{{p\left( w \right) + \left( {1 - \alpha } \right)/\left( {\alpha Z} \right)}} < {\mathit{\boldsymbol{v}}_w},{{\mathit{\boldsymbol{\tilde c}}}_s} > \end{array} $

(4)

因此, 对c~_s的最大后验估计为:

$ p\left[ {s\left| {{\mathit{\boldsymbol{c}}_s}} \right.} \right] = \sum\limits_{w \in s} {{f_w}\left( {{{\mathit{\boldsymbol{\tilde c}}}_s}} \right)} \propto \sum\limits_{w \in s} {\frac{a}{{p\left( w \right) + a}}{\mathit{\boldsymbol{v}}_w}} $

(5)

定义单词w在句子s中对应的权重为:

$ Weight\left( w \right) = \frac{a}{{a + p\left( w \right)}} $

(6)

句子s的句向量v_s为:

$ {\mathit{\boldsymbol{v}}_s} = \frac{1}{{\left| s \right|}}\sum\limits_{w \in s} {\frac{a}{{a + p\left( w \right)}}{\mathit{\boldsymbol{v}}_s}} = \frac{1}{{\left| s \right|}}\sum\limits_{w \in s} {Weight\left( w \right){\mathit{\boldsymbol{v}}_w}} $

(7)

句向量v_s是以a/(a+p(w))为权重的词向量的加权平均, 根据单词频率p(w)的分布规律, a在[10^－3, 10^－4]范围内对权重的区分度最大, 即在这个范围之外, 不同单词的权重a/(a+p(w))基本相等。

2 方差选词方法

在平滑反频率模型中, 随机游走能够较好地反映在通用语料的统计规律下句子的生成规律, 但在具体分类任务中, 没有考虑每一类话题对句子生成的影响。

假设在分类任务中的总体语料数据集为D, 每一类语料为D_i, i∈[2, n], 则模型共同的话题向量c₀为总体语料的共同话题, 而针对每一类的语料, 应该有属于该类语料的专有共同话题, 定义为c_i, 其中i与分类语料对应。

为保持平滑反频率模型的通用性, 同时提高其在分类任务中的准确性, 本文在该模型中添加了方差选词组件, 通过在计算句向量时去除存在共同话题的词, 提升句向量在不同类别中的区分度。

2.1 方差因子计算

设单词w在第i类语料中出现的概率为:

$ P\left( {w\left| {{D_i}} \right.} \right) = \frac{{\left| {\left\{ {{s_i}\left| {w \in s,s \in {D_i}} \right.} \right\}} \right|}}{{\left| {{D_i}} \right|}} $

(8)

其中, |{s|w∈s, s∈D_i}为含有单词w的句子的个数, |D_i为该类语料中所有句子的个数。

无论句子s中单词w出现过多少次, 都记为1。定义单词w在不同类别语料中的方差因子为Var(w), 则均方差为:

$ {S^2}\left( w \right) = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {\left( {{X_i}\left( w \right) - \bar X} \right)} $

(9)

为方便不同单词方差因子的比较, 本文将均方差进行归一化处理, 得到如式(8)所示的方差因子。

$ Var\left( w \right) = {S^2}\left( w \right) = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {\frac{{{{\left( {{X_i}\left( w \right) - \bar X} \right)}^2}}}{{{{\bar X}^2}}}} $

(10)

方差因子越小, 表示该单词的意思在不同类别语料中出现的概率越接近, 即可能属于总体语料的共同话题; 方差因子越大, 表示该单词的意思在不同类别语料中出现的概率相差越大, 即可能属于不同类别语料的专有共同话题。因此, 方差因子越大对分类问题的贡献率越大, 因子越小对分类问题贡献率越小。方差因子较小的单词, 在句向量生成过程中会成为影响分类效果的“噪声”。

为体现方差因子在多分类问题(即n≥3)对类与类之间的区别的贡献度, 本文选取两两类别归一化方差的最大值作为多分类情况下的方差因子, 可表示为:

$ Var\left( w \right) = \mathop {\max }\limits_{i,j \in n,i \ne j} S_{i,j}^2\left( w \right) $

(11)

2.2 基于方差权重的SIF句向量模型

上述方差因子的计算仅考虑单词w在具体任务的总体语料数据集D中的重要性, 为综合考虑单词w在通用背景下的重要性, 本文通过方差权重(Variance Weight, VW)因子表征单词对分类任务的重要程度, 即:

$ VW\left( w \right) = Var\left( w \right)Weight\left( w \right) $

(12)

在句向量的生成过程中, 将方差权重因子VW(w)去除, 再进行句向量计算, 因此本文提出基于方差权重选词的SIF句向量模型CwVW-SIF, 具体算法描述如下:

算法1 基于方差权重选词的平滑反频率句向量生成

输入词向量集{v_w:w∈V}, 句子集合S, 参数a, 通用语料库统计的单词频率{p(w):w∈V}, 分类任务训练集{D_i:D_i∈D}

输出单词出现频率集{f(w|D_i):w∈V, D_i∈D}, 单词方差权重因子{VW(w):w∈V}, 句向量集{v_s:s∈S}, 单词剪裁数量k

1.for all w in V do

2.f(w|D_i)←get_frequence(w)

3.end for

4.for all w in V do

5.Var(w)←calculate_var(w)

6.VW(w)←Var(w)$\frac{{\rm{a}}}{{{\rm{a + p(w)}}}}$

7.end for

8.V_sorted sort V by VW(w)

9.k←cut_number(V_sorted, D)

10.for all s in S do

11.s←remove V_sorted[0, k]ins

12.v_s←$\frac{{\rm{1}}}{{{\rm{|s|}}}}\sum\limits_{{\rm{w}} \in {\rm{s}}} {\frac{{\rm{a}}}{{{\rm{a + p(w)}}}}} {{\rm{v}}_{\rm{w}}}$

13.end for

算法1的第1行和第2行表示每个单词在不同类句子或文章中出现的概率, 第5行用来计算方差因子, 第6行用于方差权重因子的计算, 第8行将单词表V按照方差权重因子VW(w)由小到大排序为单词表V_sorted, 第9行用来计算最佳单词裁剪数, 如算法2所示, cut_number(V_sorted, D)函数通过按照循序依次从训练集中去除单词表V_sorted中前k个单词, 然后将训练后的句向量用于分类器, 寻找最佳的准确率对应的剪裁数值, 并将其返回, 第11行将单词表中的单词去掉, 第12行通过加权平均, 将词向量加权平均为句向量。

算法2 最佳单词剪裁数量计算cut_number(V_sorted, D)

输入词向量集{v_w:w∈V}, 句子集合S, 参数a, 通用语料库统计的单词频率{p(w):w∈V}, 分类任务训练集{D_i:D_i∈D}, 按照方差权重因子排序的词汇表V_sorted

输出准确率集ACC={acc(i)|i∈[0, len(V_sorted)]}, 单词裁剪数k

1.for i in range [0, len(V_sorted)] do

2.for all s in D do

3.s←remove V_sorted[0, i] ins

4.v_s←1|s∑w∈saa+p(w)v_w

5.end for

6.acc(i)←$\frac{{\rm{1}}}{{{\rm{|s|}}}}\sum\limits_{{\rm{w}} \in {\rm{s}}} {\frac{{\rm{a}}}{{{\rm{a + p(w)}}}}} {{\rm{v}}_{\rm{w}}}$

7.end for

8.return max_number(ACC)

3 CwVW-SIF模型 3.1 句向量分类模型

在句向量模型上加入有监督的分类器, 构成基于句向量的分类模型, 如图 1所示。首先将分类任务中带有标记的训练语料输入到CwVW-SIF模型, 得到带有标记的句向量, 每个句向量是m维的数值向量, 然后将带有标记的句向量输入到分类器中, 经过训练的分类器便可用于测试语料的分类。

	Download: JPG larger image
图 1 句向量分类模型

分类器即分类算法, 如支持向量机、各类决策树(如随机森林、极端随机树)、BP(如前馈神经网络)算法等, 分类器的输入为数值特征向量, 输出为输入数据的分类标记。分类器的选择在整个分类模型中并不起决定性作用, 但通过合理选择分类器, 并对分类器的参数进行调整, 可在一定程度上改善分类效果。

3.2 文本关键词抽取

CwVW-SIF模型生成句向量的过程是对词向量进行加权求和的过程, 因此, 可利用该过程确定句子中的关键词。某一个单词w的权重值可表示为方差权重因子, 即:

$ FVW\left( w \right) = F\left( w \right)Vat\left( w \right)Weight\left( w \right) $

(13)

其中, F(w)表示单词在句子中出现的次数, 即某一单词在同一句子中出现的次数越多, 对该句子的贡献越大, Var(w)表示单词w的归一化方差因子, 其取值范围为[0, 1], 越接近1对分类的贡献越大, 对句子的中心主题描述的贡献就越大, Weight(w)表示单词w的权重因子, 与单词的统计频率呈反比, 即单词在全体文本中出现的频率越大, 对句子含义的表达的贡献值越小。通过方差权重因子, 计算句子中单词所对应的FVW值, 并根据排序, 筛选出句子的关键词。

4 实验结果与分析 4.1 数据集

本文使用公开分类任务数据集20 Newsgroups^[15-16]和取自IMDB的情感分析任务数据集Large Movie Review Dataset^[17-18]进行实验。

数据集20 Newsgroups主要用于文本分类、文本挖掘和信息检索研究, 共收录20个不同主题的新闻约20 000篇, 训练集和测试集分别占60%和40%, 分类情况如表 1所示。其中部分新闻类型极为相似(如comp.sys.ibm.pc.hardware和comp.sys.mac.hardware), 也有一些类别之间完全不同(如misc.forsale和soc.religion.christian)。

下载CSV 表 1 数据集20 Newsgroups类型

数据集Large Movie Review Dataset是通用的情感二分类数据集, 共有50 000条源自IMDB的评论, 训练集和测试集各有25 000条样本, 正负样本各12 500条。

本文采用的词向量集为glove.6B.50d^[19], 该数据集是在维基百科语料库上根据GloVe模型训练得到, 共有40万个单词, 每个单词表示为50维的向量, 选择该向量集有如下原因:1)该向量集由斯坦福大学训练并公开, 较为成熟, 具有通用性和可比性; 2)该训练集将单词表示为50维度的向量, 模型的训练速度相对较快。

单词频率数据集enwiki_vocab_min200是由维基百科语料统计而来^[20], 共含有34.8万个单词。

4.2 模型效果的PCA降维

在通过分类器对改进的CwVW-SIF模型进行性能度量之前, 本文运用改进前和改进后的模型, 分别通过主成分分析方法, 将句向量投影到低维空间进行可视化效果展示并进行比较。

本文选取2对数据集(大差别、小差别)进行实验, 经过SIF模型和CwVW-SIF模型将每一条新闻文本转化为50维的句向量, 再将句向量通过PCA降维到2维和3维进行观察。

大差别数据集选取20 Newsgroups中类别之间有较大差别的comp.graphics和soc.religion.christian这2类数据进行展示。其中, comp.graphics类584条, soc.religion.christian类599条。其二维效果如图 2所示, 三维效果如图 3所示, 灰色的点为comp.graphics类, 黑色的点为soc.religion.christian类。可以看出, 经过优化后的模型训练出的数据, 同一类更加紧凑, 不同类之间区分更加明显。

	Download: JPG larger image
图 2 大差别数据集二维效果展示

	Download: JPG larger image
图 3 大差别数据集三维效果展示

小差别数据集选取了20 Newsgroups中类别之间极为相似的comp.sys.ibm.pc.hardware和comp.sys.mac.hardware两类数据进行展示。其中, comp.sys.ibm.pc.hardware类590条, comp.sys.mac.hardware类578条。由于2个数据集差别较小, 因此三维图展示效果如图 4所示, 其中灰色的点为comp.sys.ibm.pc.hardware类, 黑色的点为somp.sys.mac.hardware类。

	Download: JPG larger image
图 4 小差别数据集三维效果

4.3 模型分类效果

本文重点在于对比模型改进前后的效果, 因此在分类器上选择支持向量机, 且只简单对其参数进行调节(情感分析任务同样如此)。

支持向量机输入由训练集经SIF模型和CwVW-SIF模型产生的句向量, 输出为分类结果。其采用高斯核函数, 核函数系数为5, SVC的惩罚值为3, 停止训练误差为10^-3, 无最大迭代次数限制, 决策函数为OVR。根据调试, 权重计算参数a=2.7×10^－3时分类效果最佳。

CwVW-SIF模型在分类任务中最重要的是找到最佳的单词剪裁率, 即算法2所示的最佳单词剪裁数量。以不同的比例除去按照方差权重因子排序后的单词表的部分单词, 通过训练集对模型进行训练, 然后根据验证集找到最佳的剪裁率, 并在验证集上检测模型效果。

4.3.1 文本分类任务

本文选取20 Newsgroups中难度不同的4种话题类型任务对本文模型进行实验, 其精度结果如图 5所示。

	Download: JPG larger image
图 5 不同分类任务下模型精度对比

表 2给出不同分类任务精度和最佳剪裁率对比结果。可以看出, 4种任务的最佳剪裁率分别为14.5%、24.8%、38.2%、45.4%, 对于每个分类任务, 在剪裁率从0%递增到100%的过程中, 算法的精度先提升, 达到极值后, 再下降, 且任务难度越大, 最佳剪裁率越大。这是由于分类任务难度大, 主题无关或与分类无关的词汇多, 对于句向量的影响就越大。对于类别comp.sys.ibm.pc.hardware与类别comp.sys.mac.hardware, 两者均为计算机硬件领域, 前者是IBM公司, 后者是苹果公司, 只有少数的关键词才会对分类起到决定性的作用。因此通过方差因子去除无关词汇, 再进行句向量生成, 能够提高分类任务的性能。

下载CSV 表 2 不同分类任务精度和最佳剪裁率对比

4.3.2 情感分析任务

本文情感分析任务选取数据集Large Movie Review Dataset中不同数据规模的数据, 数据规模分别为1 000条、2 500条、5 000条、10 000条和20 000条, 利用CwVW-SIF模型找到单词表的最佳剪裁率, 得到模型的最佳性能, 分类器选择支持向量机。

支持向量机输入由训练集经SIF模型和CwVW-SIF模型产生的句向量, 输出为分类结果。支持向量机采用高斯核函数, 核函数系数为3, SVC的惩罚值为20, 停止训练误差为10^-3, 无最大迭代次数限制, 决策函数为OVR。根据调试, 权重计算参数a=2.7×10^－3时分类效果最佳。

2种模型在5种训练集规模下的精度如表 3所示。不同剪裁率对CwVW-SIF模型精度的影响如图 6所示。可以看出, 5种训练规模下CwVW-SIF模型对于SIF模型都有提高, 且随着训练规模的增大, 性能提升幅度也随之增大。

	Download: JPG larger image
图 6 5种训练集规模下精度对比结果

下载CSV 表 3 不同规模训练集的性能对比

4.4 关键词提取

本文通过对数据集20 Newsgroups的文章进行关键词抽取, 检验方差权重因子的效果, 选取comp.sys.ibm.pc.hardware(类别0)、rec.sport.baseball(类别1)2种类别的文章, 然后对比文章题目和根据本文算法抽取的Top5关键词。同时, 由于关键词提取不是本文的重点, 且数据集20 Newsgroups中文章的题目并非其关键词, 因此只举例说明, 不做命中率的统计, 结果如表 4所示。其中, 加粗表示题目中含有的关键词和方差权重因子, 且不区分大小写。可以看出, 本文算法对关键词的抽取效果较好。

下载CSV 表 4 关键词提取效果展示

5 结束语

本文根据单词在分类任务中的分布情况, 建立基于方差权重选词改进的平滑反频率句向量模型CwVW-SIF。在文本分类和情感分析2种任务上进行实验, 结果表明, 该模型具有较高的分类精度。由于在单词剪裁率增长的过程中, 精度曲线并不完全平滑, 因此下一步将优化单词的权重因子来解决该问题。

参考文献

[1]	MIKOLOV T, CORRADO G, CHEN Kai, et al.Efficient estimation of word representations in vector space[EB/OL].[2018-07-10].https://arxiv.org/pdf/1301.3781.pdf. (0)
[2]	PENNINGTON J, SOCHER R, MANNING C.GloVe: global vectors for word representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.Stroudsburg, USA: Association for Computational Linguistics, 2014: 1532-1543. (0)
[3]	JOULIN A, GRAVE E, BOJANOWSKI P, et al.Bag of tricks for efficient text classification[C]//Proceedings of Conference of European Chapter of the Association for Computational Linguistics.Stroudsburg, USA: Association for Computational Linguistics, 2017: 427-431. (0)
[4]	WIETING J, BANSAL M, GIMPEL K, et al. From paraphrase database to compositional paraphrase model and back[J]. Transactions of the Association for Computational Linguistics, 2015, 3: 345-358. DOI:10.1162/tacl_a_00143 (0)
[5]	PETERS M E, NEUMANN M, IYYER M, et al.Deep contextualized word representations[EB/OL].[2018-07-10].https://arxiv.org/pdf/1802.05365.pdf. (0)
[6]	GANITKEVITCH J, VANDURME B, CALLISON-BURCH C.PPDB: the paraphrase database[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg, USA: Association for Computational Linguistics, 2013: 758-764. (0)
[7]	LE Q, MIKOLOV T.Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning.Cambridge, USA: MIT Press, 2014: 1188-1196. (0)
[8]	IYYER M, MANJUNATHA V, BOYD-GRABER J, et al.Deep unordered composition rivals syntactic methods for text classification[C]//Proceedings of International Joint Conference on Natural Language Processing.Stroudsburg, USA: Association for Computational Linguistics, 2015: 1681-1691. (0)
[9]	KIROS R, ZHU Yukun, SALAKHUTDINOV R, et al.Skip-thought vectors[C]//Proceedings of International Conference on Neural Information Processing Systems.Cambridge, USA: MIT Press, 2015: 3294-3302. (0)
[10]	TAI Kaisheng, SOCHER R, MANNING C D.Improved semantic representations from tree-structured long short-term memory networks[C]//Proceedings of International Joint Conference on Natural Language Processing.Stroudsburg, USA: Association for Computational Linguistics, 2015: 1556-1566. (0)
[11]	WIETING J, BANSAL M, GIMPEL K, et al.Towards universal paraphrastic sentence embeddings[EB/OL].[2018-07-10].https://arxiv.org/pdf/1511.08198.pdf. (0)
[12]	段旭磊, 张仰森, 孙祎卓. 微博文本的句向量表示及相似度计算方法研究[J]. 计算机工程, 2017, 43(5): 143-148. DOI:10.3969/j.issn.1000-3428.2017.05.023 (0)
[13]	ARORA S, LIANG Y, MA Tengyu.A simple but tough to beat baseline for sentence embeddings[EB/OL].[2018-07-10].https://openreview.net/pdf?id=SyK00v5xx. (0)
[14]	RÜCKLÉ A, EGER S, PEYRARD M, et al.Concatenated p-mean word embeddings as universal cross-lingual sentence representations[EB/OL].[2018-07-10].https://arxiv.org/pdf/1803.01400.pdf. (0)
[15]	LANG K.NewsWeeder: learning to filter netnews[C]//Proceedings of International Conference on International Conference on Machine Learning.San Francisco, USA: Morgan Kaufmann Publishers Inc., 1995: 331-339. (0)
[16]	20 newsgroups[EB/OL].[2018-07-10].http://www.qwone.com/~jason/20Newsgroups. (0)
[17]	MAAS A L, DALY R E, PHAM P T, et al.Learning word vectors for sentiment analysis[C]//Proceedings of Meeting of the Association for Computational Linguistics.Stroudsburg, USA: Association for Computational Linguistics, 2011: 142-150. (0)
[18]	Large movie review dataset[EB/OL].[2018-07-10].http://ai.stanford.edu/~amaas/data/sentiment. (0)
[19]	GloVe: global vectors for word representation[EB/OL].[2018-07-10].https://nlp.stanford.edu/projects/glove. (0)
[20]	Wikimedia.English Wikipedia dump[EB/OL].[2018-07-10].http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2. (0)