«上一篇 下一篇»
  计算机工程  2020, Vol. 46 Issue (9): 110-116  DOI: 10.19678/j.issn.1000-3428.0055047
0

引用本文  

王青松, 张衡, 李菲. 基于文本多维度特征的自动摘要生成方法[J]. 计算机工程, 2020, 46(9), 110-116. DOI: 10.19678/j.issn.1000-3428.0055047.
WANG Qingsong, ZHANG Heng, LI Fei. Automatic Summary Generation Method Based on Multidimensional Text Feature[J]. Computer Engineering, 2020, 46(9), 110-116. DOI: 10.19678/j.issn.1000-3428.0055047.

基金项目

国家自然科学基金(61802160);沈阳市新兴产业发展专项资金计划"辽宁省公共舆情与网络安全大数据系统工程实验室"[2016(294)]

作者简介

王青松(1974-), 男, 副教授、硕士, 主研方向为大数据技术、数据挖掘;
张衡, 硕士研究生;
李菲, 硕士研究生

文章历史

收稿日期:2019-05-29
修回日期:2019-09-12
基于文本多维度特征的自动摘要生成方法
王青松 , 张衡 , 李菲     
辽宁大学 信息学院, 沈阳 110036
摘要:现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题,导致摘要生成的准确率降低。为此,提出一种基于图集成模型的自动摘要生成方法。在计算得到文本句子词频、语义和句法特征后,利用朴素贝叶斯方法将文本多维度特征的融合问题转化为图集成方式,提高句子间相似计算的准确性,并在此基础上通过TextRank算法生成文本摘要。实验结果表明,相比传统基于序列到序列模型的摘要生成方法和基于句子多维特征的摘要抽取方法,该方法取得了更高的ROUGE指标值,能够有效综合句子的多维特征,提高摘要生成的准确率。
关键词句子相似度    图集成模型    文本摘要    朴素贝叶斯    多维度特征    
Automatic Summary Generation Method Based on Multidimensional Text Feature
WANG Qingsong , ZHANG Heng , LI Fei     
College of Information, Liaoning University, Shenyang 110036, China
Abstract: Existing automatic summary generation methods for long texts cannot fully measure the similarity characteristics of sentences, which results in the decrease of the accuracy of summary generation.To address the problem, this paper proposes an automatic summary generation method based on graph integration model.The method calculates the word frequency, semantic features and syntactic features of text sentences, and then uses the naive Bayesian method to transform the fusion problem of multidimensional text features into a graph integration mode, which improves the calculation accuracy of similarity between sentences.On this basis, a text summary is generated by using TextRank algorithm.Experimental results show that compared with the traditional summary generation method based on the sequence-to-sequence model and summary extraction method based on multi-dimensional features of sentences, the proposed method achieves a higher ROUGE index.It can effectively synthesize the multidimensional features of sentences, and improves the accuracy of summary generation.
Key words: sentence similarity    graph integration model    text summarization    naive Bayes    multidimensional feature    
0 概述

随着社会进入信息时代, 互联网上的数据呈爆炸式增长趋势, 数据量不仅庞大, 而且数据维度过高, 有效解决信息过载并从海量的数据中挖掘有用的信息变得至关重要。网络数据大部分以文本形式存在, 因此, 文本摘要生成技术是人们从大量文本信息中快速获取价值信息的关键。

现有的摘要方法基本都是从词与句子的特征入手。文献[1]利用词项的词频构建词句矩阵, 通过词句协同过滤算法(TSCF)排列句子, 根据均值移位聚类算法优化摘要句子排序。文献[2]通过计算句子关键词的TF-IDF值对句子进行排序, 利用句子相似度评价句子间的衔接度, 选取衔接度高的句子作为摘要。然而, 上述统计学的方法主要适用于结构比较规范的文本, 且只考虑了单词和句子的频率影响度, 并没有考虑到词汇间的语义关系。文献[3]通过提取关键词构造词汇链, 获取中间语义元素, 进而提取句子生成摘要。文献[4]应用文本处理算法LSA分析文本的潜在主题, 然后从文本中抽取对应这些主题的句子生成摘要。此类方法虽然考虑到了文本的整体语义层次, 但忽略了句子语义结构对摘要生成的影响。文献[5]利用深度神经网络Encoder-Decoder基本框架, 通过引入注意力模型, 提出文本摘要的深层学习模型——AM-BRNN来获取句子语义特征。文献[6]提出一种基于LSTM-CNN的ATSDL框架, 利用短语提取方法MOSP从文本中提取关键短语, 通过LSTM训练获取句子的语义信息和句法结构。基于深度学习的摘要生成方法通过训练语料库能充分获得词和句子的语义信息, 但此类方法过于依赖包含多目标词的语料库, 且适用于处理短文本, 过长的文本输入序列会导致学习框架无法准确地获取句子的语义信息。

近年来, 适用于处理长文本的基于图排序的摘要生成方法受到研究学者的广泛关注, 文献[7]使用PageRank算法的改进算法TextRank生成摘要, 将文本看成图结构, 句子作为顶点, 句子间的相似度作为边权重, 迭代计算顶点权重, 根据权重得分生成文本摘要。文献[8]提出了基于WMD语义度的TextRank改进摘要算法, 依据文本语义特征对句子进行评分。文献[9]提出了一种将BM25算法融合到TextRank算法中的摘要生成算法, 强化了文本词频特征对摘要生成的影响。此类方法将摘要生成问题转化为图排序问题, 降低了传统算法的复杂性, 考虑到了上下文之间的联系, 但是由于句子结构表征过于单一, 导致摘要生成的准确率低。

本文针对上述长文本摘要生成算法中的不足, 综合考虑句子的词频、语义和句法特征, 利用朴素贝叶斯方法, 以图集成的方式对句子多维特征进行融合, 从而准确地描述文本句子间的关联关系, 生成图集成模型GIMFS, 得到文本集成相似度图, 同时利用基于文本上下文句子联系的TextRank算法对图节点进行排序, 以提高摘要生成的质量。

1 3种维度句子相似度的计算 1.1 词频相似度

词频分析是利用词频特征来确定词语对文本的重要性。特征词集中的特征词TF-IDF[10]值的计算公式为:

$ {W_{ij}} = \frac{{t{f_{ij}} \times {\rm{lb}} \left( {\frac{N}{{{n_i}}} + 0.01} \right)}}{{\sqrt {\sum\limits_{j = 1}^n {{{\left( {t{f_{ij}} \times {\rm{lb}} \left( {\frac{N}{{{n_i}}} + 0.01} \right)} \right)}^2}} } }} $ (1)

其中, wij表示第j个句子中第i个特征词的权重, tfij为词语ti在句子dj中出现的频率, N为文本句子集中句子的个数, ni为文本句子集中包含词语ti的句子个数。

对于文本集合D中的每个句子可用其向量表示为si=[w1i, w2i, …, wmi], m为特征词的数量, 若句中含有特征词, 对应位置值为特征词权重wij, 否则值为0, 则2个句子si=(w1i, w2i, …, wmi)和sj=(w1j, w2j, …, wmj)之间的相似度计算公式为:

$ {\rm{Sim}}{{\rm{ }}_1}({\mathit{\boldsymbol{s}}_i},{\mathit{\boldsymbol{s}}_j}) = \frac{{\sum\limits_{\varepsilon = 1}^m {{w_{i\varepsilon }}} {w_{j\varepsilon}}}}{{\sqrt {\left( {\sum\limits_{\varepsilon = 1}^m {w_{i\varepsilon }^2} } \right)\left( {\sum\limits_{\varepsilon = 1}^m {w_{j\varepsilon }^2} } \right)} }} $ (2)
1.2 语义相似度

潜在语义分析(Latent Semantic Analysis, LSA)利用文本中词与词之间在潜在语义结构中的关联性建立语义概念模型来表示文本。借助矩阵的奇异值分解(SVD), 将文本中的词向量和句子向量映射到一个低维的潜在语义空间, 去除了原始文本空间中的一些“噪声”, 从而更精确地获取文本的语义结构。

SVD是将文本矩阵Dm×n分解为正交矩阵UVT和对角矩阵Σ的乘积, 即:

$ \mathit{\boldsymbol{D}} = \mathit{\boldsymbol{U \boldsymbol{\varSigma} }}{\mathit{\boldsymbol{V}}^{\rm{T}}} $ (3)

3个矩阵的物理含义为:左奇异矩阵Um×m=[u1, u2, …, um]中的列向量ui为左奇异向量, 它的每一行表示一个词, 每一列表示一个语义相近的词类, 这一行中每个非零元素表示每个词在每个语义类中的相关性; 右奇异矩阵Vn×nT=[v1, v2, …, vn]中的列向量vi为右奇异向量, 它的每一行表示一个句子, 每一列代表一个语义维度, 每个数值代表了某个语义与每个句子的相关程度; Σn×n=diag (λ1, λ2, …, λr)是D的对角矩阵, 且λ1λ2≥…≥ λr> 0, rD的秩, λi为矩阵D的奇异值, Σ表示词类与句子之间的相关性。

取对角矩阵Σ的前k个奇异值Σk, 并相应地保留左奇异矩阵Uk个列向量UK和右奇异矩阵VT的前k个行向量Vk, 即对矩阵D进行k维空间压缩处理, 其分解过程如图 1所示。

Download:
图 1 矩阵的SVD分解示意图 Fig. 1 Schematic diagram of SVD decomposition of matrix

文本矩阵Dk维近似矩阵Dk为:

$ {\mathit{\boldsymbol{D}}_k} = {\mathit{\boldsymbol{U}}_k}{\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_k}\mathit{\boldsymbol{V}}_k^{\rm{T}} $ (4)

其中, Dk保持了D中词与句子的关联模型, 维度k值的选取可以通过多次实验手动确定适当的参数值, 也可以通过取值分析比较, 但必须满足式(5):

$ \sum\limits_{i = 1}^k {{\lambda _i}} /\sum\limits_{j = 1}^r {{\lambda _j}} \ge \theta $ (5)

其中, θ可以取70%、80%、90%, 则2个句子si=(wi1, wi2, …, wik)和sj=(wj1, wj2, …, wjk)之间的语义相似度用潜在语义空间VkΣk向量之间的余弦值来表示:

$ {\rm{Sim}}{ _2}({\mathit{\boldsymbol{s}}_i},{\mathit{\boldsymbol{s}}_j}) = \frac{{\sum\limits_{s = 1}^k {{w_{i\varepsilon }}} {w_{j\varepsilon }}}}{{\sqrt {\left( {\sum\limits_{\varepsilon = 1}^k {w_{i\varepsilon }^2} } \right)\left( {\sum\limits_{\varepsilon = 1}^k {w_{j\varepsilon }^2} } \right)} }} $ (6)
1.3 句法相似度

句法相似度主要衡量文本中句子之间在语法层面上的相似度, 本文采用依存句法分析方法, 以依存语法为基础对句子进行结构分析。2个集合的相似度依赖于2个集合所含元素的相似度, 句法相似度的计算采用文献[11]中的计算方法, 依存句法采用五元组表示:

$ {\rm{P = (H/H - POS,C/C - POS,D)}} $ (7)

其中, P表示词语C依赖于词语H, H-POS是词语H的词性, C-POS是词语C的词性, D代表词语C和H的依存关系。这5个元素在集合相似度的计算中具有不同的权重次序。

根据依存句法理论, 一个词语只能依赖一个具体的词语, 但可能有很多词语依赖于具体的词语, 因此在P中, 词语C的重要程度大于词语H的重要程度。另一方面, 一个词语可以有多种词性, 同时一种词性又可能包含多个词语, 因此, 很明显词语比它本身的词性更重要。另外, 依存关系D不仅依赖于词语, 也依赖于词性, 所以依存关系D的重要度介于词语和词性之间。最终得到这5个特征的重要度排序如下:

$ {\rm{C > H > D > C - POS > H - POS}} $ (8)

假定有2个依存关系P1=(H1/H1-POS, C1/C1-POS, D1)和P2=(H2/H2-POS, C2/C2-POS, D2), 对2个依存关系中5个相对应位置的特征, 用1表示相同, 0表示不同。然后根据它们的重要度顺序即式(8)排列, 得到一个二进制数字(bbbbb)2, 它的大小范围为0~31, 0代表 2个依存关系完全不相似, 31代表 2个依存关系完全相似。定义2个依存关系的相似度计算公式为:

$ {\rm{SR}} ({{\rm{P}}_1},{{\rm{P}}_2}) = \frac{{{{({\rm{bbbbb}})}_2}}}{{{{(11111)}_2}}} $ (9)

假定2个句子的依存关系集合分别为:si={a1, a2, …, an}和sj={b1, b2, …, bm}, 定义2个句子的句法相似度为:

$ {\rm{Sim}}{ _3}({\mathit{\boldsymbol{s}}_i},{\mathit{\boldsymbol{s}}_j}) = \frac{{\sum\limits_{k = 1}^n {\mathop {{\rm{max}}}\limits_{1 \le t \le m} } {\rm{SR}} ({a_k},{b_t}) + \sum\limits_{t = 1}^m {\mathop {{\rm{max}}}\limits_{1 \le k \le n} } {\rm{SR}} ({b_t},{a_k})}}{{n + m}} $ (10)
2 基于图集成模型的自动摘要生成方法 2.1 图集成模型

当句子间的关联关系被更多类型的联系所支持时, 句子间的关联呈现出更高的置信度[12], 即句子多种特征之间的集成要比简单的权重相加拥有更高的置信度, 也就是句子之间相似计算拥有更高的准确性。由于每个维度的子图都是独立的, 因此使用朴素贝叶斯方法集成来自各个维度的无向图, 集成相似度矩阵计算公式为:

$ \mathit{\boldsymbol{A}} = 1 - \prod\limits_i {(1 - {\mathit{\boldsymbol{A}}_i})} $ (11)

其中, 1表示和Ai大小相同的矩阵且所有元素的值都为1, Ai是不同维度子图的邻接矩阵, $\mathop \prod \limits_i (1 - {\mathit{\boldsymbol{A}}_i})$采用阿达马乘积。图集成模型的总体结构如图 2所示。

Download:
图 2 图集成模型总体结构 Fig. 2 Overall structure of diagram integration model

图集成模型GIMFS通过3步对文本多维特征进行集成, 得到文本集成相似度无向图。

第1步 对文本进行预处理, 得到用特征词集表示的句子节点。

对输入的文本进行必要的预处理工作, 这样不仅能减少冗余信息, 减轻计算量, 而且还有助于提高相似度计算的准确性。对文本进行分段分句处理是文本预处理的基础, 将“。”“!”“?”“…”作为一个句子的结束符, 把文本分解成句子集合, 然后以句子为单位进行分词、词性标记、去停用词、去低频词和词义消歧工作。假定给定文本Dn个句子组成, 则文本集合表示为D={s1, s2, …, sn}, 其中每一个句子sj(1≤jn)是按原文中出现的顺序排列, 经过文本预处理以后, 得到文本集合D′={s1, s2, …, s′n}。D′中所有词组成的特征词集为CW={y1, y2, …, ym}, 其中, m为文本集合D中特征词的数量, 特征词的顺序按原文出现的顺序排列。对于文本集合D中的每个句子可表示为s′j=[y1, y2, …, ym], 若句子中对应位置不含有特征词则用0表示。

第2步 计算文本3种特征维度的相似度, 分别构建每个维度的无向加权图。

利用式(2)计算文本句子间的词频相似度, 并构建文本词频特征相似矩阵A1, 利用式(6)计算文本句子间语义相似度, 并构建文本语义特征相似度矩阵A2, 利用式(10)计算文本句子间句法相似度, 并构建文本句法特征相似度矩阵A3。如果句子间的相似度为aij, 则文本特征相似矩阵可表示为:

$ {\mathit{\boldsymbol{A}}_a} = \left[ {\begin{array}{*{20}{c}} {{a_{11}}}&{{a_{12}}}& \cdots &{{a_{1n}}}\\ {{a_{21}}}&{{a_{22}}}& \cdots &{{a_{2n}}}\\ \vdots & \vdots &{}& \vdots \\ {{a_{n1}}}&{{a_{n2}}}& \cdots &{{a_{nn}}} \end{array}} \right] $ (12)

以句子为节点, 句子间的相似关系为边, 相似度值为边的权重, 利用文本的3种特征相似矩阵A1A2A3分别构建3种维度的无向加权图A1A2A3

第3步 对文本三种维度的特征图进行集成。

文本每一个维度的无向加权图可以看作是子图, 通过图的集成式(11)完成对子图的集成, 得到文本多维特征的集成相似度图A′, 其对应文本集成相似度矩阵为A, 图中句子间的集成相似度一般大于每个子图中对应句子间的相似度, 且句子间的相似关系具有更高的置信度, 即句子间的相似关系的计算具有更高的准确性, 文本多维特征的集成相似度图更能准确地描述文本句子间的关联关系。

根据图集成模型GIMFS计算文本集成相似度矩阵的算法描述如下:

算法 文本集成相似度矩阵计算算法

输入 待处理文本D

输出 文本集成相似度矩阵A

1.BEGIN

2.DivideCW from D; //文本预处理得到特征词集

3.FOR each sjdo //对于文本中的每一个句子sj

4.s′j=[CW]; //用特征词集表示句子

5.s′j(I)=IF-IDF(CW); //使用IF-IDF方法计算句子的//词频特征值

6.s′j(W)=word2vec(CW); //使用word2vec完成词向量的//训练

7.s′j (P)=P(CW); //使用依存句法分析计算句子的句//法特征值

8.END

9.FOR each si, sjdo //对于文本中的任意一对句子si, sj

10.A1=Sim1(s′i (I), s′j(I)); //计算文本词频相似度并构建//文本词频相似度矩阵

11.A3=Sim3(s′i(P), s′j(P)); //计算文本句法特征相似度//并构建文本句法相似度矩阵

12.END

13.D′k=SVD(D′[s′j]); //对文本D′进行奇异值分解

14.FOR each si, sjdo //对于语义空间Vkk中的任意一对句//子si, sj

15.A2=Sim2(s′i (W), s′j(W)); //计算文本语义特征相似度//并构建文本语义相似度矩阵

16.END

17.A=1-(1-A1)(1-A2)(1-A3); //计算文本的//集成相似度矩阵

18.END

对文本集成相似度矩阵计算算法进行性能分析, 该算法所消耗的时间复杂度包括以下7种:

1) 对文本进行预处理, 设其时间复杂度为T

2) 计算特征词集CW中特征词的TF-IDF值, 时间复杂度为O(m×n), m为特征词的个数, n为文本中句子的个数。

3) 使用依存句法分析完成文本中句子的句法结构表示, 时间复杂度为O(m×n)。

4) 计算文本中句子的词频相似度、句法相似度, 其时间复杂度分别为O(n2)、O(n2)。

5) 利用word2vec完成特征词向量的训练, 设其时间复杂度为Tword2vec; 对其构建文本矩阵D进行奇异值分解, 时间复杂度设为TSVD

6) 计算语义空间VkΣk中句子的语义相似度, 时间复杂度为O(k2), k为保留的奇异值的数量。

7) 使用朴素贝叶斯方法计算文本集成相似度矩阵的时间复杂度为O(n2)。

因此, 图集成模型GIMFS计算文本集成相似度矩阵的总的时间复杂度T为:

$ \begin{array}{l} T = {T_{{\rm{预}}}} + O(m \times n) + O(m \times n) + O({n^2}) + O({n^2}) + \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {T_{{\rm{SVD}}}} + O({k^2}) + O({n^2}) = {T_{{\rm{预}}}} + {T_{{\rm{SVD}}}} + \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} 2O(m \times n) + 3O({n^2}) + O({k^2}) \end{array} $ (13)
2.2 摘要生成

TextRank算法是一种基于图的无监督的排序算法, 采用“投票”或“推荐”机制[13], 将词或句子之间的相似关系看成一种推荐关系, 节点的重要性不仅取决于投票和边的数量, 还取决于节点的重要性, 这有助于确定每个顶点的分数或等级。

通过图集成模型GIMFS得到文本集成相似度图之后, 利用TextRank算法的迭代收敛方法对图节点进行排序。句子节点权重迭代计算公式为:

$ {\rm{WS}}({V_i}) = 1 - d + d \times \sum\limits_{{V_j} \in {\rm{in}}({V_i})} {\frac{{{w_{ij}}}}{{\sum\limits_{{V_k} \in {\rm{out}}({V_j})} {{w_{jk}}} }}} {\rm{WS}}({V_j}) $ (14)

其中, WS(Vi)是节点Vi的权重值, d为阻尼系数, 一般取0.85, 图中某一节点跳转到另一节点的概率为(1-d), in(Vi)是out(Vj)指向节点Vi的所有节点集合, 表示节点Vj指向的所有节点集合, Wij是节点Vi和节点Vj之间边的权重。式(14)的左边为Vi的权重, 右边表示每个相邻节点对本节点的贡献程度。整个公式是一个迭代的过程, 各个节点的初始权重一般设置为1, 当经过迭代计算到图中任意一节点迭代前后权值差值小于0.000 1时, 迭代停止, 最终得到各候选句的权值集合。将候选句按权值进行由大到小排序, 然后根据提取率选取权值较大的几个句子为摘要句。

$ {\rm{提取率 = 生成摘要的句子个数}}/{\rm{文本句子总数}} $ (15)

其中, 提取率取常规阈值0.1。

本文方法的总体流程如图 3所示。

Download:
图 3 基于文本多维度特征的自动摘要生成方法流程 Fig. 3 Procedure of automatic summary generation method based on text multi dimensional feature
3 实验结果与分析 3.1 实验环境和任务

实验使用Python语言3.6版本实现本文的自动摘要系统, 采用NLTK组件进行文本的预处理, 在CNN/Daily Mail语料库上使用genism模块的word2vec模型训练词向量, 在斯坦福推理语料库(SNLI)数据集上实现对本文方法句子集成相似度的评测任务, 在CNN/Daily Mail数据集上实现摘要的自动评估任务。

3.2 结果对比分析

实验1 句子集成相似度评测

数据集:SNLI数据集[14]是一个人工评测句子相似度计算的英文语料库, 包含570 000对人工标注的句子对, 其中有550 153对训练句子和10 000对测试句子, 针对推理前提和推理假设之间是否存在逻辑关系, 人工标注了entailment(蕴含, 推理)、contradiction(矛盾, 对立)、neutral(无关) 3种标签。本文在实验中选择标签为entailment的句子对为语义相似样本, 标签为contradiction的句子对为语义不相似样本, 最终得到含有366 603对句子的训练集和含有6 605对句子的测试集。

评价指标:本文通过准确率A、精确率P、召回率R及F1值4个评价指标对实验结果进行评测, 这4个评价指标的定义如下:

$ {A = \frac{{{\rm{TP + TN}}}}{{{\rm{TP + FP + TN + FN}}}}} $ (16)
$ {P = \frac{{{\rm{TP}}}}{{{\rm{TP + FP}}}}} $ (17)
$ {R = \frac{{{\rm{TP}}}}{{{\rm{TP + FN}}}}} $ (18)
$ {{\rm{F1}} = \frac{{2PR}}{{P + R}}} $ (19)

其中, TP是预测为相似且在数据集中也是相似的句子对的数量, TN是预测为不相似且在数据集中也是不相似的句子对的数量, FP是预测为相似但在数据集中为不相似的句子对的数量, FN是预测为不相似但在数据集中为相似的句子对的数量。

将本文基于图集成模型GIMFS计算句子集成相似度方法分别与基于IF-IDF词频相似度方法、基于LSA语义相似度方法、基于依存句法相似度方法和文献[15]方法进行实验对比, 相似度阈值取0.6, 结果如图 4所示。

Download:
图 4 SNLI数据集中评价指标的对比 Fig. 4 Comparison of evaluation indicators in SNLI dataset

图 4的实验结果对比可以看出, 本文图集成模型GIMFS计算句子相似度的方法具有较高的准确率、召回率和F1值, 证明本文句子集成相似度的计算方法在预测句子相似问题上具有较好的准确性。其原因在于:相比句子单一特征的IF-IDF、LSA和依存句法方法, 本文方法综合考虑文本句子中的词频、语义和句法3种特征, 图集成模型GIMFS有效强化了句子特征之间的关联性, 而文献[15]基于句子多种特征相似度的计算方法只是将句子多种特征相似度权值简单相加, 其性能相比本文方法明显较差。召回率表示样本中的相似句与预测准确比例。精确率表示预测为相似的句子集中真正相似句子的比例, 在一般情况下, 精确率和召回率是相互矛盾的, 一个数值高对应着另一个数值低, 很少有方法能使两者同时获得较好的数值, 本文方法在保证高精确率的同时, 召回率明显高于其他方法, 而且两者的综合评价指标F1值达到最高。综合结果表明, 相比其他方法, 本文基于图集成模型GIMFS的句子集成相似度计算方法在预测句子相似方面取得了更好的效果。

实验2 摘要评估

数据集:本文的研究是基于长文本的单文档自动摘要生成技术, 实验采用基于单文本自动文本摘要语料库CNN/Daily Mail, 该数据集是从美国有线新闻网(CNN)和每日邮报网(Daily Mail)收集了100多万条新闻数据[16]。使用文献[16]提供的脚本下载数据集, 使用文献[17]提供的脚本获得了数据集未标记版本, 即包含每个新闻故事的原始文本, 其中, 训练集286 817对, 验证集13 368对, 测试集11 487对, 使用训练集作为摘要评估的数据集, 训练集中文档平均包含833个词, 约27个句子, 对应的摘要平均包含53个词和3.72个句子。

评价指标:对实验结果评测时, 采用评测工具ROUGE来进行评测, 计算ROUGE中ROUGE-1、ROUGE-2、ROUGE-L值作为最后的评价指标。ROUGE-N定义公式为:

$ \begin{array}{l} {\rm{ROUGE}} - N = \\ \frac{{\sum\limits_{S \in \left\{ {{\rm{ReferenceSummaries}}} \right\}} \;\;{\sum\limits_{{\rm{gra}}{{\rm{m}}_n} \in s} \;{{\rm{Coun}}{{\rm{t}}_{{\rm{ match }}}}( {\rm{gram}}{ _n})} } }}{{\sum\limits_{s \in \left\{ {{\rm{ReferenceSummaries}}} \right\}} \;\;{\sum\limits_{{\rm{gra}}{{\rm{m}}_n} \in s} \;{{\rm{Count}}( {\rm{gram}}{ _n})} } }} \end{array} $ (20)

其中, n表示n-gram的长度, {ReferenceSummaries}表示事先获得的人工标准摘要, Countmatch(gramn)表示候选摘要和标准摘要中同时出现n-gram的个数, Count(gramn)则表示标准摘要中出现的n-gram个数。

ROUGE-L是计算生成摘要和标准摘要的最长公共子序列(Longest Common Subsequence, LCS), 其优点在于自动匹配最长公共子序列, 不需要预先定义n-gram的长度[18]

将本文提出的基于图集成模型GIMFS的自动摘要方法分别与TextRank方法、基于RNNseq2seq生成式文本摘要方法[19]、基于句子多特征融合的TextRankExt[20]方法、基于词句协同过滤的摘要提取方法TSCF-Mean[1]、基于深度学习自动抽取模型AM-BRNN方法[6]、基于IF-IDF和K-Means的文本摘要提取方法[21]进行实验对比, 结果如表 1所示。

下载CSV 表 1 CNN/Daily Mail中各方法的评价指标得分结果 Table 1 Evaluation index score results of each method in CNN/Daily Mail  

通过表 1的实验结果对比可知, 本文方法针对长文本表现出较好的处理能力, 各个评价指标均取得了较好的结果。对比RNNseq2seq在3个摘要评价指标上大约提高了9%, 由于RNNseq2seq是基于seq2seq模型的生成式摘要方法, 适用于处理短文本, 过长的文本输入序列会导致编码器端无法准确地提取文本的语义信息, 产生长距离依赖问题, 导致模型无法收敛, 进而影响到摘要生成的准确度。对比基线TextRank方法, 从3个评价指标上可以看出, 本文方法摘要生成的质量平均提高了约7%, 表明文本的多维特征在摘要生成上起到了关键作用。

TextRankExt方法将句法、语义和统计方法应用于文本表征上, 共同作用于摘要提取的过程中, 效果优于文本单一特征的方法, 但只是将文本的多种特征的权值简单相加, 其性能相比本文方法明显较差, 说明本文方法对文本多维特征进行集成的方式有效强化了文本多维特征之间的关联性, 进而提高了摘要生成的准确性。AM-BRNN方法虽然考虑了句子的多维度特征, 通过双向循环神经网络BiRNN捕获上下文信息, 但并没有对句子特征进行关联整合, 导致在神经网络中注意力机制不能有效获取语义信息。TSCF-Mean方法利用词句协同过滤算法预测和计算句子权值, 通过Mean Shift算法优化句子排序, 虽然充分考虑了文本的词频特征, 但在文本语义表征上存在严重不足。IF-IDF & K-Means方法通过IF-IDF算法获取文本的词频特征, 然后根据K-Means聚类得到文本的主题分布, 但此方法过于依赖文本的词频特征, 同样存在语义信息表示不足的问题。本文方法从词和句子的多角度特征出发, 利用句子多维特征之间的关联关系, 构建图集成模型GIMFS, 从而提高了文本句子之间相似计算的准确性, 最后通过基于文本上下文信息关系的TextRank算法生成高质量的文本摘要。其实验评价指标得分均优于其他方法, 表明了本文摘要生成方法的优越性。

4 结束语

本文研究长文本的自动摘要生成技术, 综合考虑句子的词频、语义和句法特征, 利用朴素贝叶斯方法对文本多维度特征进行集成, 构建图集成模型GIMFS, 提高句子间相似特征的置信度, 强化文本特征之间的关联性, 并通过基于上下文信息的TextRank算法对候选句进行排序, 提高摘要生成的准确率。实验结果表明, 相比传统基于句子单一特征的长文本摘要生成方法, 本文图集成模型GIMFS能够提高句子间相似计算的准确性, 有效强化文本多维特征之间的关联性, 提出的摘要生成方法对长文本中的语义单元具有较强的抓取能力, 准确性更高。下一步将研究图集成模型GIMFS的可扩展性, 以增强句子多维度特征之间的关联。

参考文献
[1]
EL-REFAIY A M, ABAS A R, EL-HENAWY I M. Determining extractive summary for a single document base-don collaborative filtering frequency prediction and mean shift clustering[J]. IAENG International Journalof Computer Science, 2019, 46(3): 494-505.
[2]
DARMAWAN R, WIJAYA A.Integration distance similarity with keyword algorithm for improving cohesion between sentences in text summarization[C]//Proceedings of IOP Conference on Series Materials Science and Engineering.Washington D.C., USA: IEEE Press, 2019: 12-19.
[3]
LYNN H M, CHOI C, KIM P. An improved method of automatic text summarization for Web contents using lexical chain with semantic-related terms[J]. Soft Computing, 2018, 22(12): 4013-4023. DOI:10.1007/s00500-017-2612-9
[4]
JOSEF S, KAREL J.Update summarization based on lat-ent semantic analysis[C]//Proceedings of Text, Speech & Dialogue International Conference.Pilsen, Czech Republic: [s.n.], 2009: 77-84.
[5]
SHEN Huadong, PENG Dunlu. AM-BRNN:automatic text summarization extraction model based on deep learning[J]. Journal of Chinese Computer Systems, 2018, 39(6): 1184-1189. (in Chinese)
沈华东, 彭敦陆. AM-BRNN:一种基于深度学习的文本摘要自动抽取模型[J]. 小型微型计算机系统, 2018, 39(6): 1184-1189.
[6]
SONG Shengli, HUANG Haitao, RUAN Tongxiao. Abstractive text summarization using LSTM-CNN based deep learning[J]. Multimedia Tools and Applications, 2019, 78(1): 857-875. DOI:10.1007/s11042-018-5749-3
[7]
MIHALCEA R.Graph-based ranking algorithms for sentence extraction, applied to text summarization[C]//Proceedings of ACL'04.New York, USA: ACM Press, 2004: 20.
[8]
WANG Zixuan, LE Xiaoqiu, HE Yuanbiao. Recognizing core topic sentences with improved TextRank algorithm based on WMD semantic similarity[J]. Data Analysis and Knowledge Discovery, 2017, 1(4): 1-8. (in Chinese)
王子璇, 乐小虬, 何远标. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J]. 数据分析与知识发现, 2017, 1(4): 1-8.
[9]
LI Nan, TAO Hongcai. A novel news summary algorithm combining BM25 and text features[J]. Journal of Chengdu University of Information Technology, 2018, 32(2): 113-118. (in Chinese)
李楠, 陶宏才. 一种新的融合BM25与文本特征的新闻摘要算法[J]. 成都信息工程大学学报, 2018, 32(2): 113-118.
[10]
TANG Yizhi. Conceptual option from HowNet and relational analysis[J]. Natural Science Journal of Xiangtan University, 2009, 31(1): 135-140. (in Chinese)
唐一之. 基于知网的领域概念抽取与关系分析研究[J]. 湘潭大学自然科学学报, 2009, 31(1): 135-140.
[11]
XIONG Jing, LIU Yuntong, YUAN Dong. Dependency syntactic tree supported sentence similarity computing[J]. Information Technology Journal, 2013, 12(20): 5685-5688. DOI:10.3923/itj.2013.5685.5688
[12]
MERING C V, JENSEN L J, SNEL B, et al. STRING:Known and predicted protein-protein associations, integrated and transferred across organisms[J]. Nucleic Acids Research, 2004, 33: 433-437. DOI:10.1093/nar/gki005
[13]
MIHALCEA R, TARAU P.TextRank: bringing order into texts[C]//Proceedings of International Conference on Empirical Methods in Natural Language Processing.Barcelona, Spain: [s.n.].2004: 404-411.
[14]
BOWMAN S R, ANGELI G, POTTS C, et al.A large annotated corpus for learning natural language inference[EB/OL].[2015-04-21].https://arxiv.org/abs/1508.05326.
[15]
LI Qiuming, ZHANG Weishan, ZHANG Peiying. Similarity calculation model based on multiple features of sentences[J]. Software Guide, 2016, 15(9): 4-6. (in Chinese)
李秋明, 张卫山, 张培颖. 基于句子多种特征的相似度计算模型[J]. 软件导刊, 2016, 15(9): 4-6.
[16]
HERMANN K M, KOCISKY T, GREFENSTETTE E, et al.Teaching machines to read and comprehend[C]//Proceedings of IEEE International Conference on Neural Information Processing Systems.Washington D.C., USA: IEEE Press, 2015: 1693-1701.
[17]
SEE A, LIU P J, MANNING C D.Get to the point: summarization with pointer-generator networks[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Washington D.C., USA: IEEE Press, 2017: 1073-1083.
[18]
LIN C Y, OCH F J.Looking for a few good metrics: ROUGE and its evaluation[C]//Proceedings of the 4th NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization.Tokyo, Japan: [s.n.], 2004: 125-136.
[19]
RUSH A M, CHOPRA S, WESTON J.A neural attention model for abstractive sentence summarization[C]//Proceedings of EMNLP'15.New York, USA: ACM Press, 2015: 379-389.
[20]
BARRERA A, VERMA R.Combining syntax and semantics for automatic extractive single-document summarization[C]//Proceedings of International Conference on Computational Linguistics and Intelligent Text Processing.Berlin Germany: Springer, 2012: 366-377.
[21]
KHAN R, QIAN Y, NAEEM S. Extractive based text Summarization using K-means and TF-IDF[J]. Information Engineering and Electronic Business, 2019, 3: 33-44.