2. 陆军边海防学院, 西安 710025
2. Army Academy of Border and Coastal Defence, Xi'an 710025, China
开放科学(资源服务)标志码(OSID):
自动文本摘要技术最早应用于加拿大政府的天气预报工作,后来被应用于金融分析、医疗数据整理、法律文本处理等多个领域进行辅助决策。在神经网络和深度学习被广泛使用之前,大部分摘要类实现方法都是以抽取的方式,例如文献[1-3]利用基于图排序的摘要方法,文献[4]利用基于启发式规则的摘要方法,文献[5]利用基于有监督学习的摘要方法,文献[6-8]利用基于神经网络的摘要方法,文献[9-10]利用基于次模函数的摘要方法,文献[11-13]利用基于预训练模型的摘要方法,等。以上方法均可以理解为序列到序列的抽取式摘要方法,即从原文中分析并提取出最重要的原文完整句子,进行简单拼接后得到一个抽取式摘要结果。在现实中的人工条件下,摘要更多的是生成式的过程,即在阅读一段、一篇或多篇文段后,经过脑内抽象分析得到一个抽象理解,之后结合自己的知识结构输出为一段高度概括的内容。因此,随着深度学习的快速发展,自动文本摘要的方法逐渐由抽取式向生成式偏移。现已有不少国内[14-15]和国外[16-18]的研究人员对目前的自动文本摘要方法进行了综述分析,但是针对生成式自动文本摘要的文献综述,如文献[19-20],在直接将目前生成式自动文本摘要等价于基于深度学习后便不再深入分析,缺乏问题导向和足够深入的研究,对于目前最新研究成果分析不够充分。
本文针对生成式文本摘要技术,指出其在深度学习下的发展优势和关键问题,描述生成式摘要系统的基本结构和数据预处理的相关基础知识,并以关键问题为导向,展示基于深度学习的生成式摘要模型突出的研究成果,比较优秀的深度预训练和创新方法融合模型。此外,介绍生成式摘要系统常用的数据集和评价标准,并对这一技术的发展局限性及发展前景进行分析。
1 研究背景及现状分析信息摘要是对海量数据内容的提炼和总结,以简洁、直观的摘要来概括用户所关注的主要内容,方便用户快速了解关注目标。文本类摘要作为众多模态信息摘要中最常见的类型,通过筛选、提炼、总结等方式得到与原文语义相近但极大程度缩短长度的句段。随着各类文本信息数量的爆炸式增长,公众需求大量增加,自动文本摘要技术起到了重要作用。
基于深度学习的生成式自动文本摘要任务模型主要具有以下优点:
1)灵活性高,允许生成的摘要中出现新的字词或短语。
2)相比于抽取式摘要,生成式摘要模型的思路更符合实际需求,其结果更贴近人工摘要的结果。
3)生成式摘要能够在建立完整语义信息的同时有效避免过多冗余信息。
同时,基于深度学习的生成式自动文本摘要任务模型存在以下关键问题:
1)未登录词(Out of Vocabulary,OOV)问题。在处理文本时,通常会有一个字词库,未登录词就是不在字词库中的单词。这个字词库可以是提前加载的,可以是自己临时定义的,也可以是从训练数据集提取的,如何处理未登录词是文本摘要任务的关键问题之一。
2)生成重复问题。利用注意力得分从分布中采样得到的字词连续重复生成,导致语法不通或语义不明。
3)长程依赖问题。在长文档或多文档摘要任务中,较长文档或多文档远距离语义抽取能力不足。
4)评价标准问题。生成的摘要好坏,不仅单纯地由评价指标决定,同时也需要考虑语义相关性、语法准确性、流畅性等问题。
2 数据预处理及基本框架目前生成式自动文本摘要主流的基本框架是结合数据预处理[21-22]和编解码器的序列到序列框架[23-24],其中涉及CNN[25]、RNN[26]、LSTM/GRU[27-28]、Transformer[29-30]、BERT[31]及其变体RoBERTa[32]等作为编码器或解码器的基本模型。
在编码器之前,需要实现数据的预处理,包括分词、词嵌入等。分词是中文特有的需求,在实际的深度学习过程中,虽然无论是语义关联还是文本生成都是基于字而非基于词的,但是分词的作用仍然很重要,它有利于下一步融合注意力机制的权重分配,其中,BERT、GPT[33-35]等预训练模型以及fastBERT[36]等蒸馏后的预训练模型[37-38]所使用的基于WordPiece[39]的分词方法,常用于提高模型生成的准确性和合理性。词嵌入包括文档嵌入[40-42]以及位置嵌入,是数据预处理中最重要的一环,每一个单词对应唯一的词向量,词嵌入的诞生促使机器可以通过数学的方法对其进行分析建模推演,这些向量是高维度的,通过分析这些高纬度向量,可以找出很多利于分析的规律。随着机器学习的发展,趋向使用各种预训练模型加以适当微调,即可完成数据预处理工作,因此,预训练模型已经成为词嵌入的常态配置。
目前在利用深度学习技术进行自动文本摘要方面已经有了不少研究成果,重点在于编码器和解码器的序列到序列框架。在将一个序列输入框架之后,通过编码器得到隐藏上下文向量,然后将其作为输入送入解码器,在解码过程中计算概率分布得到输出。目前,越来越多基于序列到序列框架的模型被提出,但基本上都是基于RUSH等[43]提出的加入注意力机制的序列到序列框架,如图 1所示。该模型有助于更好地生成摘要,已经成为生成式自动文本摘要模型的主要框架。
![]() |
Download:
|
图 1 带注意力机制的序列到序列神经网络模型框架 Fig. 1 Framework of sequence to sequence neural network model with attention mechanism |
针对上文所述基于深度学习的生成式文本摘要模型中存在的关键问题,下文分析相应问题的解决方案,介绍常用深度预训练生成摘要模型技术,以及基于深度学习的创新性生成摘要模型技术,并对主流生成式摘要模型在不同数据集上的效果进行对比分析。
3.1 针对未登录词问题的解决方案未登录词问题是生成式文本摘要任务中的首要问题,最开始的解决方法有替换成特殊字符“UNK”,或进行删除操作,或从原文中随机抽取替换,但都会影响摘要生成效果。
针对该问题,SEE等[44]提出指针生成器网络(Point-Generator Network,PGN),即复制机制。针对序列到序列基本模型经常不准确再现事实细节的问题,通过指针从源文本中针对性复制单词的方式,缓解了OOV问题,既允许摘要单词通过指针复制源文档单词的方式生成,也允许一定概率下从固定字词库中采样生成。复制机制对于准确地复制罕见但必须出现的单词至关重要,如人名、地名等专有名词。该方法已经成为生成式文本摘要模型最常用的网络模型之一。但该模型存在一个问题,即摘要中的新颖性字词依赖于字词库中的新颖性字词,这使得模型机制对于字词库有较大程度的依赖性。
针对PGN存在的问题,CHAKRABORTY等[45]分析指针生成网络解决未登录词问题过程中不能生成新词问题的根本原因,并通过增加未登录词惩罚机制,优化可以生成新词的生成式摘要模型效果。
3.2 针对生成重复问题的解决方案生成重复问题指的是,基于注意力的序列到序列模型生成的摘要在注意力机制的影响下有倾向于生成重复字词的情况,导致出现不必要的冗余或语法错误等问题。针对该问题,SEE等[44]提出覆盖(coverage)机制,利用注意力分布追踪目前应被选中的单词,当再次注意指向与上一时间步同一内容时予以惩罚,解决基于注意力的序列到序列模型生成句子中经常有重复片段现象的问题。
虽然覆盖机制解决了生成重复的问题,但是对于生成重复的情况并没有做区分,因为有些主语是必须要重复生成的。因此,如果只是一味地避免重复,对于生成式摘要而言是一种惩罚,会导致这类本该重复生成的词会被替换为未生成过的其他词,降低了摘要的质量。为实现有选择性的覆盖,CHUNG等[46]提出MPG模型,修正了主题词无法选择性重复生成的问题,提高了生成摘要的质量。
此外,LIN等[47]提出了一个全局编码框架。该框架基于源上下文的全局信息来控制从编码器到解码器的信息流,其由一个卷积选通单元组成,用于执行全局编码,以改善源端信息的表示,在提高生成摘要质量的同时也达到了减少重复的目的。COHAN等[48]针对长序列摘要字词重复生成的问题,跟踪注意力作用范围,提出解码器覆盖范围作为注意力功能的附加输入,以避免注意力重复指向相同的内容。
3.3 针对长程依赖问题的解决方案长程依赖问题指的是,面对较长或主旨不集中的输入信息,通过加大输入长度提高上下文向量的语义抽取能力时,后期输入内容对上下文向量语义的影响基本消失的问题。
在基于注意力机制的序列到序列基础模型基础上,CHOPRA等[49]以卷积注意力作为编码器并以循环神经网络(Recurrent Neural Network,RNN)作为解码器,NALLAPATI等[26]结合庞大字词库,利用RNN作为编码器解码器来提高生成摘要质量,但都深受RNN长程依赖问题的影响。为减少该问题影响,COHAN等[48]提出分层RNN用以捕捉文档话语结构,利用语篇相关信息来修改词级注意功能,缓解长程依赖问题。CELIKYILMAZ等[50]使用长短时记忆网络(Long-Short Term Memory,LSTM)抽取句子的语义表示,利用深度代理通信(DCA)的方式解决长距离情况下如何更好进行信息聚留的问题,并采用最大似然估计、语义衔接、逐句间强化学习策略等方式提高生成摘要的准确性、连贯性、抽象程度。LIN等[47]将双向LSTM作为编码器,将单向LSTM作为解码器,并增加自注意(Self-Attention)模块,挖掘某一时刻标记(Token)之间的关系,提高全局信息关注能力,从而减少长程依赖影响。
目前,越来越多研究着眼于利用预训练模型进行生成式摘要生成。YANG等[51]针对BERT输入长度受限的问题,提出通过对句子单独应用推理来解决这个问题,然后聚合句子分数来产生文档分数的思想,以缓解BERT的长程依赖问题。
3.4 针对评价标准问题的解决方案评价标准问题包括两点:1)生成式摘要任务训练模型需要考虑ROUGE函数不可微而不适用于梯度计算的问题;2)生成式摘要任务中的评价标准常采用人工评价或ROUGE自动评价标准,但是生成式摘要的ROUGE评价结果并不能充分说明摘要质量,归根于生成式摘要结果评价指标希望更看重整体语义匹配程度,而ROUGE更看重字词组合的形式匹配。针对以上2个评价标准问题,在设计损失函数时,需要考虑如何将ROUGE标准融入损失函数及其优化计算方法,同时设计兼具语义相似性和字词匹配度的损失函数。
针对第1个评价标准问题,NG等[52]提出针对ROUGE的单词嵌入方法,提高了摘要评估效果,其在使用斯皮尔曼(Spearman)和肯德尔(Kendall)秩系数测量时不测量词汇重叠,而是通过词嵌入来计算摘要中使用的词的语义相似度,达到与人类评估更好的相关性,并避免2个单词序列具有相似含义时由于词典表示法的差异而受到ROUGE不公平处罚的影响。AYANA等[53]将不可微而无法直接用作损失函数的ROUGE、BLEU等评测指标引入训练目标函数中,使用最小风险训练策略进行优化计算,改进了标题生成的效果。CELIKYILMAZ等[50]使用强化学习的自我批判训练方法计算不可微的ROUGE函数。LI等[54]提出在卷积序列到序列框架中使用自临界序列训练SCST技术直接优化模型,缓解了曝光偏差问题并实现了不可微的摘要度量ROUGE的计算。
针对第2个评价标准问题,FABBRI等[55]使用神经摘要模型输出以及专家摘要和外包人工标注摘要,以全面和一致的方式重新评估了12个自动评估指标,并使用这些自动评估指标对23个最近的摘要模型进行了基准测试,得到一个更完整的文本摘要评估协议,提高摘要自动评估指标的普适性。
3.5 包含深度预训练框架的生成式文本摘要模型深度学习发展至今,随着Transformer框架的提出,原先由基于RNN、LSTM、GRU等模型作为编码器和解码器的序列到序列模型,已经发展为基于Transformer的序列到序列模型,逐渐形成了深度预训练模型的主要框架。同时,对于训练集的需求也由有监督学习向无监督学习转化,大幅提升了缺乏足够有标签数据情况下的模型性能。
目前,生成式文本摘要领域最常用的深度预训练模型包括MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等。MASS[56]模型使用的方法是掩蔽序列到序列的生成,避免在给定句子剩余部分的情况下重构句子片段,随机选择一个句子片段。TAAS[57]模型包含了1个利用潜在主题表示文档潜在语义结构的主题感知抽象摘要模型框架。UniLM[58-59]模型包含3种语言建模任务的联合训练,即单向(从左到右和从右到左)、双向(单词级掩码,带有下一句预测)和序列到序列(单词级掩码)预测。T5[60]模型展示了扩大模型大小(至110亿个参数)和预训练语料库的优势,并引入了C4大规模文本语料库。该模型利用随机损坏的文本段进行预训练,这些文本段具有不同的掩码比和段的大小。STEP[61]模型包含3个与抽象摘要任务有关且都基于恢复源文本而设计的预训练目标,即句子重新排序(SR)、下一句生成(NSG)和屏蔽文档生成(MDG)。与在更大的语料库(≥160 GB)上进行模型预训练相比,该模型在语料库只有19 GB的情况下仍然可以获得相当甚至更好的性能。BART[62]模型引入去噪自动编码器对序列间模型进行预训练,利用任意的噪声函数破坏文本,并学习重构原始文本。对于生成任务,噪声函数是文本填充,其使用单个掩码标记来掩码随机采样的文本范围。PEGASUS[63]模型提出了新的预训练目标间隙句生成GSG(Gap Sentences Generation),从文档中选择并屏蔽整个句子,并将间隙句连接成伪摘要。ProphetNet[64]模型提出一个新颖的自监督学习目标函数,即预测未来N元组(Predicting Future N-gram)。与传统序列到序列模型中Teacher-forcing每一时刻只预测下一个字符不同,该模型每一时刻都在学习如何同时预测未来N个字符。
以上基于Transformer的序列到序列深度预训练框架的生成式文本摘要模型优势,在于不需要过多的有标记数据,仅凭借大量无标记语料库进行预训练再用少量标记数据微调即可,随着预训练语料库内容的不断扩充,促使生成摘要的得分不断提高。值得注意的是,这类框架极大地弱化了对标记数据的需求和调试的门槛,但也大幅提高了语料库精细程度及硬件训练的门槛,同时目前关于这些预训练模型可解释性相关研究仍然缺乏,对于如何在预训练框架中优化生成式摘要的未登录词、生成重复、长程依赖、评价标准等核心问题,缺乏足够深入的研究。
3.6 融合深度学习创新方法的生成式文本摘要模型为提高基于深度学习的生成式摘要模型性能,研究者通过尝试与其他领域模型及方法的创新融合,在不同方面推进了生成式摘要模型的发展。
GUO等[65]通过融合具有问题生成和蕴涵生成等辅助任务的多任务学习模型,提高了抽象摘要的蕴含源文本核心信息能力,并提出新的多任务体系结构,总体上提高了摘要模型的学习显著性和蕴含能力。XU等[66]融合图卷积网络模型,使用图来连接文档中句子的解析树,并使用堆叠图卷积网络来学习文档的语法表示,通过选择性注意机制提取语义和结构方面的显著信息并优化生成摘要结果。ZOU等[61]融合自建大规模语料库,使用无监督训练方法,达到了有监督训练的效果。ZHENG等[67]为播客领域的生成式摘要提供了基线分析,突出分析了当前先进预训练模型在该领域的效果。CHEN等[68]针对对话摘要生成问题提出一个多视图序列到序列模型,从不同的视图中提取非结构化日常聊天的会话结构来表示会话,利用多视图解码器来合并不同的视图以生成对话摘要。ZHENG等[57]通过融合神经主题模型,有效提高了摘要生成效果及全局语义蕴含。FABBRI等[69]引入一种称为维基转换的通用方法,以无监督、特定于数据集的方式微调摘要的预处理模型,在零样本抽象摘要模型性能比较中取得了最优,同时为少样本情况提供了研究依据。ZAGAR等[70]提出跨语言生成式摘要模型,针对小语种资源少的问题,使用一个基于深度神经网络和序列到序列架构的预处理英语摘要模型来总结斯洛文尼亚新闻文章,通过使用额外的语言模型进行目标语言评估来解决解码器不足的问题。
通过上述研究可以发现,利用其他领域的知识迁移可以提高生成式自动文本摘要的生成效果。
3.7 模型对比以上对深度学习下的生成式文本摘要模型的分类与说明,表明专用模型精于解决于特定问题,具有不同的算法原理、编解码器、适用范围、优势、局限性等,因此,需要根据实际情况进行研究后再使用,融合出更优秀的生成式自动文本摘要模型。针对专用模型的编解码器、解决核心问题的方案比较如表 1所示。
![]() |
下载CSV 表 1 不同模型的编解码器、核心问题解决方案比较 Table 1 Comparison of codec and core problem solving methods of different models |
由表 1可见,指针网络(PGN)中的Copy和Coverage模块是较多模型处理未登录词和生成重复问题的主要模块,而处理长程依赖和评价标准问题的方法各不相同,缺乏较为权威的标杆模型。对于预训练模型,利用Transformer的多头注意力可缓解长程依赖问题,经过大容量语料库的训练,学到的序列内字词之间的关系也更全面,降低了遇到未登录词和生成重复的几率,因此,很少有专门针对4个核心问题的模块。各模型的算法核心技术、适用范围、优势和局限性比较如表 2所示。
![]() |
下载CSV 表 2 不同模型的算法核心、适用范围、优势和局限性比较 Table 2 Comparison of core algorithm, application scope, advantages and limitations of different models |
目前主流模型主要采用Cnn & Dailymail stories[26, 44]、Gigaword[43, 71]、DUC-2004、LCSTS[72]这4种数据集。评价标准通常采用ROUGE[73]标准中的ROUGE-1、ROUGE-2和ROUGE-L。将不同模型在各个数据集上的ROUGE分数进行对比,如表 3所示,数据取自各模型的最优分,加粗表示该项数据各模型中的最优值。可以看出,基于深度学习的生成式摘要模型,ROUGE-1、ROUGE-2、ROUGE-L评价得分在Cnn & Dailymail数据集上最高分别提高了8.53、8.65、8.02分,在Gigaword语料库上分别提高了8.67、8.05、8.80分,在DUC-2004数据集上分别提高了4.60、3.81、5.63分,在LCSTS数据集上分别提高了6.92、7.88、7.28分,总体效果提升显著。
![]() |
下载CSV 表 3 不同数据集上常用模型的ROUGE分数对比 Table 3 Comparison of ROUGE scores of common models on different datasets |
基于深度学习的生成式摘要模型较传统模型有较大程度的突破,但仍有较大的进步空间,主要包括:
1)ProphetNet模型[62]在英文数据集Cnn & Dailymail和Gigaword上的效果最好,其他预训练模型如UniLM、T5、STEP、BART、PEGASUS等均有不弱于ProphetNet的表现,差距不明显。
2)虽然RTC模型[54]在中文数据集LCSTS上的效果最好,但由于预训练模型尚未在中文数据集LCSTS上进行实验,因此模型的中英文泛化能力有待进一步验证。在目前生成式摘要领域中,中文的进展相较于英文是短暂且缓慢的,实验数据远远不够。
3)这些模型总体上能够较大程度地提升摘要生成效果,但大部分模型都仅在一两个数据集上进行实验,不够完备。
4)大部分模型都基于短文本摘要,目前在长文本、多文档文本、特定领域文本等方面缺乏模型及其效果的数据对比。
4 常用数据集及评价标准 4.1 常用数据集适用于生成式自动文本摘要任务的常用数据集包括Cnn & Dailymail数据集、Gigaword语料库、会议共享数据集、LCSTS单文本摘要数据集等。
1)Cnn & Dailymail数据集。Cnn & Dailymail是单文本摘要数据集,由30万篇新闻短文摘要对组成,该数据集为英文数据集。
2)Gigaword语料库。Gigaword语料库包含约380万个训练样本、19万个验证样本和1 951个测试样本用于评估。输入摘要对由源文章的标题行和第一句组成,该数据集为英文数据集。
3)会议共享数据集。常用的会议共享数据集包括DUC和NLPCC数据集。DUC(Document Understanding Conference)是摘要评估领域的国际评测会议,各大文本摘要系统均热衷于此进行测评比较,这里提供的数据集都是小型数据集,用于评测模型。最常用的是DUC-2004数据集,该会议共享数据集为英文数据集。NLPCC(Natural Language Processing and Chinese Computing)是CCF国际自然语言处理与中文计算会议,NLPCC2015、NLPCC2017、NLPCC2018均有摘要任务相关的摘要数据集,该会议共享数据集为中文数据集。
4)LCSTS单文本摘要数据集。LCSTS(Large-scale Chinese Short Text Summarization dataset),是哈工大提出的从新浪微博获取的短文本新闻摘要中文数据集。该语料库由240万篇真实的汉语短文组成,每一篇文章的作者都给出了简短的摘要,其中手工标记了10 666个简短摘要与相应的简短文本的相关性。
5)其他数据集。除了以上数据集,还可以通过其他不同途径获取数据集,如文献[74]发布的一个基于新浪微博的中文数据集,共包含863 826个样本,以及通过参加摘要类比赛获取相关数据集等。
目前生成式自动文本摘要领域的主流数据集偏向于英文,由于国内在该领域的研究滞后于国外,因此对于中文数据集的制作、共享、使用及研究程度不深。此外,常用数据集多为短文本数据集,长文本或多文档数据集尤为缺乏。随着深度学习的不断发展,各研究对于数据集的需求急速加大,需要各界学者持续加大对于该领域数据集的全方面研究力度,其中包括长文本摘要数据集、多文档摘要数据集、多语言混合摘要数据集、科研或医学或法律等方面具有领域特色的细粒度摘要数据集,等。
4.2 评价标准生成式自动文本摘要评价标准可以分为人工测评方法和自动测评方法2种。人工测评即专家进行人工评判,综合考虑摘要的流畅性、中心思想相关性、可解释性等方面进行评价。本文主要介绍自动测评的评价标准,其中分为内部评价和外部评价标准2类,内部评价标准包含信息量、连贯性、可读性、长度、冗余度等,外部评价标准为间接评价,包含检索准确度、分类准确度等。在生成式自动文本摘要任务中,ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[73]是一种常用的评价标准。ROUGE重在召回率,将系统生成的自动摘要与人工生成的标准摘要做对比,通过统计两者之间重叠的基本单元数目,来评价摘要的质量。在当前环境下,ROUGE是最常用的自动文本摘要评价标准,而ROUGE-1、ROUGE-2、ROUGE-L是其中最常用于评价自动文本摘要效果的3个子标准。
虽然ROUGE评价标准已经得到了广泛的认可,但是抽取式摘要方向在深度学习提出之前占据了自动文本摘要领域的主导地位,ROUGE评价方法也深受影响。在随深度学习快速发展的生成式摘要任务领域,该方法评测质量比不上人工,因为它只是从基本语义单元的匹配上去评测候选摘要和标准摘要之间的相似性,缺少语义方面的维度比较,注重外部评价而欠缺内部评价。针对ROUGE不可微的缺陷,不少研究在设计损失函数时,将ROUGE评价标准融入损失函数并训练优化方法[53]。
针对ROUGE缺少内部评价的缺陷,越来越多研究者提出内部评价优先的评价标准,ZHANG等[75]提出命名为BERTScore的文本自动生成评价指标,计算候选句子中每个标记与引用中每个标记的相似性分数,即使用具有上下文信息的BERT嵌入来计算相似度。在多个机器翻译和图像字幕基准上的评估结果表明,在与人类判断的相关性这一维度,该评价指标比现有的度量标准更准确,甚至优于特定任务的监督度量标准,可以作为自动文本摘要评价标准之一。FABBRI等[64]将BERTScore作为建立摘要模型评价体系的12个指标之一,用以评价摘要模型的连贯性、一致性、流畅性、关联性等特性。CHAKRABORTY等[45]使用自定义的归一化n-gram新颖性标准对生成式摘要进行比较,实现新词生成方面的较大突破,但新颖性主导势必会导致ROUGE评分一定程度的降低。BHANDARI等[76]研究无人评判下的自动评估有效性问题,提出不局限于狭窄评分范围,同时从摘要生成的难易性、抽象性和覆盖面间进行综合评估,强调了需要收集人类的判断来识别值得信赖的度量标准,表示比较相关性时应使用统一宽度的箱以确保更稳健的分析,指出比较抽象数据集上的摘要系统时需要谨慎使用自动评价标准。
虽然越来越多的研究者认清并针对ROUGE的缺陷提出各种假设和实验方案,但仍没有一个方案取代ROUGE这一评价标准,因此,设计一个更为合适和权威的综合外部评价和内部评价的摘要评价标准,是目前文本摘要任务领域的一个重要研究方向。
5 发展局限性及前景分析随着深度学习的快速发展,语义提取模型从早期使用正则和传统的机器学习方法向pipeline的方式进化,再进化到端到端的自动摘要模块textsum[77]和序列到序列框架。同时,模型使用的特征抽取器也逐步进化,从CNN、RNN到LSTM/GRU,再到基于Transformer的MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等预训练模型,信息抽取能力越发强大。深度学习理论发展至今,预训练的语料库数据越来越庞大,模型学习能力越来越强。但是,预训练的基础是对语料库的预训练,而语料库总有极限也很快会到达极限,那么预训练模型的突破必然会受限于语料库的数量和质量。同时,模型网络越发庞大意味着参数的急剧增长,必须对此进行研究,否则模型系统会出现越来越大的黑盒。黑盒的不可解释性和不可控性必然阻碍人工智能的可信赖程度,从而可能导致未来发展的不可控性。
本文针对深度学习的生成式文本摘要技术指出以下6个方面的发展前景:
1)目前各模型在ROUGE得分方面稳中有进,多数模型建立的目标中包含关键问题的部分作为目标函数,但更值得深究的是与关键问题之间的关联程度,因此,应继续探索解决生成式自动文本摘要关键问题(未登录词、生成重复、长程依赖等)的解决方案,尽可能在一个模型中解决多个问题,研究仍有较大探索空间。
2)推动制定更权威的生成式自动文本摘要评价标准,改进ROUGE偏向外部评价的缺陷,提高对于生成式摘要模型输出的准确性、语义相关性、冗余性、流畅性等属性的评价标准权威性。
3)促进传统摘要模型思想与基于深度学习的生成式自动文本摘要模型思想进一步融合。例如抽取式与生成式的融合:针对长文档,首先利用抽取式模型将重要句子抽取,转化为符合中心思想的中短文档,再将文档送入生成式模型进一步压缩为短摘要。
4)强化可解释性方面的研究,加速与知识图谱领域的融合,如常识的引入、提高挖掘知识蕴含或推理知识的能力、注意力模块方面在不同的位置或形式对于摘要结果的可解释性等。
5)加速摘要模型的创新性发展,如推动与其他领域或任务模型相融合、改进语义抽取模型、多语言的融合模型、长短文及多文档综合性文摘模型、多模态摘要模型、脑机信号分布融入甚至取代注意力分布的摘要模型、用无监督小数据集训练代替有监督大数据集训练的摘要模型等。
6)深化摘要任务的下游任务发展,如基于摘要的整编(例如某部门的年终总结可由下属不同职能的分部部门年终总结摘要整编生成)、基于摘要的二次摘要(例如部门某方面的年终总结由下属相同职能的分部部门年终总结摘要整编生成。此外,第3个趋势前景也属于一种二次摘要任务)、基于摘要的合理研判(如对于投资市场,通过对投资对象的实时新闻等进行汇总并生成摘要总结,并基于摘要总结研判投资趋势)、基于摘要的事实分析(针对生成的摘要内容可能偏离事实的问题,通过融入知识图谱或多专家模型等方法,比对结果后修正生成摘要的事实准确程度)等。
6 结束语基于深度学习的生成式文本摘要任务是自然语言处理领域的核心任务之一,其中蕴含的各类问题需要被关注并加以解决,传统基于浅层神经网络的方法已经逐渐被基于深度学习的方法超越,但是新的模型方法也有自身的问题。本文总结基于深度学习的生成式文本摘要任务领域相关文献资料,分析未登录词、生成重复、长程依赖、评价标准这4个核心问题,并以此为分类标准对模型进行分类,研究各模型针对核心问题的解决效果,通过汇总模型设计、数据集、评价指标、生成效果等方面性能,对比分析各模型自身的优势及局限性,并给出相应的解决方案。在此基础上,对该技术未来发展进行局限性分析与前景展望。
[1] |
MIHALCEA R, TARAU P. TextRank: bringing order into texts[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2004: 1-8.
|
[2] |
ERKAN G, RADEV D. LexRank: graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research, 2004, 22(1): 457-479. |
[3] |
YAN S, WAN X. SRRank: leveraging semantic roles for extractive multi-document summarization[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2014, 22(12): 2048-2058. DOI:10.1109/TASLP.2014.2360461 |
[4] |
RADEV D R, JING H, STY M, et al. Centroid-based summarization of multiple documents[J]. Information Processing and Management, 2004, 40(6): 919-938. DOI:10.1016/j.ipm.2003.10.006 |
[5] |
REN P J. Research on extractive multi-document summarization using supervised deep learning[D]. Jinan: Shandong University, 2018. (in Chinese) 任鹏杰. 基于有监督深度学习的抽取式多文档自动摘要研究[D]. 济南: 山东大学, 2018. |
[6] |
CAO Z, DONG L. Ranking with recursive neural networks and its application to multi-document summarization[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. [S. l.]: AAAI Press, 2013: 1-5.
|
[7] |
CHEN L, NGUYEN M L. Sentence selective neural extractive summarization with reinforcement learning[C]//Proceedings of the 11th International Conference on Knowledge and Systems Engineering. Washington D.C., USA: IEEE Press, 2019: 1-5.
|
[8] |
REN P, CHEN Z, REN Z, et al. Sentence relations for extractive summarization with deep neural networks[J]. ACM Transactions on Information Systems, 2018, 36(4): 1-32. |
[9] |
LIN H, BILMES J. Multi-document summarization via budgeted maximization of submodular functions[C]//Proceedings of Conference of the North American Chapter of the Association of Computational Linguistics: Human Language Technologies. [S. l.]: Association for Computational Linguistics, 2010: 1-5.
|
[10] |
LIN H, BILMES J. A class of submodular functions for document summarization[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. [S. l.]: Association for Computational Linguistics, 2011: 510-520.
|
[11] |
GU Y, HU Y. Extractive summarization with very deep pretrained language model[J]. International Journal of Artificial Intelligence and Applications, 2019, 10(2): 27-32. DOI:10.5121/ijaia.2019.10203 |
[12] |
CHEN Y, MA Y, MAO X, et al. Multi-task learning for abstractive and extractive summarization[J]. Data Science and Engineering, 2019, 4: 14-23. DOI:10.1007/s41019-019-0087-7 |
[13] |
XU S, ZHANG X, WU Y, et al. Unsupervised extractive summarization by pre-training hierarchical transformers[EB/OL]. (2020-10-16)[2021-02-10]. https://arxiv.org/pdf/2010.08242.pdf.
|
[14] |
LIU J Y, ZOU Y M. A review of automatic text summarization in recent 70 years[J]. Information Science, 2017, 35(7): 156-163. (in Chinese) 刘家益, 邹益民. 近70年文本自动摘要研究综述[J]. 情报科学, 2017, 35(7): 156-163. |
[15] |
HU X, LIN Y, WANG C, et al. Summary of automatic text summarization technology[J]. Journal of Information, 2010, 29(8): 144-147. (in Chinese) 胡侠, 林晔, 王灿, 等. 自动文本摘要技术综述[J]. 情报杂志, 2010, 29(8): 144-147. DOI:10.3969/j.issn.1002-1965.2010.08.034 |
[16] |
KHAN A. A review on abstractive summarization methods[J]. Journal of Theoretical & Applied Information Technology, 2014, 59(1): 64-72. |
[17] |
DALAL V, MALIK L G. A survey of extractive and abstractive text summarization techniques[C]//Proceedings of the 6th International Conference on Emerging Trends in Engineering and Technology. Washington D.C., USA: IEEE Press, 2013: 1-5.
|
[18] |
ABDELALEEM N M, KADER H M A, SALEM R. A brief survey on text summarization techniques[J]. International Journal of Electronics and Information Engineering, 2019, 10(2): 76-89. |
[19] |
GAMBHIR M, GUPTA V. Recent automatic text summarization techniques: a survey[J]. Artificial Intelligence Review, 2017, 47(1): 1-66. DOI:10.1007/s10462-016-9475-9 |
[20] |
ALLAHYARI M, POURIYEH S, ASSEFI M, et al. Text summarization techniques: a brief survey[J]. International Journal of Advanced Computer Science & Applications, 2017, 8(10): 397-405. |
[21] |
SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2014: 3104-3112.
|
[22] |
PAN H X, LIU H, TANG Y. A sequence-to-sequence text summarization model with topic based attention mechanism[C]//Proceedings of International Conference on Web Information Systems and Applications. Berlin, Germany Springer: 2019: 285-297.
|
[23] |
TIAN S, KENESHLOO Y, RAMAKRISHNAN N, et al. Neural abstractive text summarization with sequence-to-sequence models[J]. ACM Transactions on Data Science, 2021, 2(1): 1-37. |
[24] |
CINTAS C, OGALLO W, WALCOTT A, et al. Towards neural abstractive clinical trial text summarization with sequence to sequence models[C]//Proceedings of 2019 IEEE International Conference on Healthcare Informatics. Washington D.C., USA: IEEE Press, 2019: 1-5.
|
[25] |
YUAN C, BAO Z, SANDERSON M, et al. Incorporating word attention with convolutional neural networks for abstractive summarization[J]. World Wide Web, 2020, 23(1): 267-287. DOI:10.1007/s11280-019-00709-6 |
[26] |
NALLAPATI R, ZHOU B, SANTOS C N D, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Washington D.C., USA: IEEE Press, 2016: 280-290.
|
[27] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
[28] |
QUOC V N, THANH H L, MINH T L. Abstractive text summarization using LSTMs with rich features[C]//Proceedings of International Conference of the Pacific Association for Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2019: 28-40.
|
[29] |
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Washington D.C., USA: IEEE Press, 2017: 6000-6010.
|
[30] |
SU M H, WU C H, CHENG H T. A two-stage transformer-based approach for variable-length abstractive summari-zation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2061-2072. DOI:10.1109/TASLP.2020.3006731 |
[31] |
DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of 2019 Conference on the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S. l.]: Association for Computational Linguistics, 2019: 4171-4186.
|
[32] |
LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized bert pretraining approach[EB/OL]. (2019-07-26)[2021-02-10]. https://arxiv.org/pdf/1907.11692v1.pdf.
|
[33] |
RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[EB/OL]. (2018-06-11)[2021-02-10]. https://openai.com/blog/language-unsupervised.
|
[34] |
RADFORD A, WU J, CHILD R, et al. Language models are unsupervised multitask learners[EB/OL]. [2021-02-10]. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
|
[35] |
BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[EB/OL]. (2020-05-28)[2021-02-10]. https://arxiv.org/pdf/2005.14165.pdf.
|
[36] |
LIU W, ZHOU P, ZHAO Z, et al. FastBERT: a self-distilling BERT with adaptive inference time[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[37] |
JIAO X, YIN Y, SHANG L, et al. TinyBERT: distilling BERT for natural language understanding[EB/OL]. (2019-09-23)[2021-02-10]. https://arxiv.org/pdf/1909.10351v3.pdf.
|
[38] |
HOU L, SHANG L, JIANG X, et al. DynaBERT: dynamic BERT with adaptive width and depth[EB/OL]. (2020-04-08)[2021-02-10]. https://arxiv.org/pdf/2004.04037v2.pdf.
|
[39] |
WANG Y, ZHOU L, ZHANG J, et al. Word, subword or character? An empirical study of granularity in Chinese-English NMT[C]//Proceedings of China Workshop on Machine Translation. Berlin, Germany: Springer, 2017: 30-42.
|
[40] |
BARRY C L. Document representations and clues to document relevance[J]. Journal of the American Society for Information Science, 2010, 49(14): 1293-1303. |
[41] |
PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2014: 1532-1543.
|
[42] |
KIM H K, KIM H, CHO S. Bag-of-concepts: comprehending document representation through clustering words in distributed representation[J]. Neurocomputing, 2017, 266: 336-352. DOI:10.1016/j.neucom.2017.05.046 |
[43] |
RUSH A M, CHOPRA S, WESTON J, et al. A neural attention model for abstractive sentence summarization[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2015: 379-389.
|
[44] |
SEE A, LIU P J, MANNING C D. Get to the point: summarization with pointer-generator networks[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2017: 1073-1083.
|
[45] |
CHAKRABORTY S, LI X Y, CHAKRABORTY S. A more abstractive summarization model[EB/OL]. (2020-02-25)[2021-02-10]. https://arxiv.org/pdf/2002.10959.pdf.
|
[46] |
CHUNG T L, XU B, LIU Y, et al. Main point generator: summarizing with a focus[C]//Proceedings of International Conference on Database Systems for Advanced Applications. Berlin, Germany: Springer, 2018: 924-932.
|
[47] |
LIN J, SUN X, MA S, et al. Global encoding for abstractive summarization[EB/OL]. (2018-06-10)[2021-02-10]. https://arxiv.org/pdf/1805.03989.pdf.
|
[48] |
COHAN A, DERNONCOURT F, KIM D S, et al. A discourse-aware attention model for abstractive summarization of long documents[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S. l.]: Association for Computational Linguistics, 2018: 615-621.
|
[49] |
CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S. l.]: Association for Compu-tational Linguistics, 2016: 93-98.
|
[50] |
CELIKYILMAZ A, BOSSELUT A, HE X, et al. Deep communicating agents for abstractive summarization[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S. l.]: Association for Computational Linguistics, 2018: 1662-1675.
|
[51] |
WEI Y, ZHANG H, LIN J. Simple applications of BERT for ad hoc document retrieval[EB/OL]. (2019-05-26)[2021-02-10]. https://arxiv.org/pdf/1903.10972.pdf.
|
[52] |
NG J P, ABRECHT V. Better summarization evaluation with word embeddings for ROUGE[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Compu-tational Linguistics, 2015: 1925-1930.
|
[53] |
AYANA, SHEN S, ZHAO Y, et al. Neural headline generation with sentence-wise optimization[EB/OL]. (2016-04-07)[2021-02-10]. https://arxiv.org/pdf/1604.01904.pdf.
|
[54] |
LI W, YAO J, TAO Y, et al. A reinforced topic-aware convolutional sequence-to-sequence model for abstractive text summarization[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. New York, USA: ACM Press, 2018: 4453-4460.
|
[55] |
FABBRI A R, KRYŚCIŃSKI W, MCCANN B, et al. SummEval: re-evaluating summarization evaluation[J]. Transactions of the Association for Computational Linguistics, 2021, 9(2): 391-409. |
[56] |
SONG K, TAN X, QIN T, et al. MASS: masked sequence to sequence pre-training for language generation[EB/OL]. (2019-05-13)[2021-02-10]. https://arxiv.org/pdf/1905.02450v3.pdf.
|
[57] |
ZHENG C, ZHANG K, WANG H J, et al. Topic-aware abstractive text summarization[EB/OL]. (2020-10-20)[2021-02-10]. https://arxiv.org/pdf/2010.10323.pdf.
|
[58] |
DONG L, YANG N, WANG W, et al. Unified language model pre-training for natural language understanding and generation[EB/OL]. (2019-05-08)[2021-02-10]. https://arxiv.org/pdf/1905.03197.pdf.
|
[59] |
BAO H, DONG L, WEI F, et al. UniLMv2: pseudo-masked language models for unified language model pre-training[EB/OL]. (2020-02-28)[2021-02-10]. https://arxiv.org/pdf/2002.12804.pdf.
|
[60] |
RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[EB/OL]. (2019-10-23)[2021-02-10]. https://arxiv.org/pdf/1910.10683.pdf.
|
[61] |
ZOU Y, ZHANG X, LU W, et al. Pre-training for abstractive document summarization by reinstating source text[C]//Proceedings of 2020 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[62] |
LEWIS M, LIU Y, GOYAL N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[63] |
ZHANG J, ZHAO Y, SALEH M, et al. PEGASUS: pre-training with extracted gap-sentences for abstractive summarization[EB/OL]. (2019-12-18)[2021-02-10]. https://arxiv.org/pdf/1912.08777v1.pdf.
|
[64] |
YAN Y, QI W, GONG Y, et al. ProphetNet: predicting future n-gram for sequence-to-sequence pre-training[C]//Proceedings of 2020 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[65] |
GUO H, PASUNURU R, BANSAL M. Soft layer-specific multi-task summarization with entailment and question generation[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2018: 687-697.
|
[66] |
XU H, WANG Y, HAN K, et al. Selective attention encoders by syntactic graph convolutional networks for document summarization[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2020: 8219-8223.
|
[67] |
ZHENG C, WANG H J, ZHANG K, et al. A baseline analysis for podcast abstractive summarization[EB/OL]. (2020-08-24)[2021-02-10]. https://arxiv.org/pdf/2008.10648v2.pdf.
|
[68] |
CHEN J, YANG D. Multi-view sequence-to-sequence models with conversational structure for abstractive dialogue summarization[C]//Proceedings of 2020 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[69] |
FABBRI A R, HAN S, LI H, et al. Improving zero and few-shot abstractive summarization with intermediate fine-tuning and data augmentation[EB/OL]. 2010-04-11. https://arxiv.org/abs/2010.12836.
|
[70] |
ZAGAR S, ROBNIK-SIKONJA M. Cross-lingual approach to abstractive summarization[EB/OL]. (2020-12-08)[2021-02-10]. https://arxiv.org/ftp/arxiv/papers/2012/2012.04307.pdf.
|
[71] |
GRAFF D, CHRISTOPHER C. English Gigaword[EB/OL]. (2017-09-10)[2021-02-10]. https://catalog.ldc.upenn.edu/LDC2003T05.
|
[72] |
HU B T, CHEN Q C, ZHU F Z, et al. LCSTS: a large scale chinese short text summarization dataset[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. [S. l.]: Association for Compu-tational Linguistics, 2015: 1967-1972.
|
[73] |
LIN C. ROUGE: a package for automatic evaluation of summaries[C]//Proceedings of the Workshop on Text Summarization Branches Out. [S. l.]: Association for Computational Linguistics, 2004: 74-81.
|
[74] |
GAO S, CHEN X, LI P J, et al. Abstractive text summarization by incorporating reader comments[C]//Proceedings of the 33th AAAI Conference on Artificial Intelliqence. [S. l.]: Association for Computational Linguistics, 2019: 1-5.
|
[75] |
ZHANG T, KISHORE V, WU F, et al. BERTScore: evaluating text generation with BERT[EB/OL]. (2020-02-24)[2021-02-10]. https://arxiv.org/pdf/1904.09675.pdf.
|
[76] |
BHANDARI M, GOUR P N, ASHFAQ A, et al. Metrics also disagree in the low scoring range: revisiting summarization evaluation metrics[C]//Proceedings of the 28th International Conference on Computational Linguistics. [S. l.]: Association for Computational Linguistics, 2020: 1-5.
|
[77] |
ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for large-scale machine learning[C]//Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation. [S. l.]: USENIX, 2015: 379-389.
|