2. 贵州大学 贵州省大数据产业发展应用研究院, 贵阳 550025
2. Guizhou Big Data Academy, Guizhou University, Guiyang 550025, China
开放科学(资源服务)标志码(OSID):
随着深度学习技术的不断发展,机器阅读理解(Machine Reading Comprehension,MRC)成为自然语言处理领域的热门研究课题,受到了越来越多的关注。机器阅读理解需要根据给定的上下文来回答与其相关联的问题,因此要求模型既要理解上下文的语义语境等信息,又要能够识别出哪些信息与问题相关,从而进行最终的问题推断。早期的机器阅读理解工作[1-3]主要针对的问题是答案在单个段落的单个句子或多个句子中。然而,在实际应用中大量问题的答案不能仅由单个段落进行推断,而应由多个段落进行整合后回答。因此,多段落阅读理解的研究开始受到广泛关注。
多段落推理的传统方法主要是单独对每个段落进行答案抽取,最终输出可能性最大的答案。CHEN等[4]基于Wikipedia,采用文章检索模块提取与问题相关的文章并切分成为段落,再利用文章阅读模块从提取文章的每个段落中进行答案搜索。CLARK等[5]从文档中抽取多个段落,分别计算每一个段落的置信度分数,选择置信度分数最高的段落,从中进行答案提取,在多个数据集中取得了不错的效果。万静等[6]提出多段落排序BiDAF(PR-BiDAF)模型,通过对多个段落与问题之间进行相关度匹配,选取相关度最高的段落进行答案提取。然而,这些方法都只是将段落看成单独的个体,忽视了段落与段落间的关联,无法得到段落间更复杂的信息。
针对多段落之间的信息交互问题,还需要一种可以更好地获取段落与段落之间交互信息的方法,以实现多跳信息连接。吴睿智等[7-8]通过实验证明图神经网络可以很好地运用在自然语言处理任务中,并且能够有效提升网络性能。针对多跳问题,基于图神经网络的相关研究[9-11]主要通过构建实体图来聚合信息实现多跳阅读理解。实体图一般由多个节点以及节点之间相连的边所构成,而节点的选取则是模型取得优良效果的关键。CHEN等[12]通过抽取支撑文档中的句子构建多条推理链,将支撑文档中的句子作为图中的节点,通过聚合句子中的相关信息进行问题推理回答。TU等[13]抽取问题中的实体与候选词在文章中对应的实体以及每个支撑文档作为图的节点,构建包含多种节点与边关系的异质文档实体图(HDE),在实体图中聚合多粒度信息实现节点信息传递进行答案推理。然而,聚合多种信息往往会导致实体图中信息量过多,使得模型容易受到不相关信息的干扰。DE CAO等[10]仅将在支撑文档中出现过的候选词作为实体,建立实体关系图并通过候选词节点之间的信息传递进行问题推理。CAO等[14]在文献[10]的基础上引入双向注意力机制用于问题与候选词节点之间的双向信息交互,生成问题感知节点表示用于最终结果推断。这些方法相对提取的实体种类更少,虽然效率较高,但也会导致实体图在初始阶段缺乏关键信息,或是所得到的信息量不足,使得模型在推理过程中无法得到正确的结果。
现有研究在实体提取方面大多数基于简单的字符串匹配来查找文中的相关实体,这样会使不少隐含在文中的实体无法被提取出来,导致相关信息的缺失。此外,已有模型很少关注疑问实体与候选词实体之间的信息交互,而通常疑问实体所在的支撑文档包含的信息量会远远大于其他文档,提取该支撑文档中出现的所有疑问实体作为新的节点类型加入到实体图中,可以使得实体图中包含更多与问题相关联的信息,从而使得模型可以更加准确有效地得到最终的推断结果。
本文提出基于改进图节点的图神经网络多跳阅读理解模型。首先,采用基于指代词的实体提取方法进行实体提取,增加更多的相关节点参与到实体图中进行信息传递。然后,将疑问实体作为实体图中新的节点类型,参与到图卷积操作中丰富节点的种类。对于不能直接与候选词节点相连的疑问实体,提取出疑问实体所在支撑文档中的所有实体,将这些实体经过筛选后,作为疑问实体关联实体参与到实体图中进行信息传递。通过将疑问实体、关联实体与候选词实体相连使得疑问实体间接与候选词实体相连。最后,对实体图中的节点进行图卷积操作,计算图卷积网络(Graph Convolutional Network,GCN)输出结果与问题的双向注意力,并通过与其他模型的对比实验验证本文模型的有效性。
1 本文模型本文提出的基于改进图节点的图神经网络多跳阅读理解模型如图 1所示,主要包括实体图构建模块、上下文语义信息嵌入模块、GCN推理模块、信息交互模块、预测模块等5个模块。
![]() |
Download:
|
图 1 基于改进图节点的图神经网络多跳阅读理解模型框架 Fig. 1 Framework of multi-hop reading comprehension model based on graph neural network with improved graph nodes |
传统字符串匹配提取实体的方法在实际提取实体的过程中,会导致大量相关实体的缺失。例如,英文人名中可能将名称简写或者是使用别名等,如问题句“participant of juan rossell”,其中“juan rossell”为疑问实体,但是在支撑文档中,“juan rossell”对应的全名是“Juan Miguel Rossell Milanes”,如果此时采用传统的字符串匹配方法直接进行字符串匹配,那么将无法提取到这些实体或者遗失掉某些实体其他支撑文档中的对应实体。因此本文针对这一问题,提出基于指代词的实体提取方法,该方法从支撑文档中提取出更多的相关实体,增加更多相关实体节点参与实体图中进行信息交互,使得实体图可以包含更多的信息量,有利于最终的问题推断。
1.1.2 基于问题关联实体的实体图构建通过基于指代词的实体提取方法获得在文章中所出现的候选词节点与疑问实体节点,再用提取出的节点构建实体图,如图 2所示。然而,在实际构建实体图的过程中,由于不是每个疑问实体都能与候选词实体相连,导致疑问实体不能参与到最终的图卷积网络中,使得实体图中缺乏包含问题的关键信息。对于不能与候选词实体相连的疑问实体,提取出该疑问实体所在支撑文档中的所有实体,经过筛选后作为疑问实体关联实体参与实体图的构建。通过加入新的节点类型使得疑问实体节点与候选词节点间接相连,从而使疑问实体节点中的信息在实体图中进行信息传递,最终得到的实体图如图 3所示。
![]() |
Download:
|
图 2 WikiHop样本实体图构建 Fig. 2 Construction of WikiHop sample entity graph |
![]() |
Download:
|
图 3 基于问题关联实体的实体图构建 Fig. 3 Construction of entity graph based on problem-related entities |
实体图中边的定义如下:1)出现在同一支撑文档中的实体相连;2)出现在不同文档中,属于同一个实体的节点相连。值得注意的是,这些边都是无向边,没有在边上赋予特殊的权值。通过构建实体关系图,将支撑文档的上下文语义信息转换成图关系节点。最终得到N个节点
通过使用ELMO词嵌入预处理模型[15]对提取到的候选词实体、疑问实体、疑问实体关联实体进行编码,得到这些实体节点与上下文语义相关的信息,从而将支撑文档中所包含的信息转化成文档中各个实体节点的信息。此外,ELMO模型还可以根据上下文特征动态地调整词嵌入,能够有效地解决大规模文本数据集下一词多义的现象。由于每个实体节点中可能包含的单词数量不止一个,因此对每个节点中所包含的单词向量都进行最大池化与平均池化操作,再将获得的特征向量进行拼接,得到最终的每个节点信息表示向量,如式(1)所示:
$ {\mathit{\boldsymbol{d}}_{{\rm{node}}}} = {\mathit{\boldsymbol{d}}_{{\rm{max}} - {\rm{pool}}}} + {\mathit{\boldsymbol{d}}_{{\rm{mean}} - {\rm{pool}}}} $ | (1) |
其中:
通过将经过上下文语义信息嵌入模块编码后的特征向量输入至图神经网络中,得到图中节点的原始向量。由于每个节点都会与多个节点相连,因此要求节点有选择性地获取相邻节点的信息,在进行信息传递时可以在实体图中传递最为相关的信息,模型采用门机制的图卷积网络(G-GCN)来进行推理操作。
在图神经网络中,节点之间的信息按照式(2)进行传递:
$ \sigma \left( \mathit{\boldsymbol{x}} \right) = \frac{1}{{1 + {{\rm{e}}^{ - x}}}} $ | (2) |
在各个节点进行信息传递后,使用Sigmoid激活函数对各个节点进行激活,如式(3)所示:
$ \mathit{\boldsymbol{h}}_i^{l + 1} = \sigma \left( {\sum\limits_{r \in {R_{{N_i}}}} {\sum\limits_{j \in {N_i}} {\frac{1}{{{c_{i, r}}}}} } \mathit{\boldsymbol{w}}_r^l\mathit{\boldsymbol{h}}_j^l + \mathit{\boldsymbol{w}}_0^l\mathit{\boldsymbol{h}}_i^l} \right) $ | (3) |
其中:
门机制使得节点在获取其邻居信息时更有选择性,通过式(4)计算得到门更新单元,再把门更新单元代入式(5)可以得到使用门机制后的关系权重矩阵:
$ \mathit{\boldsymbol{g}}_i^l = \left( {\sum\limits_{r \in {R_{{N_i}}}} {\sum\limits_{j \in {N_i}} {\frac{1}{{{c_{i, r}}}}} } \mathit{\boldsymbol{w}}_r^l\mathit{\boldsymbol{h}}_j^l + \mathit{\boldsymbol{w}}_0^l\mathit{\boldsymbol{h}}_i^l} \right) $ | (4) |
$ \mathit{\boldsymbol{w}}_i^l = \sigma ({\mathit{\boldsymbol{f}}_{{\rm{linear}}}}({\rm{concat}}(\mathit{\boldsymbol{g}}_i^l, \mathit{\boldsymbol{h}}_i^l))) $ | (5) |
其中:
基于门机制的GCN节点信息传递如式(6)所示,因此在经过门更新单元处理后,得到最终的节点隐藏层状态。
$ \mathit{\boldsymbol{h}}_i^{l + 1} = \mathit{\boldsymbol{w}}_i^l \odot {\rm{tanh}}\left( {\mathit{\boldsymbol{u}}_i^l} \right) + \left( {1 - \mathit{\boldsymbol{w}}_i^l} \right) \odot \mathit{\boldsymbol{h}}_i^l $ | (6) |
其中:
在L层的图卷积网络中所有的参数都是共享的,每个节点的信息都会经过L个节点的传播,从而使节点完成L次跳跃的推理过程,并获得这L次跳跃后的节点信息关系表示。
1.4 信息交互模块模型通过在问题与节点的信息交互上使用双向注意力机制,可以更好地获取节点与问题之间更多相互有关联的信息,最大限度地丰富模型最终输出向量的信息量。CAO等[14]在BAG模型中引入了双向注意力机制,取得了不错的实验效果,证明了双向注意力机制可以很好地运用在图神经网络中节点与问题之间的信息交互。因此图神经网络最终的输出向量为
$ \mathit{\boldsymbol{S}} = {\rm{av}}{{\rm{g}}_{ - 1}}({\mathit{\boldsymbol{f}}_{{\rm{linear}}}}({\rm{concat}}({\mathit{\boldsymbol{H}}_l}, {\mathit{\boldsymbol{f}}_q}, {\mathit{\boldsymbol{H}}_l} \odot {\mathit{\boldsymbol{f}}_q}))) $ | (7) |
其中:
通过对问题与图神经网络中的节点进行一次反向注意力运算,得到节点-问题的注意力表示,如式(8)所示:
$ {\mathit{\boldsymbol{a}}_{{\rm{n}}2{\rm{q}}}} = {\rm{softma}}{{\rm{x}}_{{\rm{col}}}}\left( \mathit{\boldsymbol{S}} \right) \cdot {\mathit{\boldsymbol{f}}_q} $ | (8) |
其中:
在得到节点-问题的注意力表示后,计算问题-节点的注意力表示,如式(9)所示:
$ {\mathit{\boldsymbol{a}}_{{\rm{q}}2{\rm{n}}}} = {\rm{dup}}{({\rm{softmax}}({\rm{ma}}{{\rm{x}}_{{\rm{col}}}}\left( \mathit{\boldsymbol{S}} \right)))^M} \cdot {\mathit{\boldsymbol{f}}_l} $ | (9) |
其中:
最终将经过这一模块处理后的输出向量输入至预测模块,进行最后的答案预测,如式(10)所示:
$ \mathit{\boldsymbol{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over f} }} = {\rm{concat}}({\mathit{\boldsymbol{f}}_l}, {\mathit{\boldsymbol{a}}_{{\rm{n}}2{\rm{q}}}}, {\mathit{\boldsymbol{f}}_l} \odot {a_{{\rm{n}}2{\rm{q}}}}, {\mathit{\boldsymbol{f}}_l} \odot {\mathit{\boldsymbol{a}}_{{\rm{q}}2{\rm{n}}}}) $ | (10) |
通过将最终信息交互模块的输出经过两层全连接层的转换之后,得到每个节点作为答案的概率值,每个节点都对应一个候选词,将每个候选词所对应的所有节点的概率相加,就是该候选词作为答案的概率。由于答案选择实际是一个多分类问题,因此选择多分类交叉熵损失函数作为模型的损失函数,即:
$ {\rm{loss}} = - \sum\limits_{i = 1}^k {{\mathit{\boldsymbol{y}}_i}} {\rm{ln}}{p_i} $ | (11) |
当答案预测正确时
$ p\left( {{\mathit{\boldsymbol{x}}_i}} \right) = \frac{{{{\rm{e}}^{{x_i}}}}}{{\sum\limits_{j = 1}^m {{{\rm{e}}^{{x_j}}}} }} $ | (12) |
值得注意的是,由于在构建实体图时加入了很多非候选词节点,因此在实际计算答案概率时只会计算相关候选词实体节点作为答案的概率,而不会计算疑问实体节点与疑问实体关联实体节点作为答案的概率。
2 实验结果与分析为验证本文模型的有效性,在WikiHop数据集的unmasked版本中对其进行验证测试。WikiHop数据集是一个需要跨越多个文档进行多跳推理的阅读理解数据库。每一个WikiHop的样本有一个问题Q,多个支撑文档S={s1,s2,…,sn}和一个候选答案集C={c1,c2,…,cn},候选答案可以是单个单词,也可以是多个单词组成的名词短语,需要模型根据给定的问题从中选出正确的答案。其中,训练集有43 738条数据,验证集有5 129条数据,测试集有2 451条数据,支撑文档来自WikiReading[16]。
实验环境设置如下:操作系统为Ubuntu16.04,采用2块GTX Titan Xp进行数据并行处理,服务器运行内存为96 GB。在参数选择上:ELMO模型默认选择1 024维;本文模型除了最终的输出层神经网络维度为256维外,其余的隐藏层维度均为512维,图卷积网络层数L为5;训练集batch_size设置为32,验证集batch_size设置为16;初始学习率设置为
![]() |
下载CSV 表 1 实体图节点数量统计 Table 1 Statistics of node number in entity graph |
为验证本文模型的效能,分别通过在验证集和测试集上与基于图神经网络的多跳阅读理解模型(Entity-GCN[10]、MHQA-GRN[11]、HDE[13]、BAG[14]、Path-based GCN[17])、基于循环神经网络(Recurrent Neural Network,RNN)的多跳阅读理解模型(Coref-GRU[9]、EPAr18])、基于注意力机制的多跳阅读理解模型(BiDAF[1]、CFC[19]、DynSAN[20])进行比较,结果如表 2所示。由于本文模型是单模型,因此仅与已有单模型进行比较,而不与融合模型进行比较,评价指标为准确率。
![]() |
下载CSV 表 2 多跳阅读理解模型准确率比较 Table 2 Comparison of accuracy of multi-hop reading comprehension models |
从表 2中的结果可以看出,与基于图神经网络的多跳阅读理解模型相比,本文模型在验证集中仅低于Path-based GCN模型,但是在测试集上优于所有基于GCN的多跳阅读理解模型,与其中准确率最高的Path-based GCN模型相比在验证集上提高了0.6个百分点,这表明了本文模型的可泛化性较强。在与其他非图神经网络模型进行比较时,本文模型在验证集上准确率仅低于DynSAN模型,但在测试集上准确率高出DynSAN模型1.7个百分点。以上比较结果表明:使用基于指代词的实体提取方法提取出实体以构建新型实体关系的实体图可以有效地增加实体图中所含的关键信息量,最终提升模型性能。
为验证本文模型中各模块的有效性,在验证集上进行模型消融实验来验证基于指代词的实体提取方法与基于问题关联实体的实体图构建对于模型效果的影响,结果如表 3所示。由表 3中的结果可以看出:去除基于指代词的实体提取模块后,准确率下降了1.9个百分点,说明使用传统方法在提取实体时会造成部分相关实体的缺失,导致模型推理效果下降;去除基于问题关联实体的实体图模块后,准确率下降了1.5个百分点,证明了实体图内缺乏关键问题信息会影响多跳推理的结果;去除GCN模块后,准确率下降达到了4.8个百分点,说明了图卷积网络能够有效地促进实体图内各个节点之间的信息交互;去除双向注意力模块后,准确率下降了3.5个百分点,这证明了双向注意力机制可以有效提升模型性能。
![]() |
下载CSV 表 3 多跳阅读理解模型消融实验结果 Table 3 Results of ablation experiment for multi-hop reading comprehension models |
为解决实体图内缺乏关键问题信息以及信息量冗余的问题,本文提出基于改进图节点的图神经网络多跳阅读理解模型。采用基于指代词的实体提取方法从支撑文档中提取与问题相关的实体,并将提取到的相关实体基于问题关联实体构建实体图。通过对图节点进行ELMO编码后使用G-GCN模拟推理,最终计算推理信息与问题信息的双向注意力并进行最终答案预测。实验结果表明,该模型相比现有多跳阅读理解模型准确率更高、泛化性能更强。后续将添加更多类型的节点和边到实体关系图中,使得实体关系图可以包含更多的相关信息,进一步增强模型推理能力。
[1] |
SEO M, KEMBHAVI A, FARHADI A, et al. Bidirectional attention flow for machine comprehension[EB/OL]. [2020-10-11]. https://arxiv.org/abs/1611.01603v6.
|
[2] |
XIONG C M, VICTOR Z, RICHARD S. Dynamic coattention networks for question answering[C]//Proceedings of the 5th International Conference on Learning Representations. Toulon, France: [s. n. ], 2017: 1-8.
|
[3] |
LIU X, SHEN Y, DUH K, et al. Stochastic answer networks for machine reading comprehension[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 1694-1704.
|
[4] |
CHEN D Q, FISCH A, WESTON J, et al. Reading Wikipedia to answer open-domain questions[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 1870-1879.
|
[5] |
CLARK C, GARDNER M. Simple and effective multi-paragraph reading comprehension[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 845-855.
|
[6] |
万静, 郭雅志. 基于多段落排序的机器阅读理解研究[J]. 北京化工大学学报(自然科学版), 2019, 46(3): 93-98. WAN J, GUO Y Z. Machine reading comprehension based on multi-passage ranking[J]. Journal of Beijing University of Chemical Technology(Natural Science Edition), 2019, 46(3): 93-98. (in Chinese) |
[7] |
吴睿智, 朱大勇, 王春雨, 等. 基于图卷积神经网络的位置语义推断[J]. 电子科技大学学报, 2020, 49(5): 739-744. WU R Z, ZHU D Y, WANG C Y, et al. Location semantics inference with graph convolutional networks[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 739-744. (in Chinese) |
[8] |
许力, 李建华. 基于句法依存分析的图网络生物医学命名实体识别[J]. 计算机应用, 2021, 41(2): 357-362. XU L, LI J H. Biomedical named entity recognition with graph network based on syntactic dependency parsing[J]. Journal of Computer Applications, 2021, 41(2): 357-362. (in Chinese) |
[9] |
DHINGRA B, JIN Q, YANG Z L, et al. Neural models for reasoning over multiple mentions using coreference[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2018: 42-48.
|
[10] |
DE CAO N, AZIZ W, TITOV I. Question answering by reasoning across documents with graph convolutional networks[EB/OL]. [2020-10-11]. https://arxiv.org/abs/1808.09920v1.
|
[11] |
SONG L F, WANG Z G, YU M, et al. Evidence integration for multi-hop reading comprehension with graph neural networks[EB/OL]. [2020-10-11]. https://www.researchgate.net/publication/340326781_Evidence_Integration_for_Multi-hop_Reading_Comprehension_with_Graph_Neural_Networks.
|
[12] |
CHEN J F, LIN S T, DURRETT G. Multi-hop question answering via reasoning chains[EB/OL]. [2020-10-11]. https://arxiv.org/abs/1910.02610.
|
[13] |
TU M, WANG G T, HUANG J, et al. Multi-hop reading comprehension across multiple documents by reasoning over heterogeneous graphs[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2019: 2704-2713.
|
[14] |
CAO Y, FANG M, TAO D. BAG: bi-directional attention entity graph convolutional network for multi-hop reasoning question answering[C]//Proceedings of 2019 Conference of the North American Chapter of the Association of Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2019: 357-362.
|
[15] |
PETERS M, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2018: 2227-2237.
|
[16] |
HEWLETT D, LACOSTE A, JONES L, et al. WikiReading: a novel large-scale language understanding task over Wikipedia[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2016: 1535-1545.
|
[17] |
TANG Z, SHEN Y, MA X, et al. Multi-hop reading comprehension across documents with path-based graph convolutional network[EB/OL]. [2020-10-11]. https://arxiv.org/abs/2006.06478.
|
[18] |
JIANG Y C, JOSHI N, CHEN Y C, et al. Explore, propose, and assemble: an interpretable model for multi-hop reading comprehension[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2019: 2714-2725.
|
[19] |
ZHONG V, XIONG C M, KESKAR N S, et al. Coarse-grain fine-grain coattention network for multi-evidence question answering[EB/OL]. [2020-10-11]. https://arxiv.org/abs/1901.00603v2.
|
[20] |
ZHUANG Y M, WANG H D. Token-level dynamic self-attention network for multi-passage reading comprehension[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2019: 2252-2262.
|