«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (11): 54-61  DOI: 10.19678/j.issn.1000-3428.0059269
0

引用本文  

贾旭楠, 魏庭新, 曲维光, 等. 基于神经网络的复句判定及其关系识别研究[J]. 计算机工程, 2021, 47(11), 54-61. DOI: 10.19678/j.issn.1000-3428.0059269.
JIA Xunan, WEI Tingxin, QU Weiguang, et al. Study on Complex Sentence Identification and Its Relation Recognition Based on Neural Network[J]. Computer Engineering, 2021, 47(11), 54-61. DOI: 10.19678/j.issn.1000-3428.0059269.

基金项目

国家自然科学基金"汉语抽象意义表示关键技术研究"(61772278);江苏省高校哲学社会科学基金"面向机器学习的汉语复句语料库建设研究"(2019JSA0220)

通信作者

曲维光(通信作者), 教授、博士生导师

作者简介

贾旭楠(1994-), 女, 硕士研究生, 主研方向为自然语言处理;
魏庭新, 讲师、博士研究生;
顾彦慧, 副教授;
周俊生, 教授

文章历史

收稿日期:2020-08-17
修回日期:2020-10-12
基于神经网络的复句判定及其关系识别研究
贾旭楠1 , 魏庭新2,3 , 曲维光1,3 , 顾彦慧1 , 周俊生1     
1. 南京师范大学 计算机科学与技术学院, 南京 210023;
2. 南京师范大学 国际文化教育学院, 南京 210097;
3. 南京师范大学 文学院, 南京 210097
摘要:复句是自然语言的基本单位之一,复句的判定及其语义关系的识别,对于句法解析、篇章理解等都有着非常重要的作用。基于神经网络模型识别自然语料中的复句,判断其复句关系,构造复句判定和复句关系识别联合模型,以最大程度地减少误差传递。在复句判定任务中通过Bi-LSTM获得上下文语义信息,采用注意力机制捕获句内跨距离搭配信息,利用CNN捕获句子局部信息。在复句关系识别任务中,使用Bert增强句子的语义表示,运用Tree-LSTM对句法结构和成分标记进行建模。在CAMR中文语料上的实验结果表明,基于注意力机制的复句判定模型F1值达到91.7%,基于Tree-LSTM的复句关系识别模型F1值达到69.15%。在联合模型中,2项任务的F1值分别达到92.15%和66.25%,说明联合学习能够使不同任务获得更多特征,从而提高模型性能。
关键词复句判定    神经网络    复句关系识别    联合模型    语义建模    
Study on Complex Sentence Identification and Its Relation Recognition Based on Neural Network
JIA Xunan1 , WEI Tingxin2,3 , QU Weiguang1,3 , GU Yanhui1 , ZHOU Junsheng1     
1. School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023, China;
2. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China;
3. School of Chinese Language and Literature, Nanjing Normal University, Nanjing 210097, China
Abstract: Complex sentence is one of the basic units in natural languages.The identification of complex sentences and the recognition of their semantic relations are crucial to syntactic parsing and text understanding.In this study, a neural network model is used to recognize the complex sentences in texts and determine the relationships between them.A model is constructed for the joint recognition of complex sentences and their semantic relations to minimize the propagation of errors.For recognition of complex sentences, a Bi-LSTM model is used to obtain sentence-level contextual semantic information, an attention mechanism to capture the cross-distance collocation information within a sentence, and a Convolutional Neural Network(CNN) to capture the local information of the sentences.For recognition of complex sentence relationships, Bert is used to enhance the semantic representation of sentences, and Tree-LSTM is used to model syntactic structure and component tags.The experimental results on the Chinese corpus dataset, CAMR, show that the F1 value of the attention mechanism-based model reaches 91.7% in complex sentence recognition, and that of the Tree-LSTM-based model reaches 69.15% in recognition of complex sentence relationships.The F1 value of the joint model reaches 92.15% and 66.25% in the two tasks respectively, which proves that joint learning increases the number of obtained features and thus improves the model performance.
Key words: complex sentence identification    neural network    complex sentence relation recognition    joint model    semantic modeling    

开放科学(资源服务)标志码(OSID):

0 概述

复句是由2个或2个以上的单句构成的句子,它下接小句,上承篇章,是语言的基本单位之一。由于复句有2套或2套以上主语谓语,而单句只有1套主谓体系,因此判定一个句子是否为单复句对于句法分析、依存解析、AMR自动解析及相应的下游任务非常重要。对于复句语义的构成,文献[1]指出复句除了本身的语义外,还与分句之间的逻辑语义有关,复句的语义等价于该句子的逻辑语义与各分句的语义之和。由于篇章的各种逻辑语义关系在复句中都有所体现,因此复句关系识别是篇章语义关系研究的起点和基础,对篇章语义解析以及机器阅读理解、关系抽取等下游任务都有着非常重要的作用。

对于复句的研究,语言学界主要集中在复句的逻辑语义关系的分类等,在自然语言处理领域,研究人员的关注则集中在显式复句的关系词识别和隐式复句关系识别2个方面。然而,显式复句和隐式复句的识别主要靠人工标注,现有文献中并没有显式复句与隐式复句的自动识别研究。在汉语中,由于标点符号还具有语气停顿功能,含有多个形式分句的句子不一定是复句;同时由于大量紧缩句的存在,没有标点符号的句子也不一定是单句,这些都给单复句的自动识别造成一定困难。在隐式复句关系识别方面,虽然目前研究较多,但目前最好的性能也仅有56.20%[2],还有进一步的提升空间。

本文提出复句判定及复句关系识别联合模型,旨在同时解决复句判定和复句关系识别问题,实现复句的自动判定及复句关系的自动识别。在复句判定任务中通过Bi-LSTM对句子进行编码,采用注意力机制挖掘更深层次的语义信息后,通过卷积神经网络(CNN)提取句子中的局部信息,最终对其进行分类。在复句关系识别任务中使用词向量Bert增强句子的语义表示,采用Tree-LSTM对成分标记和句子中的单词进行联合建模后,并对建模结果进行分类。

1 相关工作

复句作为自然语言中重要的语法单位[3],在语言学上的理论成果较为丰富,且研究范围也较为广泛。对于复句的逻辑语义关系分类,代表性的研究主要有:文献[4]提出的两分法,依据分句之间的语义关系,将复句分为联合复句和偏正复句两大类;文献[5]将联合复句分为并列、递进、顺承、选择、解说5个小类,将偏正复句分为转折、因果、假设、目的、条件5个小类;另外一种是文献[6]提出的三分法,复句三分法的一级分类分为广义因果关系、广义并列关系和广义转折关系三大类,因果关系分为因果、推断、假设、条件、目的等,并列关系分为并列、连贯、递进、选择等,转折关系分为转折、让步等。

随着理论研究的不断深入,复句的相关研究逐渐从理论转向信息处理领域,关联词作为复句的重要信息。文献[7]对语料进行分析并总结出一个复句关联词库,采用基于规则的方法对关联词进行自动识别;文献[8]考虑到关联词与语境的关系,以复句关联词所处的语境以及关联词搭配为特征进行特征提取,使用贝叶斯模型实现关联词的识别;文献[9]充分利用句子的词法信息、句法信息、位置信息,采用决策树对复句进行复句关系分类,在显式复句中取得了较好的效果;文献[10]用极大似然估计计算关联词对于各类关系的指示能力,构造关联词-关系类型矩阵,预测句子的复句关系类别;文献[11]提出了一种基于句内注意力机制的多路卷积神经网络结构对汉语复句关系进行识别,其研究对象既包括显式复句也包括隐式复句,F1值达到85.61%,但其仅在并列、因果、转折三类复句关系中进行识别,并没有涵盖自然语言中的大部分复句类别;文献[12]采用在卷积神经网络中融合关系词特征的FCNN模型,对复句关系进行分类,准确率达到97%,但其研究对象仅为二句式非充盈态复句;文献[13]利用关联词的词性分布规则标注潜在关联词,对比关联词库中的模式表,标注出其语义关系。

由于隐式复句中没有关联词连接分句,因此隐式复句关系的识别较显式而言更为困难,目前专门针对复句判定、复句关系识别的研究比较少,大部分研究都是针对篇章进行的,然而由于汉语复句与篇章之间存在天然的联系,有关篇章的研究仍有许多值得借鉴的地方。文献[10]实现了基于有指导方法的隐式关系识别模型,融入依存句法特征和句首词汇特征,采用对数据不平衡容忍度较高的SVM实现对篇章关系的识别;文献[14]以词汇、上下文信息及依存树结构信息作为特征训练最大熵分类器,以实现复句关系的自动识别;文献[2]在中文篇章树库(CDTB)上提出了模拟人类重复阅读和双向阅读过程的注意力机制网络模型,得到论元信息的交互表示。

2 基于注意力机制的复句判定模型

复句判定是指对于给定句子,复句判定系统能够准确地识别出是否为复句。如表 1中的例句1即为包含关联词的显式复句,例句2为紧缩型复句,例句3为无关联词的隐式复句,上述3类统称为复句,例句4为单句。

下载CSV 表 1 单复句示例 Table 1 Examples of simple and complex sentences

本文以循环神经网络为基础实现复句的自动判定,模型主要分为输入模块、编码模块、输出模块3个部分,其模型结构如图 1所示。

Download:
图 1 基于循环神经网络的复句判定模型 Fig. 1 Model of complex sentence identification based on recurrent neural network
2.1 判定模型输入模块

本文通过文献[15]提出的GloVe构造词向量查询表$ {L}_{\mathrm{w}}\in {\mathbb{R}}^{{d}_{\mathrm{w}}\times \left|{v}_{\mathrm{w}}\right|} $,其中$ {d}_{\mathrm{w}} $$ \left|{v}_{\mathrm{w}}\right| $分别表示词向量的维度以及词表长度。分别将输入的句子所包含的词语在词向量查询表中进行查询,得到该句子的词向量表示序列$ \boldsymbol{e}=\{{\boldsymbol{e}}_{1}, {\boldsymbol{e}}_{2}, \cdots , {\boldsymbol{e}}_{n}\} $,其中$ {e}_{i}\in {\mathbb{R}}^{{d}_{\mathrm{w}}} $$ 1\le i\le n $。如果词向量查询表$ {L}_{\mathrm{w}} $中不存在当前所查询的词语,那么采用符号“UNK”的向量进行表示,该向量为随机初始化向量。

2.2 判定模型编码模块

对复句的判定需要着眼于整个句子的内容,句子中某一个词的语义信息由上下文信息共同决定,因此采用Bi-LSTM对句子中的词语表示进行建模,以便较准确地获得句子的语义信息,通过前向LSTM和后向LSTM计算得到句子向量表示,将两者拼接得到当前状态的向量表示。由于复句由2个或2个以上分句组成,与单句相比,句法结构更加复杂,长度更长,因此一层遍历所得到的语义信息往往是不足的,采用多层Bi-LSTM能够避免梯度爆炸、梯度消失等问题。本文采用了多层Bi-LSTM来学习文本数据中的层次化信息、增加语义建模的准确性。

由于复句语义关系是由分句语义的交互作用而形成的,因此本文采用了能够衡量内部相关性的Self Attention[16]。计算方式如式(1)~式(3)所示:

$ \mathrm{S}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}({h}_{i}, {h}_{j})={\boldsymbol{v}}_{a}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({W}_{a}\right[{h}_{i};{h}_{j}\left]\right) $ (1)
$ {\alpha }_{ij}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}\right({x}_{i}, {x}_{j}\left)\right)}{\sum\limits_{j}\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}\right({x}_{i}, {x}_{j}\left)\right)} $ (2)
$ {g}_{i}=\sum\limits_{j}({\alpha }_{ij}, {h}_{j}) $ (3)

为挖掘文本中更深层次的语义信息,引入了卷积神经网络(CNN),通过卷积核提取出相邻单词的特征,对卷积层输出的结果进行池化操作,从而将最重要的特征提取出来。本文采用max-over-time-pooling操作,即将最大值作为最重要的特征。

2.3 判定模型输出模块

该模型在全连接层后通过softmax函数对给定句子进行复句的判定预测。

$ y=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}(W\cdot C+b) $ (4)

其中:Wb分别为权重和偏置;C为经过模型编码后的输出。此外,本文所使用的损失函数为负对数似然函数。

3 基于Tree-LSTM的复句关系识别模型

识别复句关系对于把握句子整体语义有至关重要的作用,也是本文另一项重要任务。表 2为4种出现频率较高的复句关系类别示例。

下载CSV 表 2 复句关系类型示例 Table 2 Examples of complex sentence relation types

本文基于Tree-LSTM的复句关系识别模型的输入为给定句子的2个论元,输出为复句关系预测结果。该模型由输入模块、成分句法树模块、编码模块和输出模块构成,模型结构如图 2所示,下面依次对上述4个模块进行展开。

Download:
图 2 基于Tree-LSTM的复句关系识别模型 Fig. 2 Model of complex sentence relation recognition based on Tree-LSTM
3.1 成分句法树

成分句法树能够清晰地将句子中所包含的句法及句法单位之间存在的关系展示出来。在自然语言中,不同类型短语所对应的语义的重要性也各不相同,在一般情况下相较于动词短语,介词短语对复句关系影响较小。

图 3为复句“孟山都在欧洲遭遇滑铁卢,肯定会开拓市场弥补损失”中2个分句的成分句法树表示,在arg1中存在介词短语“在欧洲”和动词短语“遭遇滑铁卢”,在arg2中有动词短语“开拓市场”“弥补损失”,通过比较2个论元的动词短语,容易分析出2个论元呈现因果关系,如果把arg1中的介词短语和arg2中的动词短语进行比较则难以得出上述结论。由此可见,句子中的成分信息对于复句关系识别具有一定的辅助作用,故本文采用Stanford Parser得到句子中每个论元的成分句法树,将成分句法树的标记嵌入到词语的embedding中。

Download:
图 3 成分句法树实例 Fig. 3 Example of constituent syntactic tree
3.2 识别模型输入模块

本文通过文献[17]提出的预训练语言模型Bert构造词语的向量表示,采用随机初始化的方式构造成分句法树标记向量,对于输入的句子$ c=\{{c}_{1}, {c}_{2}, \cdots , {c}_{n}\} $,其中$ {c}_{i}=\{\mathrm{w}\mathrm{o}\mathrm{r}{\mathrm{d}}_{i}, \mathrm{t}\mathrm{a}{\mathrm{g}}_{i}\} $$ 1\le i\le n $$ {c}_{i} $包含在i这个位置上所对应的词以及该词在成分句法树中所对应的标记,对于每一个词$ {c}_{i} $,将其词向量和标记向量进行拼接,得到对应的向量表示$ {\boldsymbol{e}}_{i}=[{w}_{i};{t}_{i}] $

3.3 识别模型编码模块

虽然链式的LSTM已经取得了较好的效果,但是句子的语义不仅仅是由单个词的语义进行简单的拼接而成的,句子的结构信息也起着至关重要的作用,本文在编码时采用了能够捕获句子语义信息的同时也考虑句子的结构信息的Tree-LSTM[18]

与LSTM类似,Tree-LSTM由1个输入门、1个输出门和多个遗忘门构成,遗忘门的个数与树节点数一致,即本文采用的方法有2个遗忘门。但Tree-LSTM的当前状态并不取决于上一时刻的隐藏层状态,而是取决于孩子节点的隐藏层状态,其计算方式也在LSTM的基础上做出了调整,如式(5)~式(7)所示:

$ {i}_{j}=\sigma ({W}^{\left(i\right)}{e}_{j}+{U}^{\left(i\right)}[{h}_{j}^{L}, {h}_{j}^{R}]+{b}^{\left(i\right)}) $ (5)
$ {f}_{j}=\sigma ({W}^{\left(f\right)}{e}_{j}+{U}^{\left(f\right)}[{h}_{j}^{L}, {h}_{j}^{R}]+{b}^{\left(f\right)}) $ (6)
$ {o}_{j}=\sigma ({W}^{\left(o\right)}{e}_{j}+{U}^{\left(o\right)}[{h}_{j}^{L}, {h}_{j}^{R}]+{b}^{\left(o\right)}) $ (7)

其中$ :{h}_{j}^{L} $$ {h}_{j}^{R} $为当前节点的左右孩子的隐藏层状态表示,当前句子中2个论元成分句法树的向量表示通过Tree-LSTM后得到2个论元的文本表示。

$ {r}_{i}=\mathrm{T}\mathrm{r}\mathrm{e}\mathrm{e}\_\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}\left(\boldsymbol{e}\right), 1\le i\le 2 $ (8)

在通过Tree-LSTM编码后,在复句关系识别任务中采用前馈神经网络,对Tree-LSTM编码后的结果进行编码,在关联词的分类任务中采用了卷积神经网络对输出结果进行编码。

3.4 识别模型输出模块

在输出模块中,最终将复句中2个论元的表示送入softmax函数得到复句关系分类的概率,计算公式如下:

$ \widehat{y}\left(x\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({W}^{\left(\widehat{y}\right)}\right[{r}_{1}, {r}_{2}]+{b}^{\left(\widehat{y}\right)}) $ (9)

本文采用交叉熵损失函数,计算公式如下:

$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}=\sum\limits_{x\in D}\sum\limits_{i\in R}{y}_{i}\left(x\right)\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}{\widehat{y}}_{i}\left(x\right) $ (10)

其中:D为训练时所用的数据集;R为复句关系的类型;$ {y}_{i}\left(x\right) $为训练样本x的标签;$ {\widehat{y}}_{i}\left(x\right) $为通过本文模型得到的样本x被预测为属于类型i的概率值。

4 复句判定及复句关系识别联合模型

在统计模型的基础上,可将模型分为管道式模型和联合模型两大类。管道式模型的方式容易传递误差,导致模型的性能衰减,且各环节独立进行预测,忽略了2个任务之间的相互影响,无法处理全局的依赖关系。联合模型则是将各个模型通过整体的优化目标整合起来,从整体的结构中学习全局特征,从而使用全局性信息来优化局部预测的性能。因此,本文采取联合模型同时进行复句判定和复句关系识别。模型结构如图 4所示,主要分为输入模块、编码模块、输出模块3个部分。

Download:
图 4 复句判定及复句关系识别联合模型结构 Fig. 4 Joint model structure of complex sentence identification and compelx sentence relation recognition
4.1 联合模型输入模块

在自然语言处理的相关任务中,一个单词的特征或者含义不应该因为任务的不同而不同,统一的向量表示使联合学习模型不过分地倾向于某一任务,增加了模型的泛化能力,故本文在嵌入层中复句判定和复句关系识别任务的嵌入层中共享向量表示。

参数共享是联合模型中较为常见的一种方式,可以分为硬共享和软共享2种。硬共享指多个模型之间的共享部分直接使用同一套参数,使模型学习到可以表示多个任务的解;软共享通常是通过计算多个模型之间的共享部分的参数之间的差异,使其差异尽可能得小,并保留任务的独立性。为了使模型在底层的句子表示中使复句的判定和复句关系识别任务可以相互借鉴,故本文在参数共享中选择了参数软共享方式,使多个模型中需要共享部分的参数差异尽可能得小,这种参数共享方式能够使模型在学习多个任务共有的表示下保留任务的独特性,对不同的任务学习不同的句子表示。

对于复句判定和复句关系识别任务中的参数$ {W}_{i}^{j} $$ {W}_{i}^{r} $,采用L2范式计算参数之间的差异,整体参数差异损失如下:

$ {L}_{\theta }=\sum\limits_{i}\left|\right|{W}_{i}^{\mathrm{i}\mathrm{d}}-{W}_{i}^{\mathrm{r}\mathrm{e}}|{|}_{2}^{2} $ (11)
4.2 联合模型编码模块

对于复句判定任务,编码层采用Bi-LSTM进行编码,获得句子的上下文表示信息,将Bi-LSTM的结果作为CNN的输入,得到句子的局部特征表示。

在复句关系识别任务中,为了得到句子的结构化信息,采用Tree-LSTM进行编码。此外,由于复句判定任务中学到的句子表示有助于丰富复句关系识别任务中的信息,因此本文引入了注意力机制对这部分信息进行学习。在复句判定编码层输出的上下文词表示为$ {\boldsymbol{h}}_{i}^{\mathrm{i}\mathrm{d}} $,复句关系识别编码器获得的输出记为$ {\boldsymbol{h}}_{i}^{\mathrm{r}\mathrm{e}} $,通过下式计算:

$ \mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}{\mathrm{e}}_{ij}={W}^{r}{\boldsymbol{h}}_{i}^{\mathrm{r}\mathrm{e}}{\boldsymbol{h}}_{j}^{\mathrm{i}\mathrm{d}} $ (12)

其中:$ {W}^{r} $为模型需要训练的参数。

将score转换为注意力分布:

$ {\alpha }_{ij}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}{\mathrm{e}}_{ij}\right)}{\sum\limits_{j=1}^{n}\mathrm{e}\mathrm{x}\mathrm{p}\left(\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}{\mathrm{e}}_{ij}\right)} $ (13)

将注意力分布$ {\alpha }_{ij} $与向量$ {\boldsymbol{h}}_{j}^{\mathrm{i}\mathrm{d}} $进行加权求和操作,得到输入$ {x}_{j} $的复句判定向量:

$ {\boldsymbol{o}}_{i}=\sum\limits_{j=1}^{n}{\alpha }_{ij}{\boldsymbol{h}}_{j}^{\mathrm{i}\mathrm{d}} $ (14)

在复句判定模型中所得到的特征向量$ {\boldsymbol{o}}_{i} $与复句关系识别模型中获得的向量表示$ {\boldsymbol{h}}_{i}^{\mathrm{r}\mathrm{e}} $进行拼接,得到新的向量表示$ {\boldsymbol{h}}_{i} $

$ {\boldsymbol{h}}_{i}={\boldsymbol{h}}_{i}^{\mathrm{r}\mathrm{e}}⨁{\boldsymbol{o}}_{i} $ (15)
4.3 联合模型输出模块

在得到新的向量表示后,将编码后的结果通过softmax函数进行进行复句判定和复句关系识别。若在联合模型中输入的句子被判定为单句时,该句子在进行复句关系识别后会进行后处理,将其复句关系识别的结果更正为无关系。

在联合模型中损失函数的定义是一个十分棘手的问题,若2个任务之间出现梯度不平衡的问题会导致参数的更新倾向于某个单独的任务,降低所有模型的表现效果。故本文计算2个任务之间的损失采用静态加权求和的方式,将不同任务之间的损失进行组合,计算公式如下:

$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}={W}^{\mathrm{i}\mathrm{d}}{L}^{\mathrm{i}\mathrm{d}}+{W}^{\mathrm{r}\mathrm{e}}{L}^{\mathrm{r}\mathrm{e}}+{W}^{\theta }{L}_{\theta }+\mathrm{\lambda }{‖\theta ‖}_{2}^{2} $ (16)

其中:WidLid分别为复句判定模型的权重和总损失;$ {W}^{\mathrm{r}\mathrm{e}} $$ {L}^{\mathrm{r}\mathrm{e}} $分别为复句关系识别任务中的模型的权重和总损失;$ \theta $为模型的参数;$ {L}_{\theta } $为参数软共享所构成的参数距离损失。

5 实验结果与分析 5.1 数据集

本文中所使用的语料是由CAMR[19](Chinese Abstract Meaning Representation)和篇章结构树库[20]中抽取的复句语料。图 5为CAMR中复句的结构示例。

Download:
图 5 CAMR复句结构示例 Fig. 5 Example of CAMR complex sentence structure

在CAMR中共标记了并列、因果、条件、转折、时序、递进、选择、让步、反向选择9类复句关系,但由于后5类仅占语料的4.23%,因此对这5类进行了归并,得到了如表 3所示的数据集,其中无关系类别为单句,共5 359种。

下载CSV 表 3 语料库中复句关系统计 Table 3 Statistics of complex sentence relations in corpus
5.2 复句判定

在复句判定实验中训练集、测试集的比例为4∶1,由于深度学习算法容易出现过拟合的问题,因此在每一层的输出中进行Dropout[21]操作,采用Adam[22]算法对模型进行优化,实验中所涉及的参数设置如表 4所示。

下载CSV 表 4 复句判定模型的超参数设置 Table 4 Hyperparameter settings of complex sentence identification models

表 5为复句判定任务的实验结果,可以看到仅使用Bi-LSTM时准确率(P)达到94.81%,但召回率(R)较低,这是因为Bi-LSTM着眼于复句的整体语义,若复句句法结构不够典型则效果较差,无法识别。Attention机制能够捕获分句间对揭示语义有提示作用的词语或搭配信息,因此F1值提升了6.07个百分点。CNN的加入则是突出了分句内部对语义有提示作用的局部信息,因此性能进一步提高。这说明对于复句而言,除了整体语义外,局部语义及分句间的语义交互作用对揭示复句语义有着同样重要的作用。

下载CSV 表 5 复句判定实验结果 Table 5 Experimental results of complex sentence identification  

为了更好地分析模型的性能,本文对测试集中的显式复句和隐式复句的实验结果进行分析,其实验结果如表 6所示。

下载CSV 表 6 显式及隐式复句判定实验结果 Table 6 Experimental results of explicit and implicit complex sentence identification  

表 6可以看出,与表 5相似,无论是在显式复句还是在隐式复句中,加入Attention和CNN以后的F1值均高于其他2种方法,这再次证明了局部信息的引入有助于提升模型对复句判定的性能。另外,通过比较显式复句和隐式复句的判定结果可以发现,显式复句的F1值比隐式复句的F1值高2.89个百分点,这是因为隐式复句中并没有关联词这一明显的浅层特征,在编码时其内部的语义信息较难挖掘,导致隐式复句判定结果较低。

5.3 复句关系识别

在复句关系识别任务中所涉及的超参数如表 7所示,复句关系识别任务的结果展示如表 8所示。

下载CSV 表 7 复句关系识别模型的超参设置 Table 7 Hyperparameter settings of complex sentence relation recognition model
下载CSV 表 8 复句关系识别实验结果 Table 8 Experimental results of relation recognition of complex sentences  

表 8中LSTM模型表示只考虑句子的上下文语义信息,对句子的语义进行建模,但句子的语义信息并不只是每个词语义的叠加,与句子的结构信息有一定的关系,Tag+Tree-LSTM模型考虑句子的句法结构信息,并在编码过程中融入成分句法树的标签信息,这种方式相较于只考虑上下文语义信息的LSTM而言,效果提升了0.27个百分点;在Tag+Tree-LSTM中采用了随机初始化的词向量方式,但预训练的词向量能够更好地反映出词语词之间的关系以及句子的语义信息,故在Tag+Tree-LSTM的基础上加入了句子级的词向量Bert,模型的性能提高了3.37个百分点。

表 9所示为本模型与其他模型的实验结果对比,相比于文献[14]针对汉语篇章结构语料库提出的基于多层注意力的TLAN方法,本文提出的方法采用Tree-LSTM能够充分利用句子的结构信息,预训练词向量Bert的引入对汉语中一词多义现象有所解决,因此本文所提出的Tag+Tree-LSTM+Bert模型F1值达到58.17%,相较于TLAN模型,提升了1.97个百分点。

下载CSV 表 9 模型实验结果对比 Table 9 Comparison of the model experimental results  

表 10所示为复句判定和复句关系识别任务构成的管道式模型实验结果,与前文中提出的Tag+Tree-LSTM+Bert模型相比,pipeline模型的实验结果比直接进行复句关系识别任务的模型低,这是因为pipeline需要先进行复句判定任务,然后再进行复句关系识别。

下载CSV 表 10 复句判定及复句关系识别pipeline模型结果 Table 10 Pipeline model results of complex sentence identification and complex relation recognition  
5.4 复句判定及复句关系识别联合模型

在联合模型中,通过联合学习利用任务之间可以相互作用的特征,表 11为复句判定及复句关系识别联合模型的实验结果。

下载CSV 表 11 联合模型实验结果 Table 11 Experimental results of joint model  

通过比较表 10表 11可以发现,无论是在复句判定任务还是在复句关系识别任务中,联合模型的F1值相比管道式模型都有所提高,表 11联合模型中复句判定任务的F1值较表 10中管道式模型提高了0.44个百分点,联合模型复句关系识别的F1值为66.25%,与管道式模型的实验结果62.64%相比提高了3.61个百分点,这是因为联合模型能够有效地减少模型之间的误差传递。

6 结束语

本文基于神经网络方法对复句判定及复句关系识别任务进行研究,构造复句判定和复句关系识别联合模型,通过减少管道式误差传递以实现复句的自动判定和复句关系的自动识别。实验结果验证了本文方法的有效性。由于神经网络方法对语料规模较为依赖,因此下一步将继续扩充语料规模,提高网络模型性能。

参考文献
[1]
HU J Z, SHU B, HU Q, et al. Research on expression method of rules in auto-identifying relational word of Chinese compound sentences[J]. Computer Engineering and Applications, 2016, 52(1): 127-132. (in Chinese)
胡金柱, 舒江波, 胡泉, 等. 复句关系词自动识别中规则的表示方法研究[J]. 计算机工程与应用, 2016, 52(1): 127-132.
[2]
XU S, WANG T S, LI P F, et al. Using multilayer attention neural network to identify implicit textual relations in Chinese[J]. Journal of Chinese Information Processing, 2019, 33(8): 12-19, 35. (in Chinese)
徐昇, 王体爽, 李培峰, 等. 运用多层注意力神经网络识别中文隐式篇章关系[J]. 中文信息学报, 2019, 33(8): 12-19, 35. DOI:10.3969/j.issn.1003-0077.2019.08.002
[3]
WEI T X, QU W G, SONG L, et al. A review of complex sentences for abstract semantic representation in Chinese[J]. Journal of Xiamen University(Natural Science), 2018, 57(6): 849-858. (in Chinese)
魏庭新, 曲维光, 宋丽, 等. 面向中文抽象语义表示的复句研究综述[J]. 厦门大学学报(自然科学版), 2018, 57(6): 849-858.
[4]
LI J X. The new mandarin grammar[M]. Changsha: Hunan Education Press, 2007. (in Chinese)
黎锦熙. 新著国语文法[M]. 长沙: 湖南教育出版社, 2007.
[5]
HUANG B R, LIAO X D. Modern Chinese(updated)[M]. Beijing: Higher Education Press, 2002. (in Chinese)
黄伯荣, 廖序东. 现代汉语(增订版)[M]. 北京: 高等教育出版社, 2002.
[6]
XING F Y. Compound sentences and relation words[M]. Harbin: Heilongjiang People's Publishing House, 1985. (in Chinese)
邢福义. 复句与关系词语[M]. 哈尔滨: 黑龙江人民出版社, 1985.
[7]
HU J Z, WU F W, LI Q, et al. Construction and utilization of Chinese compound sentence relation lexis[J]. Language Science, 2010, 9(2): 133-142. (in Chinese)
胡金柱, 吴锋文, 李琼, 等. 汉语复句关系词库的建设及其利用[J]. 语言科学, 2010, 9(2): 133-142.
[8]
YANG J C, GUO K K, SHEN X J, et al. Automatic identification and rule mining for relation words of Chinese compound sentences based on Bayesian model[J]. Computer Science, 2015, 42(7): 291-294, 319. (in Chinese)
杨进才, 郭凯凯, 沈显君, 等. 基于贝叶斯模型的复句关系词自动识别与规则挖掘[J]. 计算机科学, 2015, 42(7): 291-294, 319.
[9]
LI Y C, SUN J, ZHOU G D, et al. Research on the recognition and classification of complex sentence relation words based on Tsinghua Chinese tree library[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 118-124. (in Chinese)
李艳翠, 孙静, 周国栋, 等. 基于清华汉语树库的复句关系词识别与分类研究[J]. 北京大学学报(自然科学版), 2014, 50(1): 118-124.
[10]
ZHANG M Y, SONG Y, QIN B, et al. Chinese discourse relation recognition[J]. Journal of Chinese Information Processing, 2013, 27(6): 51-57. (in Chinese)
张牧宇, 宋原, 秦兵, 等. 中文篇章级句间语义关系识别[J]. 中文信息学报, 2013, 27(6): 51-57.
[11]
SUN K L, DENG D H, LI Y, et al. A method for recognition of complex sentence relations in Chinese based on multi-channel CNN of intra-sentence attention mechanism[J]. Journal of Chinese Information Processing, 2020, 34(6): 9-17, 26. (in Chinese)
孙凯丽, 邓沌华, 李源, 等. 基于句内注意力机制多路CNN的汉语复句关系识别方法[J]. 中文信息学报, 2020, 34(6): 9-17, 26.
[12]
YANG J C, WANG Y Y, CAO Y, et al. Relation classification of non-saturated Chinese compound sentence via feature fusion CNN[J]. Computer System Application, 2020, 29(6): 224-229. (in Chinese)
杨进才, 汪燕燕, 曹元, 等. 关系词非充盈态复句的特征融合CNN关系识别方法[J]. 计算机系统应用, 2020, 29(6): 224-229.
[13]
YAO S Y, HU J Z, SHU J B, et al. Automatic annotation method of textual coherence semantic relation[J]. Computer Engineering, 2012, 38(7): 131-133. (in Chinese)
姚双云, 胡金柱, 舒江波, 等. 篇章连贯语义关系的自动标注方法[J]. 计算机工程, 2012, 38(7): 131-133.
[14]
SUN J, LI Y C, ZHOU G D, et al. Research of Chinese implicit discourse relation recognition[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 111-117. (in Chinese)
孙静, 李艳翠, 周国栋, 等. 汉语隐式篇章关系识别[J]. 北京大学学报(自然科学版), 2014, 50(1): 111-117.
[15]
PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation[C]//Proceedings of 2014 IEEE Conference on Empirical Methods in Natural Language Processing. Washington D.C., USA: IEEE Press, 2014: 1532-1543.
[16]
VASWANI A, SHAZEER N, PARNAR N, et al. Attention is all you need[C]//Proceedings of the 31st IEEE International Conference on Neural Information Processing Systems. Washington D.C., USA: IEEEPress, 2017: 6000-6010.
[17]
DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. [2020-07-10]. https://arXiv preprint arXiv: 1810.04805.
[18]
TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-term memory networks[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics. Washington D.C., USA: IEEEPress, 2015: 1556-1566.
[19]
DAI R B. Resource construction and application of Chinese abstract semantic representation system[D]. Nanjing: Nanjing Normal University, 2020. (in Chinese)
戴茹冰. 汉语抽象语义表示体系资源构建及其应用研究[D]. 南京: 南京师范大学, 2020.
[20]
LI Y C. Research on Chinese discourse structure representation system and resource construction[D]. Suzhou: Soochow University, 2015. (in Chinese)
李艳翠. 汉语篇章结构表示体系及资源构建研究[D]. 苏州: 苏州大学, 2015.
[21]
KINGMA D, BA J. Adam: a method for stochastic optimization[EB/OL]. [2020-07-10]. https://arXivpreprintarXiv:1412.6980v8.
[22]
SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.