基于聚焦损失与残差网络的远程监督关系抽取

引用本文

蔡强, 李晶, 郝佳云. 基于聚焦损失与残差网络的远程监督关系抽取[J]. 计算机工程, 2019, 45(12), 166-170. DOI: 10.19678/j.issn.1000-3428.0053262.

CAI Qiang, LI Jing, HAO Jiayun. Distant Supervision Relation Extraction Based on Focal Loss and Residual Network[J]. Computer Engineering, 2019, 45(12), 166-170. DOI: 10.19678/j.issn.1000-3428.0053262.

基金项目

北京市自然科学基金（4162019）；北京市科技计划项目（Z161100 001616004）；北京市教委科研计划项目（SQKM201610011010）

通信作者

李晶(通信作者), 硕士研究生

作者简介

蔡强(1969—), 男, 教授、博士, 主研方向为智能信息处理、计算机图形学;
郝佳云, 硕士研究生

文章历史

收稿日期：2018-11-27
修回日期：2018-12-27

Contents Abstract Full text Figures/Tables PDF

基于聚焦损失与残差网络的远程监督关系抽取

蔡强^a,b , 李晶^a,b , 郝佳云^a,b

a. 北京工商大学计算机与信息工程学院, 北京 100048;
b. 北京工商大学食品安全大数据技术北京市重点实验室, 北京 100048

收稿日期：2018-11-27；修回日期：2018-12-27

基金项目：北京市自然科学基金（4162019）；北京市科技计划项目（Z161100 001616004）；北京市教委科研计划项目（SQKM201610011010）

作者简介：蔡强(1969—), 男, 教授、博士, 主研方向为智能信息处理、计算机图形学; 郝佳云, 硕士研究生.

通信作者：李晶(通信作者), 硕士研究生.

E-mail: jasonleedp@qq.com

摘要：基于卷积神经网络的远程监督关系抽取方法提取的特征单一，且标准交叉熵损失函数未能较好处理数据集中正负样本比例不均衡的情况。为此，提出一种基于深度残差神经网络的远程监督关系抽取模型，通过改进交叉熵聚焦损失函数，提取句子中的深层语义特征，同时降低损失函数中负样本的权重，避免在NYT-Freebase标准数据集中引入NA关系类别的噪音。实验结果表明，该模型能增强深度残差神经网络对含噪音数据的表示学习能力，有效提高远程监督关系抽取任务的分类准确率。

Distant Supervision Relation Extraction Based on Focal Loss and Residual Network

CAI Qiang^a,b , LI Jing^a,b , HAO Jiayun^a,b

a. School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China;
b. Beijing Key Laboratory of Big Data Technology for Food Safety, Beijing Technology and Business University, Beijing 100048, China

Abstract: Distant supervision relation extraction based on Convolutional Neural Network(CNN) can extract only single feature, and the standard cross-entropy loss function is not sufficient in balancing the ratio of positive samples and negative samples in datasets. To address the problem, this paper proposes a relation extraction model using distant supervision based on deep residual neural network, which improves the cross-entropy focal loss function to extract deep semantic features of a sentence. Also, the weight of simple negative samples in the loss function is reduced to introduce noise of the NA relation into standard NYT-Freebase dataset. Experimental results show that the model can enhance the ability of deep residual neural network to represent and learn sample data with noise, increasing the classification accuracy rate in relation extraction tasks using distant supervision.

0 概述

关系抽取任务是指预测句子中实体的属性和关系。对于句子中的实体对e₁和e₂, 两者之间相关关系可以形式化表示为三元组形式＜e₁, r, e₂＞, 其中r为关系描述类型。例如, 给定一个简单的包含实体关系的句子:“Steve Jobs is the founder of Apple.”, 其中实体对“Steve Jobs”与“Apple”之间的关系为“founder”。关系抽取技术已经被广泛应用于信息检索、情感分析、智能问答、知识图谱等重要领域。本文提出一种基于改进交叉熵损失函数的深度残差网络远程监督关系抽取模型, 以解决数据集中正负样本比例不平衡的问题。

1 相关工作

关系抽取主要面临的问题之一是训练数据少且标记成本高。为此, 文献[1]使用远程监督关系抽取方法获取标记文本。文献[2]将知识库与未标记文本集进行对齐, 获得了大量带有噪音的示例。文献[3]提出基于卷积神经网络(Convolutional Neural Network, CNN)的远程监督关系抽取方法。文献[4]提出分段最大池化策略改善卷积神经网络模型。文献[5]通过句子级别注意力机制挖掘多示例学习^[6]中多个句子的语义信息, 进一步降低噪音问题。文献[7]使用对损失敏感的排序损失函数代替交叉熵损失函数, 解决正负样本比例不平衡问题。然而, 现有大部分神经网络关系抽取模型使用浅层的卷积神经网络, 该神经网络通常仅使用一个卷积层和一个全连接层, 未能利用更深层的卷积神经网络来提取句子的深层语义特征。

远程监督方法能够获得大量标记文本, 但也将大量NA类别的噪音引入到分类过程中。如表 1所示, 在NYT-Freebase数据集^[8]中, 共有53类522 611条训练句子, 其中NA类别占绝大部分(158 513条), 当NA类别句子和不同的低频率关系类型共存于一组时, 会不可避免地带来大量的噪音。除此之外, 从表 1可知, NYT-Freebase数据集^[8]有严重的类别不平衡问题, 例如/location/location/contains关系的样本数是/location/neighborhood/neighbor hood-of关系样本数的17倍。当研究者利用远程监督获取数据训练模型时, 模型会倾向于学习关系样本数更多的类别, 导致分类准确率降低。

下载CSV 表 1 基于远程监督方法的数据分布

针对上述问题, 本文提出一种基于聚焦损失函数的深度残差网络^[9]模型来提取训练集中句子的深层语义, 并解决正负样本比例极度不平衡的问题。文献[10]将深度残差网络引入到远程监督关系抽取任务中并取得了一定效果。本文使用的深度残差网络在文献[10]的残差网络上进行改进:一方面, 本文使用更适合深度残差网络的全局向量词表示(Global Vectors for Word Representation, Glove)^[11]的词向量代替New York Times数据集上训练的word2vec词向量^[12]; 另一方面, 本文改进了标准交叉熵损失函数, 解决了正负样本比例不平衡的问题。在NYT-Freebase数据集^[8]上, 本文改进的深度残差网络模型取得了较好的效果。

2 基于深度残差网络的远程监督关系抽取

为更好地利用句子中的语义信息, 捕捉句子中较重要的部分并且解决正负样本比例不平衡的问题, 本文提出一种基于改进交叉熵损失函数的深度残差网络模型来提取训练集中句子的语义, 模型整体框架如图 1所示。

	Download: JPG larger image
图 1 基于深度残差网络的远程监督关系抽取模型整体框架

2.1 向量表示层

输入词的向量表示由词映射和位置映射拼接而成。令w_i表示句子中第i个词, e₁、e₂表示句子中对应的实体, WF_i表示词映射, PF_i表示位置映射, 则每个词对应的向量表示v_i=[WF_i, PF_i]。

2.1.1 词映射

词映射是词的分布式表示, 它将句子中的每个词语映射为k维实值向量。本文使用的Glove^[11]向量是在Wikipedia2014和Gigaword5数据集(共60亿条句子)上训练而成。给定上下文语境, Glove模型基于全局的word-word共现矩阵, 通过线性回归预测一个词出现的概率。Glove词向量可以捕捉词的句法和语义信息, 同时更好地学习全局信息。在本文实验中, 与同维度在NYT-Freebase数据集^[8]上训练的word2vec词向量相比, 使用Glove方法的平均准确率提高了2个百分点, 因此本文使用Glove词映射方法, 将输入句子中的词语映射为词向量。对于包含m个词语的句子s={w₁, w₂, …, w_m}, 每个词语w_i均被表示为实值向量WF_i。

2.1.2 位置映射

词语在句子中的位置是关系抽取任务中的重要特征。本文采用文献[2]提出的位置映射表示方法, 即将当前词语与第一个实体e₁和第二个实体e₂的相对距离进行拼接, 并通过映射将其转换成向量PF_i表示。

2.2 卷积层

令v_i:i+j表示v_i, v_i+1, …, v_i+j, i和j表示句子向量中第i、j个词。卷积操作使用滤波器w∈$\mathbb{R}$^q×d, 其中, q为滑动窗口大小, d为词向量, f为非线性激活函数, v_i:i+j通过滤波器的卷积操作产生新的特征c_i, 具体公式如下:

$ {c_i} = f(\mathit{\boldsymbol{w}}{v_{i:i + h - 1}} + \mathit{\boldsymbol{b}}) $

(1)

其中, b∈$\mathbb{R}$是偏置向量, f是非线性激活函数, 常用的非线性激活函数有Sigmoid、ReLU等, 本文模型使用的激活函数为ReLU。滤波器在句子方向上从v₁~v_n中产生特征向量c=[c₁, c₂, …, c_n－q+1], 其中c的维度为n-q+1。

2.3 残差卷积块

残差学习具有直接连接低层表示和高层表示的特性, 在网络中可以直接将低层的特征传递到高层, 较大程度缓解了低层特征在深度网络传递过程中逐渐消失的问题, 对于深层网络中梯度消失和梯度爆炸的问题是一个较好的解决方案。

本文运用残差学习中的快捷连接技术, 设计一个残差卷积块。每个残差卷积块是两个卷积层构成的序列, 在每个卷积层后使用ReLU激活函数进行非线性映射。所有卷积操作的核大小为h, 通过边界填充操作保证新生成的特征与原始大小一致。两层卷积的卷积核为w₁, w₂∈$\mathbb{R}$^h^×1, 其中的第一层和第二层特征分别为:

$ {c_{{i_1}}} = f({w_1}{c_{i:i + h - 1}} + {b_1}) $

(2)

$ {c_{{i_2}}} = f({w_2}{c_{i:i + h - 1}} + {b_2}) $

(3)

其中, b₁、b₂为偏置项。对于残差学习操作, 使用以下公式:

$ {\mathit{\boldsymbol{c}}_r} = {\mathit{\boldsymbol{c}}_{{i_1}}} + {\mathit{\boldsymbol{c}}_{{i_2}}} $

(4)

其中, c_r定义为残差卷积块的输出向量, 该操作由快速连接和元素直接对应相加完成。在本文模型框架中, 残差卷积块会进行多次拼接。

2.4 最大池化层和Softmax输出

为捕捉句子中的结构信息和细粒度特征, 本文对生成的特征向量[c₁, c₂, …, c_n－q+1]取最大值, 即c_max=max{c}。通过最大池化可以得到每一个滤波器提取的最重要特征, 然后将所有滤波器对应的重要特征向量拼接传递到3层的全连接层, 最终经过Softmax激活函数输出句子中e₁和e₂实体对应的关系类别的概率分布。

2.5 改进的交叉熵聚焦损失函数

为计算真实的关系类标签分布和预测的类标签分布之间的距离, 本文采用交叉熵损失函数来衡量两个分布之间的相似程度。但是由于在总体样本中很多容易分类的样本虽然损失值较小, 却数量很多, 对总体损失值有较大影响, 从而导致损失函数的收敛效果不佳。文献[13]在设计目标检测模型时, 由于区域推荐网络推荐的感兴趣区域大部分为负样本, 即不含有目标, 严重的正负样本不平衡导致模型收敛慢, 准确率低, 并且实验结果表明改进的交叉熵损失函数能有效抑制大量简单样本对模型训练的负面影响。为降低易分类样本对模型参数更新的影响, 使模型更新更专注于难分类的样本, 本文采用改进的交叉熵损失函数, 即将聚焦损失函数作为目标函数。对于多分类问题, 标准交叉熵损失函数定义如下:

$ J(\theta ) = - \sum\limits_{k = 1}^N {\sum\limits_{i = 1}^T {{r_{{k_i}}}{\rm{I}}{{\rm{n}}_a}({{\widehat y}_{{k_i}}},\theta )} } $

(5)

其中, θ表示模型中所有的参数, T代表多分类的关系类别数, N表示所有的句子样本数, r_i是预标记的真值, ${\widehat y_i}$是预测值。

因此, 对于单个样本, 真实类标签分布与模型预测的类标签分布可以用交叉熵表示为式(6), 而本文改进的聚焦损失函数的定义如式(7)所示。

$ {L_{{\rm{CE}}}} = - \sum\limits_{i = 1}^T {{r_i}{\rm{I}}{{\rm{n}}_a}({{\widehat y}_i},\theta )} $

(6)

$ J(\theta ) = \sum\limits_{k = 1}^N {{{(1 - {p_s})}^\gamma }} {L_{{\rm{CE}}}} $

(7)

其中, p_s=r_iP(${\widehat y_i}$, θ)+(1-r_i)(1-p(${\widehat g_i}$, θ), (1-p_s)^r为调节因子, γ表示可调节的聚焦参数。对于分类样本, 如果该样本被正确分类, 则p_s趋近于1, 调节因子趋近于0, 那么正确样本对于损失函数的梯度影响接近于0;如果该样本被错误分类, 则p_s趋近于0, 调节因子趋近于1, 那么错误样本与原先的损失函数值近似。另外, 易分类样本的p_s值大于难分类样本, 因此难分类样本的调节因子要大于易分类样本。例如, 样本x₁属于类别1的L_CE为0.9, 样本x₂属于类别1的L_CE为0.6, 显然前者更可能是类别1, 假设γ=1, 那么对于L_CE为0.9, 调制系数为0.1;对于p_t=0.6, 调制系数为0.4, 则增加了样本2在损失函数中的权重, 降低来自简单样本的梯度贡献。最终使得难分类样本在损失函数中的贡献增大, 减少由于易分类样本过多带来的干扰, 有效解决训练数据集分布不平衡的问题, 缓解易分样本决定梯度更新方向的情况, 使模型更专注于学习困难样本的特征, 从而提高深度残差网络模型的关系分类效果。

为防止模型过拟合, 本文采用Dropout方法^[14]进行正则化约束。Dropout方法通过在前向传播过程中随机丢弃部分隐层节点特征, 即神经网络参数更新不依赖于固定的节点作用, 从而提高模型泛化能力。

3 实验结果与分析 3.1 数据集及评价准则

为评估基于改进损失函数的深度残差网络关系抽取模型, 本文采用文献[8]中的数据集。该数据集通过将知识库Freebase与New York Times文本库匹配对齐生成, 被广泛应用于远程监督的关系抽取任务评测中, 目前在谷歌学术检索中被引用的次数达354。具体而言, 本文采用2005年、2006年的句子作为训练集, 2007年的句子作为测试集。该数据集中共包含53种关系(NA关系, 表示实体对之间没有关系), 其中, 训练集中包含的句子数为522 611, 测试集中包含的句子数为172 448。

为检验本文方法是否有效, 采用平均准确率(P@N)、准确率-召回率(PR)曲线进行评价, 并与主流算法进行比较分析。其中, P@N表示前N个示例预测的准确率。

3.2 参数设置

本文实验采用交叉验证方式进行模型调优, 验证集从训练集中随机抽样获取。本文的参数设置过程参考文献[10]中的预设值, 同时针对模型特点进行微调。其中, 句子向量的维度取值为50, 关系向量的维度与句子向量一致, 学习率的取值按照经验设置为0.001, 批大小的取值根据GPU显存大小选择64, 聚焦参数γ通过10组对比实验选择了关系抽取效果最好的1.34。本文参数设置如表 2所示。

下载CSV 表 2 参数设置

3.3 模型对比

为证明深度残差网络对关系抽取模型性能的影响, 本文对基准模型(ResCNN+word2vec)、加入Glove的改进模型(ResCNN+Glove)和本文加入聚焦损失与Glove的改进模型(ResCNN+Glove+our loss)效果进行对比。表 3为不同模型的前100个、200个、300个示例预测的准确率。其中, 原损失函数表示ResCNN模型^[10]使用标准交叉熵聚焦损失函数, 改进损失函数表示本文提出的对易分类样本敏感的改进交叉熵聚焦损失函数(our loss)。

下载CSV 表 3 基于深度残差神经网络的监督关系抽取模型准确率

从表 3可以看出, 相比于基准模型, 本文改进的ResCNN+Glove+our loss模型将原来的word2vec词向量替换为Glove后, 关系抽取准确率均得到提高, 其中前100示例句对关系分类准确率达到0.88, 较基准准确率0.79提高了11.4%。实验证明, Glove词向量可以提取到更多的词句法和语义特征, 同时能更好地学习全局语义信息。

本文选取了5种主流模型作为对比, 如图 2所示。Mintz采用全部示例来抽取特征, Hoffmann^[15]采用多示例学习模型, MIMLRE^[16]采用多示例多标签的模型, CNN+ATT^[5]在句子级别使用注意力机制所得的模型。ORIGINAL^[10]为9层深度残差网络模型, 利用残差连接筛选训练集中的噪音数据并减少噪音传递, 本文借鉴该模型结构。本文模型和其他模型相比, 使用了能够更好地提取语句深层语义信息的深度残差网络, 并采用包含更多全局信息的Glove词向量代替word2vec词向量。本文模型经过改进的交叉熵损失函数进行训练后, 相较于其他模型, 学习到了更多困难样本的特征, 解决了正负样本比例失衡的问题, 因此具有更高的准确率和召回率, 目前取得了深度残差网络在关系抽取任务中的最高准确率。与ORIGINAL模型对比, 本文模型有明显的效果提升, 证明本文改进的交叉熵损失函数能更好地指导残差模型的训练, 提高深度残差网络对含噪音句子数据的表示学习能力, 从而提高模型准确性和鲁棒性。同时, 证明了残差网络能应用在自然语言处理领域的关系抽取任务中, 且能取得不错的效果。另外, 可以观察到当召回率大于0.13时, CNN+ATT模型的准确率略高于本文模型, 可见在使用注意力机制的情况下, 对正例样本进行筛选后模型整体准确率有一定的提升。

	Download: JPG larger image
图 2 远程监督关系抽取模型的PR曲线对比

4 结束语

本文提出基于改进交叉熵损失函数的深度残差网络远程监督关系抽取模型。实验结果表明, 深度残差神经网络能从含噪音数据的输入中提取句法和语义信息, 同时交叉熵聚焦损失函数能解决正负样本比例失衡问题。在NYT-Freebase数据集上, 本文改进模型相比现有远程监督关系抽取模型准确率更高, 证明改进的深度残差网络在关系抽取任务上效果明显, 同时为卷积神经网络应用到自然语言处理任务中提供了新的解决方案。下一步将使用注意力机制来捕捉句子中与目标关系更加密切的信息, 降低原始训练集中的噪音数据。另外, 为获得句子中的实体结构信息, 将考虑使用分段最大池化技术提取更细粒度的特征, 以获取更丰富的语义信息, 进一步提高关系抽取准确率。

参考文献

[1]	CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C]//Proceedings of the 7th International Conference on Intelligent Systems for Molecular Biology. Palo Alto, USA: AAAI Press, 1999: 77-86. http://www.ncbi.nlm.nih.gov/pubmed/10786289
[2]	MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing. Philadelphia, USA: ACL Press, 2009: 1003-1011. http://www.researchgate.net/publication/220875128_Distant_supervision_for_relation_extraction_without_labeled_data
[3]	LAI Siwei, LIU Kang, ZHAO Jun, et al. Relation classification via convolutional deep neural network[C]//Proceedings of International Conference on Computational Linguistics. Dublin, Ireland: [s.n.], 2014: 2335-2344.
[4]	ZENG Daojian, LIU Kang, CHEN Yubo, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proceedings of EMNLP'15.Lisbon, Portugal: [s.n.], 2015: 1753-1762.
[5]	LIN Yankai, SHEN Shiqi, LIU Zhiyuan, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: ACL Press, 2016: 2124-2133.
[6]	DIETTERICH T G, LATHROP R H. Solving the multiple instance problem with axis-parallel rectangles[J]. Artificial Intelligence, 1997, 89(1/2): 31-71.
[7]	ZENG Daojian, ZENG Junxin, DAI Yuan. Using cost-sensitive ranking loss to improve distant supervised relation extraction[C]//Proceedings of China National Conference on Chinese Computational Linguistics. Berlin, Germany: Springer, 2017: 184-196. http://link.springer.com/chapter/10.1007/978-3-319-69005-6_16
[8]	RIEDEL S, YAO Limin, MCCALLUM A. Modeling relations and their mentions without labeled text[C]//Proceedings of European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Germany: Springer, 2010: 148-163.
[9]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[EB/OL].[2018-10-15].https://arxiv.org/abs/1512.03385.
[10]	HUANG Yiyao, WANG W Y. Deep residual learning for weakly-supervised relation extraction[EB/OL].[2018-10-15].https://arxiv.org/abs/1707.08866.
[11]	PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Berlin, Germany: Springer, 2014: 1532-1543.
[12]	MIKOLOV T, CHEN KAI, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL].[2018-10-15].https://arxiv.org/abs/1301.3781.
[13]	LIN T, GOYAL P, GIRSHICK R B, et al. Focal loss for dense object detection[EB/OL].[2018-10-15].https://arxiv.org/abs/1708.02002.
[14]	SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout:a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[15]	HOFFMANN R, ZHANG Congle, LING Xiao, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]//Proceedings of HLT'11.Washington D. C., USA: IEEE Press, 2011: 541-550.
[16]	SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning for relation extraction[C]//Proceedings of EMNLP-CoNLL'12.Washington D. C., USA: IEEE Press, 2012: 455-465. http://www.researchgate.net/publication/262255021_Multi-instance_multi-label_learning_for_relation_extraction