开放科学(资源服务)标志码(OSID):
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,可从非结构化和程序化的文本中提取实体之间的语义关系,为用户提供更加精准全面的信息。实体关系抽取通常是在非结构化和程序化的文本中提取二元关系并组成关系三元组的形式,例如 < Entity1,Relation,Entity2 > ,其中,Entity1和Entity2表示两个实体,Relation表示两个实体之间的关系。给定一个句子“ < e1 > 雷军 < /e1 > 创立了 < e2 > 小米科技有限责任公司 < /e2 > ”,可以看出两个实体之间的关系为“创立”。
在现有关系抽取方法中,监督关系抽取的准确率较高,但耗费大量人力资源。远程监督关系抽取方法通过数据自动对齐方式解决了大量无标签数据的自动标注问题,并且能够大幅减少标注成本,但存在知识库标注的句子有噪声、实体与关系之间表示不明确、无法准确表达句子与实体之间关系等问题。针对这些问题,研究人员提出了一系列解决方案。文献[1]提出图卷积网络,能够处理具有广义拓扑图结构的数据,并深入挖掘其实体和关系特征。文献[2]结合多实例与分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)进行远程监督关系抽取。文献[3]引入注意力机制,利用句子与关系来分配权重,通过对正确的句子与关系分配较高的权重,提升了关系抽取性能。随着深度学习技术的发展,神经网络[4-5]被广泛应用于远程监督关系提取。文献[6]提出分段卷积神经网络来建模句子表示,并选择准确的句子作为句袋表示。文献[7]使用多种神经网络作为句子编码器,并提出一种句袋内注意力机制,通过句袋中所有句子表示的加权和来计算句袋。文献[8]采用类似的注意力机制,并结合实体描述来计算权重。文献[9]提出一种软标签方法来降低噪声实例的影响。文献[10]采用双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)网络来提取句子特征,使用注意力机制来识别噪声句子以及句袋。
上述远程监督关系抽取方法利用句子嵌入的加权和来表示句袋[11],以关系感知的方式计算句袋内的注意力权重,并在训练阶段使用相同的句袋表示来计算该句袋被分类到每个关系中的概率,然而这种采取先识别实体再预测关系的端到端抽取方式会导致前一个任务的错误传递到下一个任务,并且忽略了实体与各个关系之间的联系。为解决上述问题,本文提出基于残差BiLSTM(ResNet_BiLSTM)与句袋内和句袋间注意力机制的实体关系抽取模型。通过句子嵌入的加权和计算关系感知句袋,并结合句袋注意力模块,在模型训练过程中动态计算句袋注意力权重,以解决句袋噪声问题。
1 基于ResNet_BiLSTM与句袋注意力的关系抽取本文提出一种基于ResNet_BiLSTM与句袋注意力的关系抽取模型,用于远程监督关系抽取。
![]() |
Download:
|
图 1 基于ResNet_BiLSTM与句袋注意力机制的关系抽取模型框架 Fig. 1 Framework of relationship extraction model based on ResNet_ BiLSTM and sentence bag attention mechanism |
1)句子编码器。给定一个句子和句子中两个实体的位置[12],得到句子的输入表示。
2)ResNet_BiLSTM特征提取器。由句子编码器得到的输入句子表示,通过输入ResNet_BiLSTM得到句子特征[13]表示。
3)句袋内注意力机制。给定句袋
4)句袋间注意力机制。给定一组句袋g,通过基于相似性的注意力机制来进一步计算权重矩阵
句子的特征编码由词和词的位置特征表示,在句子
首先,输入句子
$ {\boldsymbol{i}}_{t}=\sigma ({\boldsymbol{W}}_{\boldsymbol{x}\boldsymbol{i}}{\boldsymbol{x}}_{t}+{\boldsymbol{W}}_{\boldsymbol{h}\boldsymbol{i}}{\boldsymbol{h}}_{t-1}+{\boldsymbol{W}}_{\boldsymbol{c}\boldsymbol{i}}{\boldsymbol{c}}_{t-1}+{\boldsymbol{b}}_{i}) $ | (1) |
$ {\boldsymbol{f}}_{t}=\sigma ({\boldsymbol{W}}_{\boldsymbol{x}\boldsymbol{f}}{\boldsymbol{x}}_{t}+{\boldsymbol{W}}_{\boldsymbol{h}\boldsymbol{f}}{\boldsymbol{h}}_{t-1}+{\boldsymbol{W}}_{\boldsymbol{c}\boldsymbol{f}}{\boldsymbol{c}}_{t-1}+{\boldsymbol{b}}_{\boldsymbol{f}}) $ | (2) |
$ {\boldsymbol{g}}_{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{\boldsymbol{x}\boldsymbol{c}}{\boldsymbol{x}}_{t}+{\boldsymbol{W}}_{\boldsymbol{h}\boldsymbol{c}}{\boldsymbol{h}}_{t-1}+{\boldsymbol{W}}_{\boldsymbol{c}\boldsymbol{c}}{\boldsymbol{c}}_{t-1}+{\boldsymbol{b}}_{\boldsymbol{c}}) $ | (3) |
$ {\boldsymbol{c}}_{t}={\boldsymbol{i}}_{t}{\boldsymbol{g}}_{t}+{\boldsymbol{f}}_{t}{\boldsymbol{c}}_{t-1} $ | (4) |
$ {\boldsymbol{o}}_{t}=\sigma ({\boldsymbol{W}}_{\boldsymbol{x}\boldsymbol{o}}{\boldsymbol{x}}_{t}+{\boldsymbol{W}}_{\boldsymbol{h}\boldsymbol{o}}{\boldsymbol{h}}_{t-1}+{\boldsymbol{W}}_{\boldsymbol{c}\boldsymbol{o}}{\boldsymbol{c}}_{t}+{\boldsymbol{b}}_{\boldsymbol{o}}) $ | (5) |
$ {\boldsymbol{h}}_{t}={\boldsymbol{o}}_{t}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\mathrm{ }\left({\boldsymbol{c}}_{t}\right) $ | (6) |
其中:输入门
然后,ResNet_BiLSTM计算如下:
$ \boldsymbol{H}\left(\boldsymbol{x}\right)=\boldsymbol{F}\left(\boldsymbol{x}\right)+\boldsymbol{x} $ | (7) |
其中:
$ \boldsymbol{F}\left(\boldsymbol{x}\right)={\boldsymbol{W}}_{\boldsymbol{h}\boldsymbol{f}}{\boldsymbol{o}}_{t} $ | (8) |
其中:
$ {\boldsymbol{b}}_{k}^{i}=\sum\limits _{j=1}^{m}{\boldsymbol{\alpha }}_{kj}^{i}{\boldsymbol{S}}_{j}^{i} $ | (9) |
其中:
$ {\boldsymbol{\alpha }}_{jk}^{i}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{e}}_{kj}^{i}\right)}{\sum\limits _{{j}^{'}}^{mi}\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{e}}_{k{j}^{'}}^{i}\right)} $ | (10) |
其中:
$ {\boldsymbol{e}}_{kj}^{i}={\boldsymbol{r}}_{k}{\boldsymbol{s}}_{j}^{{i}^{T}} $ | (11) |
其中:
最终句袋
为解决句袋带噪问题,设计一种基于相似性的句袋间注意力模块[16]来动态地降低带噪句袋的权重。如果两个句袋
$ {\boldsymbol{g}}_{k}=\sum\limits _{i=1}^{n}{\boldsymbol{\beta }}_{ik}{\boldsymbol{b}}_{k}^{i} $ | (12) |
其中:
$ {\boldsymbol{\beta }}_{ik}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{\gamma }}_{ik}\right)}{\sum\limits _{{i}^{'}}^{n}\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{\gamma }}_{{i}^{'}k}\right)} $ | (13) |
其中:
$ {\boldsymbol{\gamma }}_{ik}=\sum\limits _{{i}^{'}=\mathrm{1, 2}, \cdots , {i}^{'}\ne i}\mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}({\boldsymbol{b}}_{k}^{i}, {\boldsymbol{b}}_{k}^{{i}^{'}}) $ | (14) |
函数相似性计算如式(15)所示:
$ \mathrm{s}\mathrm{i}\mathrm{m}\mathrm{i}\mathrm{l}\mathrm{a}\mathrm{r}\mathrm{i}\mathrm{t}\mathrm{y}\left({\boldsymbol{b}}_{k}^{i}, {\boldsymbol{b}}_{k}^{{i}^{'}}\right)={\boldsymbol{b}}_{k}^{i}{\boldsymbol{b}}_{k}^{{i}^{\text{'}T}} $ | (15) |
在计算式(12)~式(15)前,首先所有句袋表示
$ \overline{{\boldsymbol{b}}_{k}^{i}}=\frac{{\boldsymbol{b}}_{k}^{i}}{{‖{\boldsymbol{b}}_{k}^{i}‖}_{2}} $ | (16) |
然后第k个关系得分
$ {\boldsymbol{o}}_{k}={\boldsymbol{r}}_{k}{\boldsymbol{g}}_{k}^{\mathrm{T}}+{\boldsymbol{d}}_{k} $ | (17) |
其中:
最后使用Softmax函数获得句袋组g被分类为第k个关系的概率,如式(18)所示:
$ p\left(k|\boldsymbol{g}\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{o}}_{k}\right)}{\sum\limits _{{k}^{'}=1}^{h}\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({\boldsymbol{o}}_{{k}^{'}}\right)} $ | (18) |
需要注意的是,相同的关系嵌入矩阵R用于计算式(11)和式(16),类似的dropout损失率用于句袋表示
基于ResNet_BiLSTM与句袋内和句袋间注意力机制的关系抽取模型实现过程具体如下:
1)数据处理。首先训练集中的所有句子包含相同的两个实体,将其累加到一个句袋,然后对于每n个共用的句袋,将相同的关系标签放入一个句袋中,需要注意的是,一个句袋组是一个训练样本。因此,该模型也可以在小批量模式下通过打包多个句袋组成一批句袋。
2)目标函数优化。优化公式如式(19)所示:
$ J\left(\boldsymbol{\theta }\right)=-\sum\limits _{(\boldsymbol{g}, k)\in T}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}p\left(k\right|\boldsymbol{g};\boldsymbol{\theta }) $ | (19) |
其中:
3)训练和测试。在训练阶段,将具有相同关系标签的n个句袋累积到1个句袋组中,并计算句袋表示的加权和,以获得句袋组g的表示。由于每个句袋的标签在测试阶段是未知的,因此在处理测试组时,每个句袋被视为一个句袋组(即n=1)。此外,与文献[15]类似,仅对正样本应用句袋间注意力机制,其原因是表示无关系的句袋表示形式是多样的,难以计算权重。
4)预训练。在实验中采用预训练策略,首先对模型进行句袋内训练,直到收敛,然后添加句袋间注意力机制模块,进一步更新模型参数,直至再一次收敛。初步的实验结果表明,预训练策略相比于句袋间注意力机制能够获得更好的模型性能。
2 实验设置与结果分析 2.1 数据集和评价指标选取实验采用NYT(New York Times)数据集。该数据集由文献[21]发布并得到广泛使用,基于远程监督关系提取研究,将Freebase知识库中的三元组和NYT数据集中的文本对齐生成,包含52个实际关系和1个特殊关系NA,其中NA表明2个实体之间没有关联性。
在计算机上使用NVIDIA GTX 1080 Ti显卡运行程序,采用精确率-召回率(Precision-Recall,PR)、曲线下面积(Area Under the Curve,AUC)和精确率(Precision,P)@N(P@N)[22]来评估模型性能。P@N采用One、Two和All测试集,其中,One表示对测试集中每个实体对随机选择一个句子,通过这一个句子对关系进行预测,Two表示对测试集中每个实体对随机选择两个句子,通过这两个句子对关系进行预测,All表示对测试集中每个实体对选择所有句子对关系进行预测,mean表示对求得的结果取平均值。P@N使用了前N个实例的准确率,其中N取100、200、300。
2.2 训练细节和超参数设置在实验中,使用的多数超参数遵循文献[23]中的设置,如表 1所示。在初始化时采用文献[19]发布的50维单词嵌入。2个不同批量大小
![]() |
下载CSV 表 1 实验超参数设置 Table 1 Setting of experimental superparameters |
选取文献[24]中的11种模型与本文ResNet_BiLSTM+ATT_RA+BAG_ATT模型进行性能对比,其中,CNN、PCNN和ResNet_BiLSTM分别表示不同句子编码方式,ATT_BL表示基于句袋内注意力,ATT_RA表示基于关系感知的句袋内注意力机制,BAG_ATT表示基于句袋间注意力。在训练阶段,用于计算注意力权重的关系查询向量被固定为与每个句袋的远程监督标签相关联的嵌入向量[25-26]。在测试阶段,所有关系查询向量都被应用于分别计算关系的后验概率,选择概率高的结果作为分类结果,给出所有模型的AUC值的平均值和标准差如表 2所示。
![]() |
下载CSV 表 2 不同模型的AUC值比较 Table 2 Comparison of AUC values of different models |
为进行定量比较,还绘制了所有模型的PR曲线图如图 2~图 4所示。由图 2~图 4可以看出:
![]() |
Download:
|
图 2 CNN句子编码的PR曲线 Fig. 2 PR curves of CNN sentence coding |
![]() |
Download:
|
图 3 PCNN句子编码的PR曲线 Fig. 3 PR curves of PCNN sentence coding |
![]() |
Download:
|
图 4 ResNet_BiLSTM句子编码的PR曲线 Fig. 4 PR curves of ResNet_BiLSTM sentence coding |
1)ResNet_BiLSTM作为句子编码器相比于CNN、PCNN表现更好。
2)使用ResNet_BiLSTM、CNN或PCNN作为句子编码器时,ATT_RA优于ATT_BL,主要原因为ATT_BL在训练时推导出句袋表示时仅考虑目标关系,而ATT_RA以所有关系嵌入作为查询,计算出句袋内的注意力权重,提高了句袋表示的灵活性。
3)对于3种句子编码器和2种句袋内注意力机制,带有句袋注意力机制的模型相比于其他模型具有更好的性能,这一结果验证了句袋间注意力机制用于远程监督关系提取的有效性。
可见,将ResNet_BiLSTM作为句子编码器并与句袋内和句袋间注意力机制相结合可获得最佳AUC性能。
2.4 句袋内注意力机制对模型性能的影响通过实验验证句袋内注意力机制对模型性能的影响,随机选择实体对的1句、2句和所有句子进行测试并构造One、Two、All这3个测试集,实验结果如表 3所示。
![]() |
下载CSV 表 3 在3种测试集上的模型P@N比较 Table 3 Comparison of P@N of models on three test sets |
由表 3可以看出,ResNet_BiLSTM+ATT_AL+BAG_ATT具有较高的P@N值,无论采用ResNet_BiLSTM还是BAG_ATT,ATT_RA在所有实体对测试集上均优于ATT_BL。由于当一个句袋中只有一个句子时,ATT_BL和ATT_RA的解码程序是相同的,因此从ATT_BL到ATT_RA的改进可归因于ATT_RA在训练阶段以关系感知的方式计算句袋内注意力权重。
2.5 句袋间注意力权重分布将句袋中的句子数设置为5进行句袋间注意力计算,每个句袋首先使用BAG_ATT模型来计算句袋间注意力机制的权重,然后计算训练集各部分句袋间注意力权重的平均值和标准差,如表 4所示。由表 4可以看出,训练句子数量较少的句袋通常被分配较低的句袋间注意力权重,且训练句子数量较少的实体对更可能有不正确的关系标签。
![]() |
下载CSV 表 4 不同句子数的句袋间注意力权重分布 Table 4 Distribution of attention weight between inter-sentence bags with different number of sentences |
本文提出基于ResNet_BiLSTM与句袋内和句袋间注意力机制的实体关系抽取模型。引入残差连接采集句子特征信息,保留句子在前后传递过程中的特征信息。通过BiLSTM进行句子特征信息识别与训练,解决了反向特征依赖问题。使用句袋内注意力机制,对正向实体与关系赋予更高权重,提高识别准确性。采用句袋间注意力机制,缓解了在提取句子中的关系时的噪声句袋问题。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,具有更好的关系抽取性能。下一步将使用实体关系与句子的分区过滤策略,并结合BERT提取语义特征,进一步提高关系抽取的准确性和灵活性。
[1] |
HAN S Q, HAO X L, HUANG H L. An event-extraction approach for business analysis from online Chinese news[J]. Electronic Commerce Research and Applications, 2018, 28: 244-260. DOI:10.1016/j.elerap.2018.02.006 |
[2] |
FENG J, HUANG M L, ZHAO L, et al. Reinforcement learning for relation classification from noisy data[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2018: 1-9.
|
[3] |
ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2020, 3(3): 1083-1106. |
[4] |
孙紫阳, 顾君忠, 杨静. 基于深度学习的中文实体关系抽取方法[J]. 计算机工程, 2018, 44(9): 164-170. SUN Z Y, GU J Z, YANG J. Chinese entity relation extraction method based on deep learning[J]. Computer Engineering, 2018, 44(9): 164-170. (in Chinese) |
[5] |
鄂海红, 张文静, 肖思琪, 等. 深度学习实体关系抽取研究综述[J]. 软件学报, 2019, 30(6): 1793-1818. E H H, ZHANG W J, XIAO S Q, et al. Survey of entity relationship extraction based on deep learning[J]. Journal of Software, 2019, 30(6): 1793-1818. (in Chinese) DOI:10.13328/j.cnki.jos.005817 |
[6] |
BUNESCUR C, MOONEYR J. A shortest path dependency kernel for relation extraction[C]//Proceedings of Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Philadelphia, USA: Association for Computational Linguistics, 2005: 724-731.
|
[7] |
KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the 43rd ACL International Conference. Philadelphia, USA: Association for the Computational Linguistics, 2017: 178-181.
|
[8] |
UDDIN J, GHAZALI R, DERIS M M. Does number of clusters effect the purity and entropy of clustering[C]//Proceedings of 2016 International Conference on Soft Computing and Data Mining. Berlin, Germany: Springer, 2016: 355-365.
|
[9] |
RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI:10.1007/s11263-015-0816-y |
[10] |
CHEN C M, GUAN D J, SU Q K. Feature set identification for detecting suspicious URLs using Bayesian classification in social networks[J]. Information Sciences, 2014, 289: 133-147. DOI:10.1016/j.ins.2014.07.030 |
[11] |
ZHANG M, ZHANG J, SU J, et al. A composite kernel to extract relations between entities with both flat and structured features[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2006: 825-832.
|
[12] |
QIN P D, XU W R, WANG W Y. Robust distant supervision relation extraction via deep reinforcement learning[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2018: 203-209.
|
[13] |
LI L F, NIE Y P, HAN W H, et al. A multi-attention-based bidirectional long short-term memory network for relation extraction[C]//Proceedings of International Conference on Neural Information Processing. Berlin, Germany: Springer, 2017: 216-227.
|
[14] |
CASO A, ROSSI S. Users ranking in online social networks to support POI selection in small groups[C]//Proceedings of International Conference on Neural Information Processing. Berlin, Germany: Springer, 2020: 104-107.
|
[15] |
GAO J, ZHOU T. Evaluating user reputation in online rating systems via an iterative group-based ranking method[J]. Physica A: Statistical Mechanics and Its Applications, 2017, 473: 546-560. DOI:10.1016/j.physa.2017.01.055 |
[16] |
PENG N Y, POON H, QUIRK C, et al. Cross-sentence N-ary relation extraction with graph LSTMs[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 101-115. DOI:10.1162/tacl_a_00049 |
[17] |
HUANG YI Y, WANG W Y. Deep residual learning for weakly supervised relation extraction[J]. Journal of Machine Learning Research, 2019, 4(2): 103-106. |
[18] |
DIETTERICH T G, LATHROP R H, LOZANO-PÉREZ T. Solving the multiple instance problem with axis-parallel rectangles[J]. Artificial Intelligence, 1997, 89(1/2): 31-71. |
[19] |
HAO Y C, ZHANG Y Z, LIU K, et al. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2017: 221-231.
|
[20] |
LIU H C, YOU J X, LI Z W, et al. Fuzzy Petri nets for knowledge representation and reasoning: a literature review[J]. Engineering Applications of Artificial Intelligence, 2017, 60(C): 45-56. |
[21] |
LIN Y K, SHEN S Q, LIU Z Y, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2016: 2124-2133.
|
[22] |
刘正铭, 马宏, 刘树新, 等. 一种融合节点文本属性信息的网络表示学习算法[J]. 计算机工程, 2018, 44(11): 165-171. LIU Z M, MA H, LIU S X, et al. A network representation learning algorithm fusing with textual attribute information of nodes[J]. Computer Engineering, 2018, 44(11): 165-171. (in Chinese) |
[23] |
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. |
[24] |
YE Z X, LING Z H. Distant supervision relation extraction with intra-bag and inter-bag attentions[EB/OL]. [2021-09-11]. https://arxiv.org/pdf/1904.00143.pdf.
|
[25] |
YAN X, MOU L L, LI G, et al. Classifying relations via long short term memory networks along shortest dependency path[EB/OL]. [2021-09-11]. https://arxiv.org/abs/1508.03720.
|
[26] |
KILINC O, UYSAL I. GAR: an efficient and scalable graph-based activity regularization for semi-supervised learning[J]. Neurocomputing, 2018, 296: 46-54. |