文本蕴含识别也称为自然语言推理, 是一项基础而又重要的自然语言处理任务。该任务给定前提文本(P)与假设文本(H), 然后从语义层面识别出P和H之间的单向推理关系, 包括蕴含、矛盾、中立3种关系[1], 并且在文本蕴含识别任务上所取得的进展可进一步提高文本摘要、语义搜索、阅读理解和问答等任务的性能[2]。
早期研究多数采用统计及机器学习方法进行文本蕴含识别[3]。近年来, 端到端训练的神经网络模型在阅读理解、情感分析和机器翻译等自然语言处理任务中表现出色, 由此研究人员提出了一些组合多种神经网络和注意力机制的文本蕴含识别模型, 并且经过大量数据训练, 取得了相当高的训练精度。这些文本蕴含识别模型大致可以分为两类。一类侧重编码器设计, 能够较好地对句子特征进行编码, 并且整体网络结构简单, 是早期的主流方向。文献[4]使用长短期记忆(Long Short-Term Memory, LSTM)网络分别学习前提和假设的句子表示并对其进行串联及分类。文献[5]进一步使用双向LSTM(Bi-directional LSTM, BiLSTM)网络对句子进行编码, 并运用句子内自注意力机制更好地增强句子编码能力。文献[6]设计HBMP模型进行句子编码, 相比使用单一的BiLSTM层效果更佳。另一类注重句间交互, 引入句间注意力机制提取句子之间的语义信息, 能够更好地识别句子之间的语义关系。文献[7]提出一个逐词注意力模型, 对文本中隐含的前提和假设之间的关系进行编码。文献[8]对文献[7]做了进一步扩展, 解决了学习注意力权重前提下单个向量表示的局限性问题。文献[9]提出双向多视角匹配机制, 分析并对比了多种注意力机制的匹配策略。文献[10]提出一种增强序列推理模型(Enhanced Sequential Inference Model, ESIM), 利用两层不同的BiLSTM网络和注意力机制对文本进行编码。
但是由于上述模型仅从训练数据中学习推理知识, 受限于训练数据集规模, 导致模型泛化能力较弱[11], 因此文献[12]利用WordNet作为外部知识, 增强了模型在不同测试集上的泛化能力, 为结合外部知识的相关研究提供了参考。文献[13]在模型中使用多个英文知识库, 并引入知识图概念, 提高了模型识别性能。然而, 基于神经网络的文本蕴含识别在中文领域的研究较少[14], 且知网(HowNet)等中文外部语义知识库与WordNet知识库有较大区别, 使得无法直接迁移并应用基于英文数据集的文本蕴含识别模型。因此, 本文提出中文知识增强推理模型(Chinese Knowledge Enhanced Inference Model, CKEIM), 通过分析中文语义知识库的特点, 精确提取词级的语义知识特征以构建注意力权重矩阵, 同时将其融入神经网络训练过程。
1 知识库处理 1.1 知识库结构分析HowNet知识库[15]的层次结构为词语-义项-义原, 其包含2 000多个基础义原, 将词语从语义上进行拆分, 同一个词语的不同含义分为多个义项, 每个义项又由多个义原组合而来。如图 1所示, 词语"苹果"有多种含义, 分别代表"电脑""手机""水果"以及"树木"。每一种含义表示一个义项, 用多个义原加以注解。在HowNet中, 使用"样式值""携带""特定品牌"和"电脑"等义原描述"苹果"表示电脑品牌时的义项, 并以树状结构进行组织。本文忽略了义原之间的结构关系, 并且对于每个词语, 将其所有的义原归类为无序集。
![]() |
Download:
|
图 1 HowNet结构示意图 Fig. 1 Schematic diagram of HowNet structure |
同义词词林[16]将中文同义词以及同类词进行划分和归类, 分为5层层次结构, 其中1层~4层仅包含分类编码信息, 没有具体词汇。本文使用改进版同义词词林[17]将原子词群中较抽象的概念提取到1层~4层的分类节点中, 使1层~4层的分类节点包含代表整个类别的具体概念, 如提取"生物""人""植物""动物"等抽象概念并将其放置于大、中、小3类高层节点中。
为方便表述, 本文使用的符号定义如下:HowNet中所有的义原、义项和词语集合分别表示为ε、S和W; 语料库包含K=|ε|个义原、M=|S|个义项以及N=|W|个词语; Sw表示词语w∈W所包含的义项集合; εw⊂ε=
通过HowNet知识库结构可知, 在使用HowNet知识库计算两个词语的相似度时, 如"苹果"和"梨"的相似度, 由于"梨"只有"水果"1种义项, 而"苹果"有"电脑""水果""手机""树木"4种义项, 这样就会出现4个差距相当大的相似度, 如果取相似度的最大值或者平均值, 则会造成误差, 而在相互为多义词的词语之间计算相似度会产生更大的误差。本文设计一个义项选择器结构, 如图 2所示, 在模型训练时根据词语p5的上下文信息p1、p6等, 计算出其与各个义原匹配的概率, 进而选出当前词语p5所代表的真正义项, 然后进行词语间的相似度计算。
![]() |
Download:
|
图 2 义项选择器结构 Fig. 2 Structure of sense selector |
对于义原概率预测器, 假设给定上下文w1, w2, …, wt, …, wn, 经过BiLSTM网络编码后, 得到词语wt的上下文向量
$ \varphi _k^t\left( {{e_k}|{\mathit{\boldsymbol{g}}_t}} \right) = \sigma \left( {{{({\mathit{\boldsymbol{g}}_t})}^{\rm{T}}}\mathit{\boldsymbol{v}}_k^t + b_k^t} \right), {e_k}{\varepsilon ^{{w_t}}} $ | (1) |
其中:
对于义项概率预测器, 由于一个义项会包含一个或多个义原, 因此根据在义原概率预测器中得到的ek与
$ P\left( {s|{\mathit{\boldsymbol{g}}_t}} \right) = \frac{1}{{\left| {{\varepsilon ^s}} \right|}}\mathop \sum \limits_{{e_k} \in {\varepsilon ^s}}^\; \varphi _k^t\left( {{e_k}|{\mathit{\boldsymbol{g}}_t}} \right), s \in {S^{{w_t}}} $ | (2) |
由以上设计的义项选择器可计算出词语wt在当前语境下概率最大的义项smax。在确定义项后, 根据混合层次结构的HowNet词语相似度计算方法[19], 精确计算出词语wi和wj在具体语境中的相似度Zij。
由于提取的同义词词林特征包含词语相似度特征以及词语上下位特征, 因此将基于信息内容的词林词语相似度计算方法[17]作为相似度特征的提取方法, 使提取到的词语wi和wj之间的相似度表示为Cij。同义词词林共5层结构, 设层次结构中两个词语之间的距离为n, 可提取的词语间上下位信息具体包括:
1) 上位词特征Sij:如果一个词语wj是另一个词语wi的上位词, 该特征取值为1-n/4, 如[苹果, 水果]=0.75, [苹果, 植物]=0.5。
2) 下位词特征Xij:与上位词特征正好相反, 如[水果, 苹果]=0.75。
最终将外部语义知识库中提取到的4个特征组合成特征向量
在CKEIM模型中, 设前提语句p=[p1, p2, …,
$ {\mathit{\boldsymbol{\bar p}}_i} = {\rm{BiLSTM}}\left( {E\left( \mathit{\boldsymbol{p}} \right),i} \right),\forall i \in \left\{ {1,2, \ldots ,{l_p}} \right\} $ | (3) |
$ {\mathit{\boldsymbol{\bar h}}_j} = {\rm{BiLSTM}}\left( {E\left( \mathit{\boldsymbol{h}} \right),j} \right),\forall j \in \left\{ {1,2, \ldots ,{l_h}} \right\} $ | (4) |
其中, (E(p), i)表示前提语句p的第i个词语初始化后的词向量, (E(h), j)表示假设语句h的第j个词语始化后的词向量。
根据HowNet知识库中提取的词语相似度特征Zij, 结合BiLSTM网络输出的隐层向量
$ {M_{ij}} = {U_{ij}} + \lambda {Z_{ij}} $ | (5) |
其中, λ为超参数。将得到的注意力权重归一化后可得到注意力权重矩阵
$\mathit{\boldsymbol{p}}_i^m = \mathop \sum \limits_{j = 1}^{{l_h}} {\mu _{ij}}{\mathit{\boldsymbol{\bar h}}_j}, {\mathit{\boldsymbol{\mu }}_{ij}} = \frac{{{\rm{exp}}\left( {{M_{ij}}} \right)}}{{\mathop \sum\limits_{k = 1}^{{l_h}} {\rm{exp}}\left( {{M_{ik}}} \right)}}$ | (6) |
$\mathit{\boldsymbol{h}}_j^m = \mathop \sum \limits_{i = 1}^{{l_p}} {\mathit{\boldsymbol{\eta }}_{ij}}{\mathit{\boldsymbol{\bar p}}_i}, {\mathit{\boldsymbol{\eta }}_{ij}} = \frac{{{\rm{exp}}\left( {{M_{ij}}} \right)}}{{\mathop \sum\limits_{k = 1}^{{l_p}} {\rm{exp}}\left( {{M_{kj}}} \right)}}$ | (7) |
将上下文向量
$\mathit{\boldsymbol{p}}_i^c = F\left( {\left[ {{{\mathit{\boldsymbol{\bar p}}}_i};\mathit{\boldsymbol{p}}_i^m;{{\mathit{\boldsymbol{\bar p}}}_i} - \mathit{\boldsymbol{p}}_i^m;{{\mathit{\boldsymbol{\bar p}}}_i} \odot \mathit{\boldsymbol{p}}_i^m;\mathop \sum \limits_{j = 1}^{{l_h}} {\mathit{\boldsymbol{\mu }}_{ij}}{\mathit{\boldsymbol{R}}_{ij}}} \right]} \right)$ | (8) |
$ \mathit{\boldsymbol{h}}_j^c = F\left( {\left[ {{{\mathit{\boldsymbol{\bar h}}}_j};\mathit{\boldsymbol{h}}_j^m;{{\mathit{\boldsymbol{\bar h}}}_j} - \mathit{\boldsymbol{h}}_j^m;{{\mathit{\boldsymbol{\bar h}}}_j} \odot \mathit{\boldsymbol{h}}_j^m;\mathop \sum \limits_{i = 1}^{{l_p}} {\mathit{\boldsymbol{\eta }}_{ij}}{\mathit{\boldsymbol{R}}_{ji}}} \right]} \right) $ | (9) |
其中, F是前馈神经网络, 其以ReLU为激活函数。
经过拼接并降维后得到的关系向量包含了大量词语间的推理信息, 需要进行组合并提取出语句级的推理信息, 因此再用一层BiLSTM网络进一步收集并组合这些信息, 提取前提和假设文本之间语句级的推理关系, 得到包含语句级推理关系的向量
$ \mathit{\boldsymbol{p}}_i^v = {\rm{BiLSTM}}\left( {\mathit{\boldsymbol{p}}_i^c, i} \right) $ | (10) |
$ \mathit{\boldsymbol{h}}_i^v = {\rm{BiLSTM}}\left( {\mathit{\boldsymbol{h}}_i^c, i} \right) $ | (11) |
首先将输出的隐层向量
![]() |
Download:
|
图 3 CKEIM模型结构 Fig. 3 Structure of CKEIM model |
本文在RITE和CNLI两个中文文本蕴含数据集上进行相关实验。
1) RITE:该数据集收集了2012年和2014年日本国立情报学研究所组织的NTCIR项目发布的2 600个文本对, 其中, 训练集中有2 000个文本对, 测试集中有600个文本对。数据集涵盖多音字、同音字等多种语言现象, 包括人文、历史、政治等多种题材, 并且以识别准确率作为评价标准。
2) CNLI:该数据集由SNLI数据集通过机器翻译和人工筛选得到, 包括145 000个文本对, 其中, 训练集有125 000个文本对, 验证集和测试集各有10 000个文本对, 分类结果包括蕴含、矛盾和中立3种关系, 每个文本对具有唯一的标签, 并且以识别准确率作为评价标准。
3.2 实验参数设置CKEIM模型的实验参数设置如下:单词嵌入与BiLSTM网络隐藏层的维度均为200维, 使用腾讯AI实验室[20]发布的200维中文词向量初始化词嵌入, 词表中不存在的词语会随机初始化; 将Adam[21]作为随机梯度优化策略, 初始化学习率为0.000 4, 批处理(Mirri-batch)大小为32;利用哈尔滨工业大学的LTP语言云[22]作为中文分词工具。
为便于对比, ESIM等基线模型的实验参数、实验环境、实验设置与CKEIM模型相同。首先从集合{0.2, 0.5, 1, 1.5, 2, 5, 10, 15, 20}中依次选取计算注意力权重的超参数λ并在训练集上进行训练。然后根据测试集的实验结果选择效果最优的λ值, 再以此λ值为基础, 通过调整±(0.1~0.5)的步长改变λ值, 直到找到实验效果最优的λ值。最后得到CNLI数据集的最佳λ值为1, RITE数据集的最佳λ值为20。
3.3 结果分析表 1为本文CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型[5]、BiLSTM+最大池化层模型[6]、HBMP模型[6]和ESIM模型[10]在大规模CNLI数据集上的识别准确率对比。由于在神经网络中结合外部知识的文本蕴含识别模型都是基于英文知识库, 无法在中文数据集上进行比较, 因此本文选择其基础模型ESIM作为主要基线模型, 同时与其他经典模型进行对比。表 2为CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型、HBMP模型和ESIM模型在小规模RITE数据集上的识别准确率对比。
![]() |
下载CSV 表 1 6种模型在CNLI数据集上的识别准确率对比 Table 1 Comparison of recognition accuracy of six models on CNLI dataset |
![]() |
下载CSV 表 2 5种模型在RITE数据集上的识别准确率对比 Table 2 Comparison of recognition accuracy of five models on RITE dataset |
由表 1可以看出, CKEIM模型在大规模CNLI数据集上达到81.4%的识别准确率, 比ESIM模型提高了0.9个百分点, 也明显优于其他经典模型。由表 2可以看出, CKEIM模型在小规模RITE数据集上优势更加明显, 超出ESIM模型3.3个百分点。可见, CKEIM模型在两种数据集上都要优于ESIM基线模型及其他经典模型, 且在小规模RITE数据集上优势更加明显, 因此其泛化能力更强, 从而说明本文CKEIM模型通过将中文外部语义知识融入神经网络, 提高了模型识别准确率和泛化能力。
为比较不同规模训练集下外部语义知识对识别效果的影响, 更进一步验证模型识别准确率和泛化能力, 将CNLI数据集进行拆分并在整个训练集上随机采样得到原训练集4%、15%、50%和100%数据规模的训练集, 然后分别在这些训练集上对本文CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型、HBMP模型和ESIM模型进行训练, 得到如表 3所示的实验结果, 并据此得到如图 4所示的柱状图, 其中:对于4%和15%数据规模的训练集, 设置最佳λ值为5;对于50%和100%数据规模的训练集, 设置最佳λ值为1。
![]() |
下载CSV 表 3 5种模型在不同训练集规模下的识别准确率对比 Table 3 Comparison of recognition accuracy of five models at different training set scales |
![]() |
Download:
|
图 4 不同训练集规模下的模型识别准确率对比 Fig. 4 Comparison of model recognition accuracy at different training set scales |
由表 3和图 4的数据可以看出, 当训练数据非常有限时, 即只有4%数据规模的训练集时, ESIM模型的识别准确率为59.5%, 而CKEIM模型为63.0%, 超出其3.5个百分点。在15%、50%和100%数据规模的训练集下识别准确率始终都高于ESIM模型, 提升比例分别为3.7%、1.5%和0.9%, 整体呈递减趋势。该结果进一步说明融合外部语义知识的CKEIM模型具有更好的识别性能和泛化能力, 且训练数据量越小, 增强效果越明显。
4 结束语本文提出一种基于外部语义知识的CKEIM模型, 从HowNet和同义词词林知识库中提取外部知识, 建立注意力权重矩阵并组成特征向量融入神经网络训练过程中, 增强模型识别性能和泛化能力。实验结果表明, CKEIM模型在不同规模的训练集下的识别准确率均优于对比模型, 并且训练数据量越小, 其识别准确率和泛化能力的增强效果越明显。后续工作可将中文知识图谱融入神经网络训练过程中, 进一步提高CKEIM模型的识别准确率及鲁棒性。
[1] |
GUO Maosheng, ZHANG Yu, LIU Ting. Research advances and prospect of recognizing textual entailment and knowledge acquisition[J]. Chinese Journal of Computers, 2017, 40(4): 119-140. (in Chinese) 郭茂盛, 张宇, 刘挺. 文本蕴含关系识别与知识获取研究进展及展望[J]. 计算机学报, 2017, 40(4): 119-140. |
[2] |
MACCARTNEY B, MANNING C D. Natural language inference[M]. Stanford, USA: Stanford University, 2009.
|
[3] |
ZHANG Zhichang, YAO Dongren, LIU Xia, et al. Textual entailment recognition fused with syntactic structure transformation and lexical semantic features[J]. Computer Engineering, 2015, 41(9): 199-204. (in Chinese) 张志昌, 姚东任, 刘霞, 等. 融合句法结构变换与词汇语义特征的文本蕴涵识别[J]. 计算机工程, 2015, 41(9): 199-204. DOI:10.3969/j.issn.1000-3428.2015.09.037 |
[4] |
BOWMAN S R, ANGELI G, POTTS C, et al.A large annotated corpus for learning natural language inference[EB/OL].[2019-11-15].https://arxiv.org/abs/1508.05326.
|
[5] |
CHEN Qian, ZHU Xiaodan, LING Zhenhua, et al.Recurrent neural network-based sentence encoder with gated attention for natural language inference[EB/OL].[2019-11-15].https://arxiv.org/abs/1708.01353.
|
[6] |
TALMAN A, YLI-JYRÄ A, TIEDEMANN J.Natural language inference with hierarchical BiLSTM max pooling architecture[EB/OL].[2019-11-15].https://arxiv.org/abs/1808.08762v1.
|
[7] |
ROCKTÄSCHEL T, GREFENSTETTE E, HERMANN K, et al.Reasoning about entailment with neural attention[EB/OL].[2019-11-15].https://arxiv.org/abs/1509.06664.
|
[8] |
WANG Shuohang, JIANG Jing.Learning natural language inference with LSTM[EB/OL].[2019-11-15].https://arxiv.org/abs/1512.08849.
|
[9] |
WANG Z, HAMZA W, FLORIAN R.Bilateral multi-per-spective matching for natural language sentences[EB/OL].[2019-11-15].https://arxiv.org/abs/1702.038
|
[10] |
CHEN Qian, ZHU Xiaodan, LING Zhenhua, et al.Enhanced LSTM for natural language inference[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Philadelphia, USA: Association for Computational Linguistics, 2017: 1657-1668.
|
[11] |
GLOCKNER M, SHWARTZ V, GOLDBERG Y.Breaking NLI systems with sentences that require simple lexical inferences[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Philadelphia, USA: Association for Computational Liguistics, 2018: 650-655.
|
[12] |
CHEN Qian, ZHU Xiaodan, LING Zhenhua, et al.Neural natural language inference models enhanced with external knowledge[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Philadelphia, USA: Association for Computational Liguistics, 2018: 2406-2417.
|
[13] |
WANG X, KAPANIPATHI P, MUSA R, et al.Improving natural language inference using external knowledge in the science questions domain[C]//Proceedings of AAAI Conference on Artificial Intelligence.Palo Alto, USA: AAAI Press, 2019: 7208-7215.
|
[14] |
TAN Yongmei, LIU Shuwen, LÜ Xueqiang. CNN and BiLSTM based Chinese textual entailment recognition[J]. Journal of Chinese Information Processing, 2018, 32(7): 11-19. (in Chinese) 谭咏梅, 刘姝雯, 吕学强. 基于CNN与双向LSTM的中文文本蕴含识别方法[J]. 中文信息学报, 2018, 32(7): 11-19. |
[15] |
DONG Zhendong, DONG Qiang.HowNet-a hybrid language and knowledge resource[C]//Proceedings of International Conference on Natural Language Processing and Knowledge Engineering.Washington D.C.: IEEE Press, 2003: 820-824.
|
[16] |
MEI Jiaju. Synonym CiLin[M]. Shanghai: Shanghai Lexicographic Publishing House, 1983. (in Chinese) 梅家驹. 同义词词林[M]. 上海: 上海辞书出版社, 1983. |
[17] |
PENG Qi, ZHU Xinhua, CHEN Yishan, et al. IC-based approach for calculating word semantic similarity in CiLin[J]. Application Research of Computers, 2018, 35(2): 400-404. (in Chinese) 彭琦, 朱新华, 陈意山, 等. 基于信息内容的词林词语相似度计算[J]. 计算机应用研究, 2018, 35(2): 400-404. DOI:10.3969/j.issn.1001-3695.2018.02.018 |
[18] |
NIU Yibin, XIE Ruobing, LIU Zhiyuan, et al.Improved word representation learning with sememes[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Philadelphia, USA: Association for Computational Linguistics, 2017: 2049-2058.
|
[19] |
LIU Jiangming, XU Jinan, ZHANG Yujie.An approach of hybrid hierarchical structure for word similarity computing by HowNet[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing.Washington D.C., USA: IEEE Press, 2013: 927-931.
|
[20] |
SONG Y, SHI S M, LI J, et al.Directional skip-gram: explicitly distinguishing left and right context for word embeddings[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Philadelphia, USA: Association for Computational Linguistics, 2018: 175-180.
|
[21] |
KINGMA D P, BA J.Adam: a method for stochastic optimization[EB/OL].[2019-11-15].https://arxiv.org/abs/1412.6980.
|
[22] |
CHE Wanxiang, LI Zhenghua, LIU Ting.LTP: a Chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations.Philadelphia, USA: Association for Computational Linguistics, 2010: 13-16.
|