基于BiLSTM-CRF的细粒度知识图谱问答

引用本文

张楚婷, 常亮, 王文凯, 等. 基于BiLSTM-CRF的细粒度知识图谱问答[J]. 计算机工程, 2020, 46(2), 41-47. DOI: 10.19678/j.issn.1000-3428.0053810.

ZHANG Chuting, CHANG Liang, WANG Wenkai, et al. Fine-grained Question Answering over Knowledge Graph Based on BiLSTM-CRF[J]. Computer Engineering, 2020, 46(2), 41-47. DOI: 10.19678/j.issn.1000-3428.0053810.

基金项目

国家自然科学基金（U1711263，U1811264）；广西创新驱动发展专项（科技重大专项）（AA17202024）

作者简介

张楚婷(1993-), 女, 硕士研究生, 主研方向为自然语言处理、智能问答;
常亮, 教授、博士;
王文凯, 硕士研究生;
陈红亮, 硕士研究生;
宾辰忠, 讲师、博士

文章历史

收稿日期：2019-01-25
修回日期：2019-03-14

Contents Abstract Full text Figures/Tables PDF

基于BiLSTM-CRF的细粒度知识图谱问答

张楚婷^a , 常亮^a , 王文凯^a , 陈红亮^a , 宾辰忠^b

a. 桂林电子科技大学广西可信软件重点实验室, 广西桂林 541004;
b. 桂林电子科技大学卫星导航定位与位置服务国家地方联合工程研究中心, 广西桂林 541004

收稿日期：2019-01-25；修回日期：2019-03-14

基金项目：国家自然科学基金（U1711263，U1811264）；广西创新驱动发展专项（科技重大专项）（AA17202024）

作者简介：张楚婷(1993-), 女, 硕士研究生, 主研方向为自然语言处理、智能问答; 常亮, 教授、博士; 王文凯, 硕士研究生; 陈红亮, 硕士研究生; 宾辰忠, 讲师、博士.

E-mail: 1011738731@qq.com

摘要：基于知识图谱的问答中问句侯选主实体筛选步骤繁琐，且现有多数模型忽略了问句与关系的细粒度相关性。针对该问题，构建基于BiLSTM-CRF的细粒度知识图谱问答模型，其中包括实体识别和关系预测2个部分。在实体识别部分，利用BiLSTM-CRF模型提高准确性，并将N-Gram算法与Levenshtein距离算法相结合用于候选主实体的筛选，简化候选主实体筛选过程。在关系预测部分，分别应用注意力机制和卷积神经网络从语义层次和词层次捕获问句与关系之间的相互联系。使用FreeBase中的FB2M和FB5M评估数据集进行实验，结果表明，与针对单一关系的问答方法相比，该模型对于实体关系对的预测准确率更高。

Fine-grained Question Answering over Knowledge Graph Based on BiLSTM-CRF

ZHANG Chuting^a , CHANG Liang^a , WANG Wenkai^a , CHEN Hongliang^a , BIN Chenzhong^b

a. Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China;
b. National-Local Joint Engineering Research Center for Satellite Navigation Positioning and Location Service, Guilin University of Electronic Technology, Guilin, Guangxi 541004, China

Abstract: Question answering over knowledge graph is complex in the filtering of candidate master entities of questions, and most existing models ignore the fine-grained correlation between questions and relationships.To address the problem, this paper proposes a fine-grained question answering model over knowledge graph based on BiLSTM-CRF.The model is divided into two parts: entity recognition and relationship prediction.In the entity recognition part, the model uses the BiLSTM-CRF algorithm to improve accuracy, and the N-Gram algorithm is combined with the Levenshtein Distance algorithm to simplify the filtering process of candidate master entities.In the relationship prediction part, attention mechanism and Convolutional Neural Network(CNN) are used to capture the correlation between questions and relationships at the semantic level and the word level.Experimental results on the FB2M and FB5M evaluation datasets in FreeBase show that the proposed model has higher accuracy of entity relationship pair prediction compared with existing question answering methods for a single relationship.

0 概述

随着知识图谱的发展, 基于知识图谱的各项应用研究也不断深入。在深度学习技术未被广泛应用前, 传统的问答旨在用语义解析的方式将自然语言问句通过语义解析器转换为结构化查询语言, 从而到数据库中查询答案。然而, 随着数据量的迅速增多, 该方法已不能满足人们快速获取正确答案的需求。现有多数关于知识图谱问答的研究方法, 都将问句和知识库里的事实映射到一个共同的低维度空间内, 通过计算问句向量与答案向量的余弦相似性来找到问句的正确答案。但此类方法在候选主实体的筛选上步骤繁琐, 并且忽略了问句中主实体与关系之间以及问句中原始词语之间的相关性。

针对上述问题, 本文构建一种基于BiLSTM-CRF与N-Gram算法的细粒度知识库问答模型。受知识图谱表示学习中翻译模型的启发, 将问句与答案的关系表示为三元组的形式, 把问答过程分为实体识别和关系预测2个部分。采用BiLSTM+CRF模型进行命名实体识别, 并使用N-Gram算法为候选实体建立倒排索引, 其中每个索引结点包含一个由莱温斯坦距离计算得到的权值。在此基础上, 利用注意力机制和卷积神经网络(Convolutional Neural Networks, CNN)模型, 分别从语义层次和词层次捕获问句主实体与候选关系之间和问句与关系原始词语之间的相互关系。

1 相关研究

知识图谱又称为科学知识图谱, 由谷歌公司于2012年正式提出, 其本质是一张巨大的图, 也可以称为有向图结构的知识库, 即语义网络的知识库。在知识图谱中, 结点表示实体, 边表示实体之间的关系。知识图谱的表示学习旨在学习实体和关系的向量化表示^[1], 其中基于多元关系的翻译模型TransE^[2], 将每个三元组实例(head、relation和tail)中的关系看作从头实体head到尾实体tail的翻译, 通过不断调整h、r和t(分别表示head、relation和tail), 使(h+r)尽可能与t相等, 即h+r≈t。

目前基于知识图谱的问答研究, 已经从先前基于语义解析的研究, 逐渐转变为由信息提取衍生的基于深度学习的知识图谱问答研究。文献[3]提出将词向量的表示学习方法用于基于知识图谱的问答, 因为知识库总是以三元组的形式存放大量事实, 所以该文提出将单一关系的自然语言问答视作已知三元组的头实体和关系, 寻找三元组尾实体的过程, 即 < subject, relation, ?>, 其中三元组的头实体和关系与问句中的词语相关联, 而问句的正确答案即为三元组的尾实体。受该方法的启发, 本文将问句与答案的关系表现为三元组的形式, 并把整个模型分为实体识别和关系预测2个部分, 通过分别提高两部分的准确率来提高整个模型返回问句正确答案的准确率。多数模型在候选主实体的筛选上采用人工定义的实体匹配规则, 步骤繁琐且准确率不高。N-Gram^[4]是一种基于统计语言模型的算法, 可以用来评估2个字符串之间的距离, 是模糊匹配中常用的一种方法, 即当2个字符串s、t都用N-Gram算法来表示时, 则对应N-Gram子串中公共部分的长度就称为N-Gram距离。目前, 较多模型采用N-Gram算法进行候选实体的筛选, 但单一地使用该算法并不能满足现阶段问答模型需要快速准确定位知识图谱候选实体的需求。本文利用N-Gram算法为候选实体建立倒排索引, 并以莱温斯坦距离作为候选实体的得分, 得到候选实体排序, 从而快速准确地将问句中的实体定位到知识图谱。在问句的实体识别部分, 多数方法都采用基于解析句法和语义信息^[5]的方式来提取问句特征, 实体识别准确率不高。文献[6]提出一种将BiLSTM和CRF结合进行序列标注的模型, 该模型可以有效地使用过去和未来的特征标签来预测当前的标签, 命名实体的识别率较传统方法得到显著提高。

注意力机制本质上与人类的选择性视觉注意力机制类似, 其核心目标是从众多信息中选择出对当前任务目标更关键的信息。文献[7]设计注意力与全局信息相结合的知识库问答, 采用注意力机制给问句中的各个词语赋予权重, 该权重表示答案的不同方面对问题表示的影响。文献[8]则将模型分为2个部分, 即答案问句端和问句答案端。该模型的第一部分采用注意力机制计算答案问句端的问句向量与答案向量相似性得分, 第二部分同样通过注意力机制计算问句答案端问句向量对答案各方面向量的不同关注程度, 最后将第二部分的计算结果作为第一部分相似性得分的权值, 从而求得问句向量与答案向量最终的相似性得分。受以上方法的启发, 本文模型在关系预测部分采用注意力机制捕获问句向量与关系向量语义层次上的相似性。

对于文本或字符串的相似性判断, 现有方法和多数实验都选择通过将文本或字符串向量化后用余弦值^[9]来判断其是否相似。文献[10]提出利用图像识别的方法进行文本匹配, 构造文本的相似度矩阵, 然后用卷积神经网络来提取矩阵特征。本文将该方法应用于问答领域, 在关系预测部分通过使用卷积神经网络抽取问句向量与关系向量相似性矩阵的特征, 从而得到问句向量与关系向量在词层次上的相似性。

2 基于BiLSTM-CRF的知识图谱问答模型

本文模型分为2个部分, 即实体识别和关系预测。在实体识别部分, 提出采用BiLSTM-CRF模型进行命名实体识别, 与传统基于BiLSTM的命名实体识别方法相比, CRF层的加入进一步提高了命名实体识别的准确性。同时, 采用N-Gram算法为与实体名和实体别名相同的候选实体建立倒排索引, 并以莱温斯坦距离^[11]作为得分为候选实体排序。在关系预测部分, 将关系视为2个部分, 一部分代表实体的类型, 另一部分代表问句主实体与答案之间真实的关系, 分别应用注意力机制和CNN模型捕获问句主实体与候选关系之间的相互联系以及原始词语之间的相互联系。

2.1 实体识别 2.1.1 BiLSTM-CRF模型

在对于问句的处理中, 问句的命名实体识别是极为关键的一个步骤。最初的命名实体识别方法主要分为基于规则的方法和基于统计的方法, 而目前多数研究更倾向于使用神经网络来提取问句特征进行命名实体的识别。BiLSTM由2个LSTM拼接而成, 其包含1个正向输入序列和1个反向输入序列, 同时考虑了过去的特征和未来的特征。当用BiLSTM进行命名实体识别时, BiLSTM的输出为实体标签的分数且选择最高分数对应的标签。然而有时BiLSTM不能得到真正正确的实体标签, 在这种情况下, 就需要加入CRF层。CRF结合了最大熵模型和隐马尔科夫模型的特点, 且近年来在分词、词性标注和命名实体识别等序列标注任务中取得了较好的效果。

假设数据集有2种实体类型:人名和组织名, 即Organization和Person, 则有实体标签“B-Organization, I-Organization, B-Person, I-Person, O”, 其中, 当一个实体由多个词构成时, “B-”表示该实体的第1个词, “I-”表示该实体除第1个词外的其他词, “O”表示除实体外的其他词。将该标签输入到BiLSTM中, 可得到句子表示${h_i} = \left[ {{{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} }_i};{{\vec h}_i}} \right] $, 再将${h_i} $传入CRF层。在实验中, 设有标签m个(m=3), 包括“B-Subject”“I-Subject”“O”。定义经BiLSTM输出的分数矩阵M=n×m, 其中n为问句中的向量个数。

例如, 对问句“Where is Tsinghua University located?”用BiLSTM-CRF算法进行命名实体识别, 实验效果如图 1所示, 可得“Tsinghua University”的实体标签为“B-Organization I-Organization”。同理, 对于问句“What is the height of Yao Ming?”, 经BiLSTM-CRF模型处理后可得到“Yao Ming”的实体标签为“B-Person, I-person”。

	Download: JPG larger image
图 1 BiLSTM-CRF模型结构 Fig. 1 BiLSTM-CRF model structure

通过实验可知, CRF层的作用不仅在于可以进一步得到实体标签的得分, 同时还可以在训练过程中自动学习对于最后预测标签的限制规则。以上述问句为例, 限制条件如下:

1) 因为问句中第1个词通常为疑问词, 所以第1个词的标签应为“O”。

2) 在“B-label1, I-label2, I-label3”中, “lable1, label2, label3”等要有同样的标签类型, 即“B-organizationI-organization”有效, “B-Person I-organization”无效。

在本文实验中, 数据经Glove^[12]向量化为问句中的词向量个数, M_{i, t}表示问句中第t个词的标签为i的分数, 并将该矩阵作为CRF层的输入。此外, 定义CRF层(m+2)×(m+2)的状态转移矩阵P, 其中P_{i, j}为在连续的一段时间内第i个标签转移到第j个标签的得分。因此, 对于输入序列h预测的标签序列y的得分为$s(h, y) = \sum\limits_{i = 0}^n {{P_{{y_i}, {y_{i + 1}}}}} + \sum\limits_{i = 1}^n {{M_{i, {y_i}}}} $, 最后经softmax层得到标签的概率。

2.1.2 基于N-Gram算法的候选实体的倒排索引

通过BiLSTM-CRF模型识别出问句实体后, 还需要将该实体与知识图谱中的相应结点进行关联。本文实验中采用N-Gram算法(其中N∈{1, 2, 3})为与实体名和实体别名相同的候选实体建立倒排索引, 并用莱温斯坦距离计算得到的权值为候选实体排序。

倒排索引以词或字符串作为关键字, 对每种关键字都设立一个索引, 每个关键字对应的是该词或字符串在所有文档中的位置信息以及频率, 图 2所示为一个小型数据集基于2-gram的倒排索引。

	Download: JPG larger image
图 2 2-gram倒排索引 Fig. 2 2-gram reverse index

数据集N-Gram倒排索引I_entity形式如下:

$ {I_{{\rm{entity }}}}\left( "{q_i}" \right) \to \left\{ {{\rm{ node }}:{e_i}, {\rm{ score }}:{L_{{\rm{LSD}}}}} \right\} $

其中, L_LSD为莱温斯坦距离。莱温斯坦距离为编辑距离的一种方法, 主要用来量化字符串之间的相似度, 即计算从一个字符串转换成另外一个字符串所需要的最少操作步骤, 通过删除、插入、替换操作来定义莱温斯坦距离。因此, 莱温斯坦距离越大表示字符串的相似度越低。

2.2 关系预测

在本文提出的细粒度知识库问答方法中, 候选关系r^k的识别分别从语义层次和词层次进行(其中r^k表示候选实体e_i所关联的所有关系R)。在语义层次上, 引入注意力机制表示关系r对于问句中不同词语的关注程度; 在词层次上, 构建问句向量与关系向量的相似度矩阵, 并用CNN抽取该矩阵的特征。最后, 将两部分的特征向量用一个线性层连接起来, 从而得到最后候选关系r^k与问题模式Q的相似性得分, 即最终预测的关系为:

$ r_{\mathrm{f}}=\operatorname{argmax}\left(S\left(Q, r^{k}\right)\right)=\operatorname{Sigmoid}\left(\boldsymbol{W}^{\mathrm{T}}\left[\mathit{\boldsymbol{z}}_{i}+b\right]\right) $

其中, $ r^{k} \in \mathbb{R}, i \in\{1, 2, 3, 4\}, \mathit{\boldsymbol{z}}_{i}$表示从语义层次和词层次求得的特征向量, W^T为参数矩阵并在训练过程中随机更新, b为偏置值。该部分模型的整体框架如图 3所示。

	Download: JPG larger image
图 3 关系预测模型整体结构 Fig. 3 Overall structure of the relationship prediction model

2.2.1 语义层次

在Freebase中关系通常由2个部分构成, 一部分代表问句中实体的类型, 另一部分代表实体与答案之间真正的关系。因此, 在实验中关系的嵌入向量分别为r₁和r₂。

对于问句中的每个词经Glove训练后得到向量$ \boldsymbol{q}_{1}, \boldsymbol{q}_{2}, \cdots, \boldsymbol{q}_{j}$, 其中j表示问句的长度。问句向量作为BiGRU的输入, 得到问句的表示最终即BiGRU隐藏层的表示$\left[ {{{\overleftarrow {\mathit{\boldsymbol{q}}} }_j};{{\overrightarrow {\mathit{\boldsymbol{q}}} }_j}} \right]$。实验中引入注意力机制表示关系对问句中词语不同的关注程度, 计算公式如下:

$ {Z_i} = {P_i} \cdot {R_i}, {\mathit{\boldsymbol{p}}_i} = \sum\limits_{i = L}^L {{\alpha _{ij}}} {\mathit{\boldsymbol{q}}_j}, {\alpha _{ij}} = \frac{{\exp \left( {{w_{ij}}} \right)}}{{\sum\limits_{k = 1}^L {\exp } \left( {{w_{ik}}} \right)}} $

$ \begin{array}{l} {w_{i j}=\boldsymbol{v}^{\mathrm{T}} \tanh \left(\boldsymbol{w}^{\mathrm{T}}\left[\boldsymbol{q}_{i} ; \boldsymbol{r}_{i}\right]+b\right)} \\ {r_{\mathrm{f}}=\arg \max \left(S\left(Q, r^{k}\right)\right)=\operatorname{Sigmoid}\left(\boldsymbol{W}^{\mathrm{T}}\left[\boldsymbol{z}_{i}+b\right]\right)} \end{array} $

其中, $ r^{k} \in \mathbb{R}, i \in\{1, 2, 3, 4\}, z_{i}$表示加权后的问句向量p_i与关系向量r_i的点积运算结果, 且i∈{1, 2}, α_ij表示关系r对问句中的第j个词语赋予的权重, L为问句的长度, $ w \in \mathbb{R}^{C \times(m+n)}, v \in \mathbb{R}^{1 \times c}$ (m、n分别为关系r_i和问句q_j的维度, c为参数)。

2.2.2 词层次

文献[7]指出, 词语的相似性匹配也可以看作采用卷积神经网络的图像识别过程, 此处的“图像”通常为词语的相似度矩阵。卷积神经网络^[13]是一类包含卷积计算且具有深度结构的前馈神经网络, 是图像识别领域的核心算法之一^[14]。

实验中相似性矩阵$\boldsymbol{M}_{i j}=\boldsymbol{q}_{i} \cdot \boldsymbol{u}_{j} $, 其中q_i表示问句中第i个词的嵌入向量, u_j表示关系中第j个词的嵌入向量, 且通过计算2个向量的余弦相似度来构建相似性矩阵。

在卷积层中当第k个方形卷积核w^k扫描相似性矩阵M_ij时可以得到特征映射矩阵, 矩阵元素表示如下:

$ f_{i, j}^k = \gamma \left( {\sum\limits_{s = 0}^{{r^{k - 1}}} {\sum\limits_{t = 0}^{{r^{k - 1}}} {w_{s, t}^k} } \cdot {M_{i + s, j + t}} + {b^k}} \right) $

其中, γ为ReLU激活函数, r^k为第k个卷积核的大小。

在最大池化层, 本文实验用2个大小分别为s₁和s₂的池化核抽取卷积后的相似性矩阵f^k, 得到特征矩阵y_i和y_j, 且s₁代表问句的长度, s₂代表关系的长度:

$ y_i^{(1, k)} = \mathop {\max }\limits_{0 \le t < {s_2}} f_{i, t}^k, y_i^{(2, k)} = \mathop {\max }\limits_{0 \le t < {s_2}} f_{i, t}^k $

在全连接层, 用两层感知机得到最后的特征向量z₃、z₄:

$ \begin{array}{*{20}{l}} {{\mathit{\boldsymbol{z}}_3} = {w_2}\gamma \left( {{w_1}\left[ {{y^{(1, 0)}};{y^{(1, k)}} + {b_1}} \right]} \right) + {b_2}}\\ {{\mathit{\boldsymbol{z}}_4} = {w_2}\gamma \left( {{w_1}\left[ {{y^{(2, 0)}};{y^{(2, k)}}} \right] + {b_1}} \right) + {b_2}} \end{array} $

其中, k代表卷积核的总个数, $ \left[y^{(i, 0)} ; y^{(i, k)}\right]$为池化层的输出, w_i为多层感知机的权重, γ代表ReLU激活函数。

2.3 模型训练与优化

实验中用损失排名来优化候选关系池R中的正例关系r⁺和负例关系r^－:

$ {f_{{\rm{Loss }}}}\left( {P, {r^ - }} \right) = \sum\limits_{\left( {P, {r^ + } \in D} \right)} {\max } \left( {0, \gamma + S\left( {P, {r^ - }} \right) - S\left( {P, {r^ + }} \right)} \right) $

其中, S(P, r^－)、S(P, r⁺)分别表示负例关系与问题模板的相似性得分和正例关系与问题模板的相似性得分, γ为常量参数。

3 实验 3.1 实验环境与实验数据

实验环境:操作系统Ubuntu 16.04, CUDA 8.0, cudnn 6;处理器4颗CPU核心, 1颗Nvidia Tesla P100共享GPU核心; 内存大小60 GB, 显存大小16 GB; 编译平台Pycharm Profession, Python 3.5, Pytorch 0.2.0。

实验数据:实验数据采用文献[3]中的SimpleQuestion数据集。该数据集针对单一关系问题, 且数据集的每一对问题与答案都能在FreeBase中找到相应的三元组与之对应, 如表 1所示。

下载CSV 表 1 问句与三元组 Table 1 Questions and triples

实验将数据集分为训练集、有效集、测试集3个部分, 其中包含的三元组个数分别为78 360、10 825和21 580。同时, 实验中的知识库采用Freebase下的FB2M和FB5M数据集。

3.2 实验参数设置

本文的实验分为2个部分, 即实体识别和关系预测。在实体识别部分, 先用Glove将词语训练成向量, 再将词语向量输入BiLSTM-CRF得到最后的实体预测得分; 在关系预测部分, 先用BiGRU训练问句, 再用CNN抽取问句向量与关系向量的相似性矩阵, 在此部分的实验中参数训练采用一阶梯度随机优化目标函数^[15]。两部分具体参数设置如表 2和表 3所示。

下载CSV 表 2 实体识别参数设置 Table 2 Parameter setting for entity identification

下载CSV 表 3 关系预测参数设置 Table 3 Parameter setting for relationship prediction

3.3 评价指标

本文将召回率R和准确率P作为评价指标, 计算公式如下:

$ R=\frac{N_{\mathrm{r}}}{N_{\text {total }}}, P=\frac{N_{\mathrm{r}}}{N_{\mathrm{pre}}} $

其中, N_r表示预测正确的数据的数目, N_total表示测试集总的数据数目, N_pre表示实验中预测的数据数目。

3.4 实验结果分析

本文使用SimpleQuestion数据集在Freebase下的FB2M和FB5M数据集下进行实验, 以实体关系对的识别准确率作为评价指标, 将本文模型与同样在该数据集下进行实验的模型相比。对比的5种模型分别为基于记忆网络的简单关系问答模型^[3]、基于字符层面和自注意力机制的简单关系问答模型^[16]、基于自注意力机制和卷积神经网络的简单问答^[17]、基于大规模知识图谱的条件聚集神经网络问答模型^[18]、基于字与字符的神经网络问答模型^[19]。实验结果如表 4所示, 可以看出, 本文方法在FB2M和FB5M数据集上准确率达到了78.5 %和77.3 %的Top-k值, 相比其他在FB2M和FB5M数据集上准确率相对较高的模型, 分别提高了1.9 %和1.6 %。对比模型在实体识别部分都单一地采用N-gram算法或者神经网络, 实体识别的准确率不高, 而本文方法通过采用BiLSTM-CRF与N-gram结合的模型, 进一步提高了命名实体识别的准确率, 从而使模型的整体性能相比之前的实验有所提升。

下载CSV 表 4 Top-k实体关系对预测准确率 Table 4 Accuracy of Top-k entity relationship pairs prediction

3.4.1 实体识别

为体现本文模型在实体识别部分的优势, 将本文模型与文献[17, 19]模型进行比较。文献[17]模型在实体识别部分提出2种方法, 分别为计算LCCS(即最长连续公共子序列)的被动实体链接方法和通过BiGRU-CRF进行命名实体识别的激活实体链接方法, 而文献[19]模型在实体识别部分用GRU处理问句且实体的表示由字符层面的实体标签和词层面的实体标签两部分构成。

本文模型在实体识别部分采用BiLSTM-CRF的命名实体识别方法, 同时应用N-Gram算法(N∈{1, 2, 3})为候选实体建立倒排索引并且给每个实体结点赋予一个基于莱温斯坦距离的权重, 从而提高了命名实体识别和候选实体筛选的准确率。表 5显示了3种方法在排名在前k(k∈{1, 5, 20, 50, 100, 400})的候选实体上的召回率, 可以看出, 本文模型在Top-k的召回率上相比文献[17, 19]模型有显著提升。

下载CSV 表 5 Top-k候选实体的召回率 Table 5 Recall rate of Top-k candidate entities

3.4.2 关系预测

在关系预测部分, 本文采用文献[17]中的数据集测试本文模型。表 6比较了BICNN^[20]、AMPCNN^[17]和HR-BiLSTM^[21]这三个模型和本文模型的关系预测准确率。上述3个模型都在一个编码框架下, 将问题和关系都映射成向量从而通过向量之间的比较来判断问题和关系的语义相似性。从表 6可知本文模型关系预测的准确率高于目前关系预测准确率相对较高的HR-BiLSTM模型。HR-BiLSTM模型采用层次残差BILSTM模型提取问句的不同粒度表示, 同时分别从关系的词层次和关系本身编码关系, 最后通过计算问句和关系的相似度来对候选关系排序。而本文模型分别从语义层次和词层次找寻关系向量与问句模板向量之间的相似性。在语义层次上, 采用自注意力机制为问句中的词语赋予不同的权重, 从而表现关系向量对问句中不同词向量的不同关注程度; 在词层次上, 采用CNN抽取问句向量与关系向量构成的相似性矩阵。

下载CSV 表 6 关系预测准确率 Table 6 Accuracy of relationship prediction

4 结束语

本文构建一种基于BiLSTM-CRF模型和N-Gram算法的细粒度知识库问答模型, 用于单一关系问答。该模型解决了传统模型在实体识别上使用单一的神经网络方法导致命名识别准确率不高的问题, 同时采用自注意力机制和CNN提高了关系预测的准确率, 减小了人工定义规则对模型准确率的影响和模型的复杂性。在FB2M和FB5M数据集上的实验结果表明, 该模型可显著提高整体识别准确率。尽管本文模型在单一关系数据集上表现良好, 但并不能满足实际应用中复杂问句的需要。因此, 下一步将结合知识图谱表示学习中对于一对多和多对多问题的研究, 构建针对多个实体和多种关系的知识库问答模型。

参考文献

[1]	BAO Kaifang, GU Junzhong, YANG Jing. Knowledge graph completion method based on jointly representation of structure and text[J]. Computer Engineering, 2018, 44(7): 211-217. (in Chinese) 鲍开放, 顾君忠, 杨静. 基于结构与文本联合表示的知识图谱补全方法[J]. 计算机工程, 2018, 44(7): 211-217.
[2]	BORDES A, USUNIER N, GARCIADURAN A, et al.Translating embeddings for modeling multi-relational data[C]//Proceedings of International Conference on Neural Information Processing Systems.[S.l.]: Curran Associates Inc., 2013: 2787-2795.
[3]	BORDES A, USUNIER N, CHOPRA S, et al.Large-scale simple question answering with memory networks[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1506.02075.pdf.
[4]	MARIÑO J B, BANCHS R E, CREGO J M, et al. N-gram-based machine translation[J]. Computational Linguistics, 2006, 32(4): 527-549.
[5]	GE Donglai, LI Junhui, ZHU Muhua. Modeling source syntax and semantic roles for neural AMR parsing[J]. Journal of Chinese Information Processing, 2019, 33(8): 36-45. (in Chinese) 葛东来, 李军辉, 朱慕华, 等. 融合源端句法和语义角色信息的AMR解析[J]. 中文信息学报, 2019, 33(8): 36-45.
[6]	HUANG Zhiheng, YU Kai.Bidirectional LSTM-CRF models for sequence tagging[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1508.01991v1.pdf.
[7]	ZHANG Yuanzhe, LIU Kang, HE Shizhu, et al.Question answering over knowledge base with neural attention combining global knowledge information[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1606.00979.pdf.
[8]	HAO Yanchao, ZHANG Yanzhe, LIU Kang, et al.An end-to-end model for question answering over knowledge base with cross-attention combining knowledge[C]//Proceedings of the 55th Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2017: 221-231.
[9]	ZHANG Chunying, LI Chunhu, FU Qifeng. Computation method of semantic similarity in Chinese texts based on WV-CNN[J]. Journal of North China University of Science and Technology(Natural Science Edition), 2019, 41(1): 123-132. (in Chinese) 张春英, 李春虎, 付其峰. 基于WV-CNN的中文文本语义相似度计算方法[J]. 华北理工大学学报(自然科学版), 2019, 41(1): 123-132.
[10]	PANG L, LAN Y, GUO J, et al.Text matching as image recognition[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1602.06359.pdf.
[11]	XIAO Chuan, WANG Wei, LIN Xuemin.Ed-Join: an efficient algorithm for similarity joins with edit distance constraints[C]//Proceedings of International Conference on Very Large Data Bases.Auckland, New Zealand: [s.n.], 2008: 933-944.
[12]	PENNINGTON J, SOCHER R, MANNING C D.Glove: global vectors for word representation[C]//Proceedings of EMNLP'14.Doha, Qatar: [s.n.], 2014: 1532-1543.
[13]	ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6): 1229-1251. (in Chinese) 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1229-1251.
[14]	LI Zhendong, ZHONG Yong, TAO Pan, et al. Image instance retrieval based on deep convolutional features[J]. Journal of Jilin University(Engineering, and Technology Edition), 2019, 49(1): 275-282. (in Chinese) 李振东, 钟勇, 陶攀, 等. 基于深度卷积特征的图像实例检索方法[J]. 吉林大学学报(工学版), 2019, 49(1): 275-282.
[15]	KINGMA D P, BA J L.Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference on Learning Representations.San Diego, USA: [s.n.], 2014: 1200-1215.
[16]	GOLUB D, HE X.Character-level question answering with attention[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1604.00727v1.pdf.
[17]	YIN Wenpeng, YU Mo, XIANG Bing, et al.Simple question answering by attentive convolutional neural network[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1606.03391.pdf.
[18]	DAI Zihang, LI Lei, XU Wei.CFO: conditional focused neural question answering with large-scale knowledge bases[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1606.01994.pdf.
[19]	LUKOVNIKOV D, FISCHER A, LEHMANN J.Neural network-based question answering over knowledge graphs on word and character level[C]//Proceedings of International Conference on World Wide Web.[S.l.]: International World Wide Web Conferences Steering Committee, 2017: 1211-1220.
[20]	MEEK C.Semantic parsing for single-relation question answering[C]//Proceedings of 2014 Conference of Association for Computational Linguistics.[S.l.]: ACL, 2014: 643-648.
[21]	YU M, YIN W, HASAN K S, et al.Improved neural relation detection for knowledge base question answering[EB/OL].[2019-01-10]. https://arxiv.org/pdf/1704.06194.pdf.