«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (2): 306-313  DOI: 10.19678/j.issn.1000-3428.0060062
0

引用本文  

崔丽平, 古丽拉·阿东别克, 王智悦. 基于有向图模型的旅游领域命名实体识别[J]. 计算机工程, 2022, 48(2), 306-313. DOI: 10.19678/j.issn.1000-3428.0060062.
CUI Liping, Altenbek Gulila, WANG Zhiyue. Named Entity Recognition in Tourism Based on Directed Graph Model[J]. Computer Engineering, 2022, 48(2), 306-313. DOI: 10.19678/j.issn.1000-3428.0060062.

基金项目

国家自然科学基金(62062062);新疆大学基金(BS180250)

通信作者

古丽拉·阿东别克(通信作者),教授、博士

作者简介

崔丽平(1994—),女,硕士研究生,主研方向为自然语言处理;
王智悦,硕士研究生

文章历史

收稿日期:2020-11-19
修回日期:2021-01-27
基于有向图模型的旅游领域命名实体识别
崔丽平1,2,3 , 古丽拉·阿东别克1,2,3 , 王智悦1     
1. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046;
2. 新疆多语种信息技术重点实验室, 乌鲁木齐 830046;
3. 国家语言资源监测与研究少数民族语言中心 哈萨克和柯尔克孜语文基地, 乌鲁木齐 830046
摘要:旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。
关键词知识图谱    命名实体识别    卷积神经网络    图神经网络    条件随机场    
Named Entity Recognition in Tourism Based on Directed Graph Model
CUI Liping1,2,3 , Altenbek Gulila1,2,3 , WANG Zhiyue1     
1. College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. Xinjiang Key Laboratory of Multi-language Information Technology, Urumqi 830046, China;
3. The Base of Kazakh and Kirghiz Language, National Language Resource Monitoring and Research Center of Minority Languages, Urumqi 830046, China
Abstract: Named entity recognition in the field of tourism is an important part in the construction of tourism knowledge graph.Compared with entities in the general field, entities in the tourism field are characterized by the long name, polysemy and frequent nesting, resulting in low accuracy of named entity recognition.To solve this problem, a directed graph neural network model named L-CGNN using dictionary information is proposed for named entity recognition in tourism.A Convolutional Neural Network(CNN) with multiple convolutions is used to extract rich character feature vectors.Then the directed graph of the sentence is constructed by using the dictionary to match word information in the sentence, and an adjacency matrix that integrates word and character information is generated.The word vectors containing local features and adjacency matrix are input into the Graph Neural Network(GNN) to extract global semantic information.Then Conditional Random Field (CRF) is introduced to decode the information and obtain the optimal label sequence.The experimental results show that compared with Lattice LSTM、ID-CNN+CRF、CRF models, the F1 score of the proposed model reaches 86.86% on tourism datasets and 95.02% on resume datasets, displaying high recognition accuracy of the model.
Key words: knowledge graph    Named Entity Recognition(NER)    Convolutional Neural Network(CNN)    Graph Neural Network(GNN)    Conditional Random Field(CRF)    

开放科学(资源服务)标志码(OSID):

0 概述

随着信息化建设的加快,旅游逐渐成为人们休闲放松的重要方式。在旅游过程中,游客利用智能化的应用软件解决出行问题,例如景点的智能线路推荐、景区的智能问答系统实现等,旅游领域的命名实体识别(Named Entity Recognition,NER)作为智能化服务,逐渐引起研究人员的关注。

NER是自然语言处理的一项研究任务,是信息检索、问答系统、机器翻译等诸多任务的基础。以往的NER任务大多针对通用领域,近年来,NER被应用在某些特定领域上,文献[1]在生物医学领域中利用支持向量机(Support Vector Machine,SVM)进行蛋白质、基因、核糖核酸等实体识别;文献[2]在社交媒体领域中对微博中的实体进行研究;文献[3]对电子病历中的实体进行研究。此外,研究人员对一些实体(如化学实体[4]、古籍文本中的人名[5]等)研究较少。

旅游领域的NER研究相对较少。文献[6]提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的旅游景点识别方法,该方法首次在旅游领域上进行NER任务,但未充分考虑到上下文信息,解决一词多义的问题表现欠佳。因为很多实体在不同的语境中会代表不同的意思,例如“玉门关”在其他的文本中指的是地名,在旅游文本中指的是旅游景点玉门关。文献[7]提出使用层叠条件随机场(Conditional Random Field,CRF)识别景点名的方法,该方法过于依赖人工特征的建立,而且规则制定要耗费大量的人力,以致于不能广泛使用。文献[8]提出一种基于CNN-BiLSTM-CRF的网络模型,避免了人工特征的构建,但该方法是基于字进行识别,未能充分利用词典信息。对于特定领域的NER任务,词典是十分重要的外部资源,尤其是旅游文本中存在许多较长的景点名,例如阿尔金山自然保护区、巴音布鲁克天鹅湖等,可以利用词典获取这类词汇信息进而提高NER的准确率。

本文提出一种有向图神经网络模型用于旅游领域中的命名实体识别。将预训练词向量通过具有多个卷积核的卷积神经网络(Convolutional Neural Network,CNN)提取字特征,基于词典构建每个句子的有向图,生成对应的邻接矩阵,通过边的连接融合词特征与字特征,将词向量和邻接矩阵输入图神经网络进行全局语义信息的提取,并引入CRF得到最优序列。

1 相关工作 1.1 命名实体识别

NER主要是基于规则和词典、基于统计机器学习、基于深度学习的方法。基于规则和词典的方法需要考虑数据的结构和特点,在特定的语料上取得较高的识别效果,但是依赖于大量规则的制定,手工编写规则又耗费时间和精力。基于统计机器学习的方法具有较好的移植性,对未登录词也具有较高的识别效果。常用的机器学习模型有SVM[9]、HMM[10]、条件随机场[11]、最大熵(Maximum Entropy,ME)[12]等,这些方法都被成功地用于进行命名实体的序列化标注,然而都需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到词向量中,所以对语料库的依赖性很高。

随着深度学习在图像和语音领域的广泛应用,深度学习的众多方法也被应用在自然语言处理任务中。文献[13]提出基于神经网络的NER方法,该方法利用具有固定大小的窗口在字符序列上滑动以提取特征。由于窗口的限制,该方法不能考虑到长距离字符之间的有效信息。循环神经网络(Recurrent Neural Network,RNN)的优势在于它通过记忆单元存储序列信息,但是在实际的应用中,RNN的记忆功能会随着距离的变长而衰减,从而丧失学习远距离信息的能力。文献[14]基于RNN提出长短时记忆(Long Short Term Memory,LSTM)神经网络,该方法利用门结构解决梯度消失的问题,然而3个门单元增加了计算量。门循环单元(Gated Recurrent Unit,GRU)[15]只用了2个门保存和更新信息,能够减少训练参数,缩短训练的时间。由于单向的RNN不能满足NER任务的需求,文献[16]提出双向LSTM模型(BiLSTM)用于序列标注任务,通过不同方向充分学习上下文特征。文献[17]构建BiLSTM与CRF结合的模型,用CRF规范实体标签的顺序。因此,BiLSTM+CRF结构成为NER任务中的主流模型[18-19]

文献[20]提出一种基于注意力机制的机器翻译模型,摒弃之前传统的Encoder-Decoder模型结合RNN或CNN的固有模式,使用完全基于注意力机制的方式。由于Transformer有强大的并行计算能力和长距离特征捕获能力,因此在机器翻译、预训练语言模型等语言理解任务中表现出色,逐渐取代RNN结构成为提取特征的主流模型。在NER任务上,基于自注意力的Transformer编码器相较于LSTM的效果较差,虽然自注意力可以进一步获得字词之间的关系,却无法捕捉字词间的顺序关系,并且经过自注意力计算后相对位置信息的特性会丢失。位置信息的丢失和方向信息的缺失影响NER的效果[21]

在英文的NER任务上主要使用基于词的方法,但是在中文NER任务中,由于中文存在严重的边界模糊现象,基于词的方法会产生歧义,进而影响NER结果。基于字的方法比基于词的方法更适合中文NER任务[22-23],然而基于字的方法存在无法提取词汇信息的缺陷,这些潜在词的信息对NER任务十分重要。因此,构造字词结合训练的方法[24-26]成为研究热点。

文献[27]提出Lattice LSTM结构,使用词典动态将字词信息送入LSTM结构中进行计算,在多个数据集上取得了最好成绩。RNN的链式结构和缺乏全局语义的特点决定了基于RNN的模型容易产生歧义,Lattice LSTM结构如图 1所示。“市长”和“长江”两个词共同包含“长”字,RNN会严格按照字和词汇出现的顺序进行信息传递,因此,“长”会优先被划分到左边的“市长”一词中[28],这显然是错误的。针对这个问题,本文使用图神经网络进行信息传递,在每次计算时,每个节点都会同时获得与其相连节点的信息,以削弱字符语序和匹配词序对识别的影响。

Download:
图 1 Lattice LSTM结构 Fig. 1 Structure of Lattice LSTM
1.2 图神经网络

图是由一系列对象(节点)和关系类型(边)组成的结构化数据。文献[29]提出图神经网络的概念。文献[30]提出基于谱图论的一种图卷积的变体。图神经网络包括图注意力网络[31](Graph Attention Network,GAT)、图生成网络[32]等。图神经网络在自然语言处理领域的应用逐渐成为研究热点,文献[33]提出将图卷积神经网络(GCN)用于文本分类,文献[34]利用依存句法分析构建图神经网络并用于关系抽取。

2 L-CGNN模型

L-CGNN模型的整体结构分为特征表示层、GGNN层、CRF层3个部分。特征表示层的主要任务有:1)获取预训练词向量并使用具有不同卷积核的CNN提取局部特征,充分获得每个字的局部特征;2)通过词典匹配句子中的词汇信息,构建句子的有向图结构得到相应的邻接矩阵用于表示字与词汇的关系。GGNN层接收特征表示层传入的词向量矩阵和邻接矩阵,动态融合字词信息获得全局的语义表示。通过CRF层进行解码获得最优标签序列。L-CGNN模型结构如图 2所示。

Download:
图 2 L-CGNN模型结构 Fig. 2 Structure of L-CGNN model
2.1 特征表示层

特征表示层首先对文本进行词向量表示,然后构建文本的图结构。

1)词向量

神经网络的输入是向量矩阵,因此先将字转换成向量矩阵形式。词向量给定包含$ n $个字的句子$ S=\{{c}_{1}, {c}_{2}, \cdots, {c}_{n}\} $,其中$ {c}_{i} $是第$ i $个字,每个字通过查询预训练字向量表,转换为基于字的词向量,如式(1)所示:

$ {x}_{i}^{}=\mathit{\boldsymbol{E}}^{\mathrm{c}}\left({c}_{i}\right) $ (1)

其中:$ \mathit{\boldsymbol{E}}^{\mathrm{c}} $为预训练词向量表。通过引入bigram特征后得到的词向量是由基于字的向量、前向bigram词向量、后向bigram词向量3个部分组成,以提高NER效果[35-36]。加入bigram的词向量如式(2)所示:

$ {x}_{i}^{}=\left[\mathit{\boldsymbol{E}}^{\mathrm{c}}\left({c}_{i}\right);\mathit{\boldsymbol{E}}^{\mathrm{b}}({c}_{i}, {c}_{i+1});\mathit{\boldsymbol{E}}^{\mathrm{b}}({c}_{i-1}, {c}_{i})\right] $ (2)

其中:$ \mathit{\boldsymbol{E}}^{b} $为预先训练的bigram向量矩阵。因为旅游文本的实体名通常较长,并且嵌套现象严重,字向量和bigram向量并不能很好表示局部信息。例如天山大峡谷是新疆著名景点,对于山字,除了字向量特征外,只能获取到天山和山天的信息,导致天山可能被当作单独的一个景点名被识别,然而这里的天山大峡谷是一个完整的景点名,需要更多的信息辅助识别。

卷积神经网络逐渐被用于自然语言任务中提取局部特征。CNN结构包含卷积层、激活层、池化层,由于池化层会削弱位置特征的表达,而位置特征对于序列标注任务十分重要,所以本文没有使用池化操作,而是使用3个不同大小的卷积核提取特征,对卷积核进行填充操作以获得相同维度的表示。3个卷积核的大小为$ k\times w $,其中$ k $依次取1、3、5,对应$ w $依次取$ d\mathrm{、}d+2\mathrm{、}d+4 $$ d $为词向量$ {x}_{i} $的维度,局部特征提取流程如图 3所示。

Download:
图 3 局部特征提取流程 Fig. 3 Extraction procedure of local feature

局部特征的提取如式(3)、式(4)所示:

$ {h}_{i}^{k}=f({W}^{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}\times {x}_{i:(i+k-1)}+b) $ (3)
$ {h}_{i}={h}_{i}^{1}\mathrm{\oplus }{h}_{i}^{3}\mathrm{\oplus }{h}_{i}^{5} $ (4)

其中:$ {W}^{\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{v}}\in {\mathbb{R}}^{k\times w} $$ f $为线性修正单元(ReLU);$ b $为偏置项,将不同卷积核提取的局部特征拼接,得到最终的特征表示。

2)文本图结构

对于一个有$ n $个节点的图,文本图结构可以用形状为$ n\times n $的邻接矩阵表示。本文中图结构的构建主要分为两个步骤。给定包含$ n $个汉字的句子$ S=\{{c}_{1}, {c}_{2}, \cdots, {c}_{n}\} $,将句子中每个字作为图的节点。首先连接所有相邻的节点,由于信息传递的方向性对于序列标注任务具有重要意义,因此在句子的第$ i $个字和第$ i+1 $个字之间($ {c}_{i} $$ {c}_{i+1} $之间)都连接2条方向相反的边。其次连接词汇边,若$ i $$ j $是第$ i $个字从字典中匹配到词的开始节点和结束节点,本文在这2个节点之间连接2条方向相反的边,即令$ {A}_{i, j}=1, {A}_{j, i}=1 $。字词结合的有向图如图 4所示。

Download:
图 4 字词结合的有向图 Fig. 4 Directed graph containing word-character

图 4可以看出,如果一个节点在字典中匹配到词汇数不止一个,则该节点和与之构成词汇的所有节点之间都存在相应的边,这样在后续的传递过程中可以同时学习所有词汇与字的信息,有效消除字或词汇固有序列的影响。

2.2 基于门控机制图神经网络

门控图神经网络(GGNN)是一种基于GRU的经典空间域消息传递模型[37],与GCN等其他图神经结构相比,GGNN在捕捉长距离依赖方面优于GCN,更适合于中文的NER任务。本文将特征表示层得到的词向量和邻接矩阵传入GGNN进行上下文语义学习。信息传递过程如式(5)~式(10)所示:

$ \mathit{\boldsymbol{h}}_{i}^{0}=\mathit{\boldsymbol{h}}_{i} $ (5)
$ {a}_{i}^{t}=\mathit{\boldsymbol{A}}_{i:}^{\mathrm{T}}[\mathit{\boldsymbol{h}}_{1}^{(t-1)\mathrm{T}}, \mathit{\boldsymbol{h}}_{2}^{(t-1)\mathrm{T}}, \cdots, \mathit{\boldsymbol{h}}_{\left|i\right|}^{(t-1)\mathrm{T}}{]}^{\mathrm{T}}+b $ (6)
$ {z}_{i}^{t}=\sigma ({W}^{z}{a}_{i}^{t}+{U}^{z}\mathit{\boldsymbol{h}}_{i}^{t-1}) $ (7)
$ {r}_{i}^{t}=\sigma ({W}^{r}{a}_{i}^{t}+{U}^{r}\mathit{\boldsymbol{h}}_{i}^{t-1}) $ (8)
$ \tilde{\mathit{\boldsymbol{h}}}_{i}^{t}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}(W{a}_{i}^{t}+U({r}_{i}^{t}\odot \mathit{\boldsymbol{h}}_{i}^{t-1}\left)\right) $ (9)
$ \mathit{\boldsymbol{h}}_{i}^{t}=(1-{z}_{i}^{t})\odot \mathit{\boldsymbol{h}}_{i}^{t-1}+{z}_{i}^{t}\odot \tilde{\mathit{\boldsymbol{h}}}_{i}^{t} $ (10)

其中:$ {\mathit{\boldsymbol{h}}_{i}}^{\left(0\right)} $为特征表示层获得的词向量矩阵;$ \mathit{\boldsymbol{A}}_{i:} $为从邻接矩阵中,选定节点$ i $对应的行向量;$ \mathit{\boldsymbol{h}}_{i}^{t-1} $$ t-1 $时刻节点$ i $的信息;$ {a}_{i}^{t} $为节点$ i $$ t $时刻的状态信息。图中每个节点都通过该节点对应的传入边和传出边进行信息传递。式(7)~式(9)是普通的GRU更新信息过程。

2.3 条件随机场层

条件随机模型可以看成是一个无向图模型或马尔科夫随机场,用于学习标签的约束,解决标签偏置问题。对于给定的观察列,通过计算整个标记序列的联合概率的方法获得最优标记序列。随机变量$ X=\{{x}_{1}, {x}_{2}, \cdots, {x}_{n}\} $表示观察序列,随机变量$ Y=\{{y}_{1}, {y}_{2}, \cdots, {y}_{n}\} $表示相应的标记序列,$ P\left(Y\left|X\right.\right) $表示在给定$ X $的条件下$ Y $的条件概率分布,则CRF计算如式(11)所示:

$ P\left(y\left|x\right.\right)=\frac{\sum \limits_{t=1}^{T}{\mathrm{e}}^{f\left({y}_{t-1},\;{y}_{t},\;x\right)}}{\sum \limits_{y^{'}}^{Y\left(x\right)}\sum \limits_{t=1}^{T}{\mathrm{e}}^{f\left(y{{'}}_{t-1},y{^{'}}_{t},x\right)}} $ (11)

其中:$ Y\left(x\right) $为所有可能的标签序列;$ f({y}_{t-1}, {y}_{t}, x) $用于计算$ {y}_{t-1} $$ {y}_{t} $的转移分数和$ {y}_{t} $的分数。最后使得$ P\left(y\right|x) $分数最大的标记序列$ y $,即句子对应的实体标签序列如式(12)所示:

$ {Y}^{\mathrm{*}}=\underset{y}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}}P\left(y|x\right) $ (12)
3 实验 3.1 数据集

本文实验的数据集包括旅游数据集和简历数据集。

1)旅游数据集,目前还没有公认度较高的旅游领域数据集,本文从去哪儿网、携程、马蜂窝等旅游网站收集有关新疆的旅游攻略,经过去除空白行、空格、非文本相关内容等预处理操作,得到旅游领域文本1 200余篇。旅游数据集使用NLTK工具对预处理后的语料进行半自动化标注,之后进行人工校对、标注,构建用于旅游领域实体识别的训练集、评估集和测试集,并通过高德地图旅游景点数据和旅游网站检索构造旅游景点词典。

针对旅游领域实体类型的定义,本文参考文献[7]的分类标准,将旅游领域实体分为地名、景点名、特色美食3大类。考虑到新疆地域的特点,本文新增了人名、民族2种实体类型,采用BIOES标注体系进行实体标注,例如天山大峡谷位于乌鲁木齐县境内,按照采用的标注体系可以标记为“天/B-SA山/I-SA大/I-SA峡/I-SA谷/E-SA位/O于/O乌/B-LOC鲁/I-LOC木/I-LOC齐/I-LOC县/E-LOC境/O内/O”。旅游数据集训练集合计4 176,验证集合计541,测试集合计540。旅游数据集实体信息如表 1所示。

下载CSV 表 1 旅游数据集实体信息 Table 1 Entities information of tourism dataset

2)简历数据集,文献[27]提出该数据集共有CONT(country)、EDU(educational institution)、LOC、PER、ORG、PRO(profession)、RACE(ethics background)和TITLE(job title)8种不同的实体类型。

旅游数据集和简历数据集的数据统计如表 2所示。

下载CSV 表 2 旅游数据集和简历数据集的数据统计 Table 2 Data statistics of tourism and resume datasets

实验使用的预训练词向量表来源于文献[38],通用的词典来源于文献[27],该字典包含704.4×103个词,其中单个字有5.7×103个,2个字构成的词有291.5×103个,3个字构成的词有278.1×103个,其他129.1×103个。

3.2 模型对比

为验证模型的有效性,本文使用现有的应用于旅游领域NER任务的机器学习方法和主流的深度学习模型进行对比。

1)HMM模型[6],以HMM算法为原理,用于旅游领域NER任务;

2)CRF模型[7]使用层叠条件随机场方法解决旅游实体嵌套问题;

3)BiLSTM+CRF模型是NER任务的经典模型;

4)BiLSTM+CRF(融合bigram)模型为验证bigram对NER任务的作用,设计包含bigram特征的BiLSTM+CRF模型进行对比分析;

5)Transformer+CRF模型[21],Transformer具有强大的特征提取能力,在很多的自然语言处理任务中逐渐取代RNN模型,所以本文加入该模型的对比;

6)ID-CNN+CRF模型[24],膨胀卷积、空洞卷积主要是通过扩大感受域的方法获得更广泛的序列信息,在英文NER任务上曾取得最佳成绩;

7)Lattice LSTM模型[27],该模型是字词结合训练的代表性方法,创造性地将字符和词汇通过网格的方法融合在一起,并且在MSRA、Weibo、OntoNotes4、Resume这4个数据集上取得最好成绩;

8)Bert+CRF模型,Bert作为一种预训练模型,在自然语言处理的多项任务中逐渐成为主流模型。

3.3 实验环境与参数设置

本文模型使用的GPU为GeForce GTX 1080Ti,操作系统为Ubuntu18.04,编程语言为Python3.6,框架为PyTorch 1.1.0。为实体识别算法的一致性,本文设置初始化参数,预训练词向量维度为300,GGNN神经元个数为200,丢码率为0.5,初始学习率为0.001,衰减率为0.05。

3.4 评价指标

评价指标采用准确率($ P $)、召回率($ R $)和$ \mathrm{F}1 $值,如式(13)、式(14)所示:

$ P=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}}\times 100\mathrm{\%} $ (13)
$ R=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}}\times 100\mathrm{\%} $ (14)

其中:$ {T}_{\mathrm{T}\mathrm{P}} $为正确识别的实体个数;$ {F}_{\mathrm{F}\mathrm{P}} $为识别不相关的实体个数;$ {F}_{\mathrm{F}\mathrm{N}} $为数据集中存在且未被识别出来的实体个数。

通常精确率和召回率的数值越高,代表实验的效果好。一般精确率和召回率会出现矛盾的情况,即精确率越高,召回率越低。$ \mathrm{F}1 $值综合考量两者的加权调和平均值,$ \mathrm{F}1 $值如式(15)所示:

$ \mathrm{F}1=\frac{2PR}{P+R}\times 100\mathrm{\%} $ (15)
3.5 实验结果分析

在旅游领域NER数据集上,本文选择HMM、CRF、BiLSTM+CRF、BiLSTM+CRF(融合bigram)、Transformer+CRF、ID-CNN+CRF、Lattice LSTM、Bert+CRF等模型进行实验。不同模型的实验结果对比如表 3所示,*Dic为自建词典。

下载CSV 表 3 在旅游数据集上不同模型的实验结果对比 Table 3 Experimental results comparison among different models on tourism dataset 

表 3可以看出,HMM和CRF模型在旅游领域NER任务上的PR、F1数值都低于其他深度学习模型,HMM模型仅依赖于当前状态和对应的观察对象,序列标注问题不仅与单个词相关,还与观察序列的长度、单词的上下文等相关。CRF模型解决了标注偏置问题,识别效果相较于HMM模型有很大程度的提高。由于CRF模型不能充分捕捉上下文语义信息,因此在不规范的旅游文本上识别效果不佳。

与ID-CNN+CRF模型相比,BiLSTM+CRF模型的识别效果较优,BiLSTM模型能够获得长距离依赖关系,加强对语义的理解,ID-CNN模型虽然通过扩大感受域的方法加强距离关系的捕捉,但仍存在不足。BiLSTM+CRF模型融合bigram特征后,对实体识别的效果略有提升,表明加入bigram特征可以提高NER效果。

对比Transformer+CRF与BiLSTM+CRF模型,Transformer+CRF模型在命名实体识别效果上低于BiLSTM+CRF模型。Transformer在方向性、相对位置、稀疏性方面不适合NER任务。虽然Transformer对位置信息进行编码,但在NER任务上,效果仍然不理想。

Lattice LSTM模型通过字典的方式融合词汇信息与字符信息以提升NER效果,由于其严格的序列学习特性,每次都会按照匹配词出现的顺序学习,因此会出现歧义现象。Lattice LSTM模型实验效果相较于L-CGNN模型较差。

Bert+CRF模型在该任务上的结果优于Lattice LSTM模型。Bert利用Transformer编码器提高特征提取能力,获得充分的上下文信息。对于旅游领域,词典是非常重要的外部资源,对于NER等任务具有十分重要的意义。因此,L-CGNN(*Dic)模型在旅游数据集上识别效果优于Bert+CRF模型。

本文提出L-CGNN模型通过词典构建有向图结构,利用图神经网络获得语义信息,不仅融合字符与词汇信息,还可以利用图特殊的结构进行传递。在每次计算时,L-CGNN模型同时将节点匹配到与所有词汇信息相融合,从而减少词序导致的歧义现象。

为验证L-CGNN模型解决匹配词先后顺序对NER效果的影响,本文在公开的简历数据集上进行实验,实验结果如表 4所示。

下载CSV 表 4 在简历数据集上不同模型的实验结果对比 Table 4 Experimental results comparison among different models on resume dataset 

表 4可以看出,Transformer+CRF中的PR没有公布,所以未能获取。与其他模型(除Bert+CRF模型外)相比,L-CGNN模型在PR、F1值上的分数较高。本文模型略低于Bert+CRF模型,主要是因为有向图结果依赖于字典的质量,通用的词典质量低于专有领域词典,未能取得与旅游领域一样高于Bert+CRF模型的数值。这组实验进一步表明L-CGNN模型具有一定的泛化能力。

3.6 消融实验

为探讨不同特征对实验结果的影响,本文分别去除某些特征进行命名实体的识别,实验结果如表 5所示。W/O代表去除该特征,例如W/O lexicon代表去除字典信息。

下载CSV 表 5 不同特征对实验结果的影响 Table 5 Influence of different features on experimental results 

表 5可以看出,在两个数据集上,如果去除字典特征,最终的识别效果较差。同样的,在去除bigram特征的情况下,模型的识别效果也会被削弱。同时去除字典和bigram两个特征后,F1值有了很大程度降低,说明加入的特征能够改善最终的识别效果。

3.7 收敛速率与资源消耗对比

为进一步说明本文模型的性能,本文对比BiLSTM+CRF、Lattice LSTM和L-CGNN这3种模型的收敛速度。不同模型的收敛曲线对比如图 5所示。

Download:
图 5 不同模型的收敛曲线对比 Fig. 5 Convergence curves comparison among different models

图 5可以看出,L-CGNN模型的收敛速度优于其他模型。BiLSTM+CRF模型通过双向LSTM学习,使得信息更新较慢,并且没有包含任何词汇特征,因此,识别速率提升较慢。Lattice LSTM和L-CGNN模型都包含字典外部信息,识别效果相对较好。在一段时间后,L-CGNN模型识别效果明显优于Lattice LSTM模型,说明本文模型在融合词汇方面具有较优的效果。

在资源消耗方面,本文从训练时间上分别对HMM、CRF、BiLSTM+CRF、Lattice LSTM、L-CGNN等模型进行对比实验,结果如表 6所示。

下载CSV 表 6 在旅游数据集上不同模型的训练时间对比 Table 6 Training time comparison among different models on tourism dataset 

表 6可以看出,HMM和CRF模型是基于机器学习方法,所以训练速度较快,但识别效果欠佳。相比BiLSTM+CRF模型,由于L-CGNN模型构建邻接矩阵,因此在训练上的时间消耗略大。对比融合词典的Lattice LSTM模型,L-CGNN模型的时间消耗较低,且具有最优的识别效果。

4 结束语

针对旅游领域的命名实体识别任务,本文提出基于字典构建文本的有向图结构模型,通过卷积神经网络提取字特征,利用词典构建句子的有向图,生成对应的邻接矩阵,并将包含局部特征的词向量和邻接矩阵输入图神经网络中,引入条件随机场得到最优的标记序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,本文模型具有较高的识别准确率。后续将研究更有效的图神经网络,用于命名实体识别,进一步提高实体识别准确率。

参考文献
[1]
王浩畅, 赵铁军. 基于SVM的生物医学命名实体的识别[J]. 哈尔滨工程大学学报, 2006, 27(7): 570-574.
WANG H C, ZHAO T J. SVM-based biomedical named entity recognition[J]. Journal of Harbin Engineering University, 2006, 27(7): 570-574. (in Chinese)
[2]
罗凌, 杨志豪, 宋雅文, 等. 基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J]. 计算机学报, 2020, 43(10): 1943-1957.
LUO L, YANG Z H, SONG Y W, et al. Research on naming entity recognition of Chinese electronic medical records based on stroke ELMo and multi-task learning[J]. Chinese Journal of Computers, 2020, 43(10): 1943-1957. (in Chinese)
[3]
李源, 马磊, 邵党国, 等. 用于社交媒体的中文命名实体识别[J]. 中文信息学报, 2020, 34(8): 61-69.
LI Y, MA L, SHAO D G, et al. Chinese named entity recognition for social media[J]. Journal of Chinese Information Processing, 2020, 34(8): 61-69. (in Chinese)
[4]
LEAMAN R, WEI C H, LU Z Y, et al. TmChem: a high performance approach for chemical named entity recognition and normalization[J]. Journal of Cheminformatics, 2015, 7: 1-10. DOI:10.1186/s13321-014-0049-z
[5]
汤亚芬. 先秦古汉语典籍中的人名自动识别研究[J]. 现代图书情报技术, 2013, 29(7/8): 63-68.
TANG Y F. Study on automatic recognition of names in ancient Chinese classics before Qin dynasty[J]. Modern Library and Information Technology, 2013, 29(7/8): 63-68. (in Chinese)
[6]
薛征山, 郭剑毅, 余正涛, 等. 基于HMM的中文旅游景点的识别[J]. 昆明理工大学学报(理工版), 2009, 34(6): 44-48.
XUE Z S, GUO J Y, YU Z T, et al. Recognition of Chinese tourist attractions based on HMM[J]. Journal of Kunming University of Science and Technology (Science and Technology Edition), 2009, 34(6): 44-48. (in Chinese)
[7]
郭剑毅, 薛征山, 余正涛, 等. 基于层叠条件随机场的旅游领域命名实体识别[J]. 中文信息学报, 2009, 23(5): 47-53.
GUO J Y, XUE Z S, YU Z T, et al. Recognition of named entities in the tourism field based on stacked conditional random fields[J]. Journal of Chinese Information Processing, 2009, 23(5): 47-53. (in Chinese)
[8]
刘小安, 彭涛. 基于卷积神经网络的中文景点识别研究[J]. 计算机工程与应用, 2020, 56(4): 140-145.
LIU X A, PENG T. Research on Chinese scenic spot recognition based on convolutional neural network[J]. Computer Engineering and Applications, 2020, 56(4): 140-145. (in Chinese)
[9]
EKBAL A, BANDYOPADHYAY S. Named entity recognition using support vector machine: a language independent approach[J]. International Journal of Computer Systems Science & Engineering, 2010, 4(3): 589-604.
[10]
SAITO K, NAGATA M. Multi-language named-entity recognition system based on HMM[C]//Proceedings of the Workshop on Multilingual and Mixed-language Named Entity Recognition(NER@ACL). New York, USA: ACM Press, 2003: 41-48.
[11]
LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C] //Proceedings of the 8th International Conference on Machine Learning. New York, USA: ACM Press, 2001: 282-289.
[12]
VARGA D, SIMON E. Hungarian named entity recognition with a maximum entropy approach[J]. Acta Cybernetica, 2007, 18(2): 293-301.
[13]
COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.
[14]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[15]
CHO K, MERRIENBOER V B, GULCEHRE D, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Washington D. C., USA: IEEE Press, 2014: 1724-1734.
[16]
GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6): 602-610.
[17]
HUANG Z H, WEI X, KAI Y. Bidirectional LSTM-CRF models for sequence tagging [EB/OL]. [2020-10-15]. https://arxiv.org/pdf/1508.01991.pdf.
[18]
MA X, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016: 1064-1074.
[19]
HABIBI M, WEBER L, NEVES M L, et al. Deep learning with word embeddings improves biomedical named entity recognition[J]. Bioinformatics, 2017, 33(14): 37-48. DOI:10.1093/bioinformatics/btx228
[20]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of Advances in Neural Information Processing Systems. New York, USA: ACM Press, 2017: 6000-6010.
[21]
YAN H, DENG B, LI X, et al. TENER: adapting transformer encoder for named entity recognition[EB/OL]. [2020-10-15]. https://arxiv.org/pdf/1911.04474.pdf.
[22]
HE J Z, WANG H F. Chinese named entity recognition and word segmentation based on character[C]//Proceedings of International Joint Conference on Natural Language Processing. New York, USA: ACM Press, 2008: 128-132.
[23]
LIU Z, ZHU C, ZHAO T. Chinese named entity recognition with a sequence labeling approach: based on characters, or based on words?[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing. Berlin, Germany: Springer, 2010: 128-132.
[24]
GUI T, MA R, ZHANG Q, et al. CNN-based chinese ner with lexicon rethinking[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China: [s. n.], 2019: 4982-4988.
[25]
YAN X, YINING W, TIANREN L, et al. Joint segmentation and named entity recognition[J]. Journal of the American Medical Informatics Association, 2013, 21(1): 84-92.
[26]
WU F, LIU J, WU C, et al. Neural chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation[C]//Proceedings of the World Wide Web Conference. New York, USA: ACM Press, 2019: 3342-3348.
[27]
ZHANG Y, YANG J. Chinese NER using Lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. New York, USA: ACM Press, 2018: 1554-1564.
[28]
CHARLES A P, HAITAN L. The constituency model of chinese word identification[M]. London, UK: Psychology Press, 2021.
[29]
GORI M, MONFARDINI G, SCARSELLI F, et al. A new model for learning in graph domains[C]// Proceedings of IEEE International Joint Conference on Neural Networks. Washington D. C., USA: IEEE Press, 2005: 729-734.
[30]
BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[EB/OL]. [2020-10-15]. https://arxiv.org/pdf/1312.6203v2.pdf.
[31]
VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. [2020-10-15]. https://arxiv.org/pdf/1710.10903.pdf.
[32]
YOU J, YING R, XIANG R, et al. GraphRNN: a deep generative model for graphs [EB/OL]. [2020-10-15]. https://ar.xiv.org/pdf/1802.08773.pdf.
[33]
YAO L, MAO C, LUO Y, et al. Graph convolutional networks for text classification[C]//Proceedings of National Conference on Artificial Intelligence. [S. l.]: AAAI Press, 2019: 7370-7377.
[34]
ZHANG Y, QI P, MANNING C D, et al. Graph convolution over pruned dependency trees improves relation extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: ACL, 2018: 2205-2215.
[35]
CHEN X C, QIU X P, ZHU C, et al. Long short-term memory neural networks for chinese word segmentation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: [s. n.], 2015: 1197-1206.
[36]
LIN C Y, XUE N, ZHAO D, et al. Character-based LSTM-CRF with radical-level features for chinese named entity recognition[C]//Proceedings of National CCF Conference on Natural Language Processing and Chinese Computing. Berlin, Germany: Springer, 2016: 239-250.
[37]
LI Y J, TARLOW D, BROCKSCHMIDT M, et al. Gated graph sequence neural networks[EB/OL]. [2020-10-15]. https://arxiv.org/pdf/1511.05493.pdf.
[38]
LI S, ZHAO Z, HU R, et al. Analogical reasoning on chinese morphological and semantic relations[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: [s. n.], 2018: 138-143.