基于BERT的电机领域中文命名实体识别方法

引用本文

顾亦然, 霍建霖, 杨海根, 等. 基于BERT的电机领域中文命名实体识别方法[J]. 计算机工程, 2021, 47(8), 78-83, 92. DOI: 10.19678/j.issn.1000-3428.0058838.

GU Yiran, HUO Jianlin, YANG Haigen, et al. BERT-Based Chinese Named Entity Recognition Method in Motor Field[J]. Computer Engineering, 2021, 47(8), 78-83, 92. DOI: 10.19678/j.issn.1000-3428.0058838.

基金项目

国家部委基金

作者简介

顾亦然(1972-), 女, 教授、博士, 主研方向为复杂网络、嵌入式系统;
霍建霖, 硕士研究生;
杨海根, 副教授、博士;
卢逸飞, 硕士研究生;
郭玉雯, 硕士研究生

文章历史

收稿日期：2020-07-06
修回日期：2020-08-11

Contents Abstract Full text Figures/Tables PDF

基于BERT的电机领域中文命名实体识别方法

顾亦然¹ , 霍建霖¹ , 杨海根² , 卢逸飞¹ , 郭玉雯¹

1. 南京邮电大学自动化学院人工智能学院, 南京 210023;
2. 南京邮电大学宽带无线通信技术教育部工程研究中心, 南京 210003

收稿日期：2020-07-06；修回日期：2020-08-11

基金项目：国家部委基金

作者简介：顾亦然(1972-), 女, 教授、博士, 主研方向为复杂网络、嵌入式系统; 霍建霖, 硕士研究生; 杨海根, 副教授、博士; 卢逸飞, 硕士研究生; 郭玉雯, 硕士研究生.

E-mail: guyr@njupt.edu.cn

摘要：针对电机领域实体识别精度较低的问题，提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量，将字向量序列输入双向长短期记忆神经网络进行双向编码，同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注，并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明，与基于BiLSTM-CRF、BiLSTM-CNN和BiGRU的实体识别方法相比，该方法具有更高的准确率、召回率和F1值，并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。

BERT-Based Chinese Named Entity Recognition Method in Motor Field

GU Yiran¹ , HUO Jianlin¹ , YANG Haigen² , LU Yifei¹ , GUO Yuwen¹

1. College of Automation & College of Artificial Intelligence, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2. Engineering Research Center of Wideband Wireless Communication Technology, Ministry of Education, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

Abstract: For motor-related texts, accuracy of Named Entity Recognition (NER) is relatively low. A method for Chinese NER based on a BERT pre-training language model is proposed. The BERT model is used to enhance the semantic representation of words and dynamically generate word vectors based on context features. Then the word sequence is input into the Bidirectional Long Short-Term Memory (BiLSTM) neural network for bidirectional encoding, and the entity recognition results are labeled by using the Conditional Random Field (CRF) algorithm. A data set is built for experiments, and labeled according to the characteristics of the motor-related texts. The entities in the texts are categorized into physical objects, characteristic descriptions, problems/faults, methods/technologies. Experimental results show that the proposed method has higher accuracy, recall rate and F1 value than the BiLSTM-CRF-based, BiLSTM-CNN-based or BiGRUNER-based methods. The proposed method can effectively solve the problems of insufficient annotation data and fuzzy entity boundaries in the NER tasks for the motor-related texts.

开放科学（资源服务）标志码（OSID）：

0 概述

自然语言处理（Nature Language Processing，NLP）是人工智能领域的热点研究方向，广泛应用于机器翻译、语音识别、情感分析、问答系统、文本分类、知识图谱等任务。命名实体识别（Named Entity Recognition，NER）作为自然语言处理的一项基本任务，旨在从非结构化文本中识别出特定意义和类型的实体^[1]。深度学习模型是一种不依赖人工特征的端到端模型，利用神经网络学习文本的特征信息，将实体识别任务当作序列标注任务^[2]，主要包括卷积神经网络（Convolutional Neural Network，CNN）、长短期记忆神经（Long Short-Term Memory，LSTM）网络、门控循环单元（Gated Recurrent Unit，GRU）、循环神经网络（Recurrent Neural Network，RNN）等^[3-5]模型。HAMMERTON等^[6]将LSTM神经网络用于命名实体识别任务。COLLOBERT等^[7]提出CNN-CRF神经网络模型。LAMPLE等^[8]采用字符级的单词表示，并利用LSTM和CRF提取实体。HUANG等^[9]通过BiLSTM-CRF模型识别CONNLL2003数据集中的英文实体，F1值达到88.83%。买买提阿依甫等^[10]根据维吾尔文的特点，构建基于BiLSTM-CNN-CRF的实体识别模型。李健龙等^[11]利用CNN对字向量进行处理，并使用融合自注意力机制的BiLSTM模型进行军事领域的实体识别，取得了87.38%的F1值。李明浩等^[12]使用LSTM和CRF相结合的方法提取中医临床症状中的实体。ZHANG等^[13]提出Lattice LSTM模型，利用改进的LSTM获取特征信息，在MSRA数据集中取得了93.18%的F1值。

为使词语能包含丰富的语义信息及句法特征，研究人员陆续提出使用预训练语言模型来获取词语的表示。PETERS等^[14]提出ELMo模型，采用双向LSTM进行拼接，可在一定程度上解决模型只能学习单向信息的问题。RADFORD等^[15]提出OpenAI GPT模型，使用Transformer编码代替LSTM来捕捉长距离信息，但其只能从左到右获取单向语义信息。DEVLIN等^[16]提出BERT模型，采用双向Transformer编码器和自注意力机制对大规模公开数据集进行预训练，从而得到表征能力更强的预训练字向量。

目前，研究人员对于通用领域的命名实体识别已取得了一定的成果，F1值可达90%以上^[17]，但在专业领域中由于缺乏领域标注数据，且人工标注成本高，实体识别难度大，因此利用迁移学习、远程监督学习等方法解决专业领域的命名实体识别成为近年来的研究热点。电机领域的实体识别与通用领域不同，具有该领域实体的特殊性。一方面，电机相关文本中涉及的术语专业性强，同时缺乏统一的规范和标准，在通用词库中一般不包含这些术语。另一方面，电机领域中通常存在名词简写、实体之间相互包含、多层嵌套的情况，实体组成复杂，传统方法对于这些实体的识别正确率和覆盖率较低^[18]。经统计发现，目前尚没有有关电机领域的命名实体识别的研究，同时电机领域也没有公开的大规模标记数据集。因此，如何有效利用小规模且具有少量标注的领域数据集提高实体识别效果并减少标注成本显得尤为重要。

针对电机领域的专业名词，本文设计一种基于BERT-BiLSTM-CRF的电机领域实体识别方法，将BERT预训练语言模型作为特征表示层，提取实物、特性描述、问题/故障、方法/技术4个类别实体，并在自建数据集上进行实验验证。

1 基于BERT-BiLSTM-CRF的电机领域实体识别 1.1 BERT-BiLSTM-CRF模型整体结构

BERT-BiLSTM-CRF模型主要由BERT特征表示层、BiLSTM网络层、CRF推理层3个部分构成。首先，将字符序列输入到BERT特征表示层，对每个字符进行编码得到对应字符的字向量表示；接着，利用BiLSTM层对字向量序列进行双向编码；最后，利用CRF推理层输出概率最大的标签序列，并将其作为模型最终的预测标签。BERT-BiLSTM-CRF模型整体结构如图 1所示，其中，电、机、的、结、构为模型输入的字符序列，h₁、h₂、h₃、h₄、h₅表示BiLSTM隐含层的输出，B-N、I-N、O表示模型的输出标签，0.1、0.2、0.6、0.9表示模型预测为某种标签的概率值。

	Download: JPG larger image
图 1 BERT-BiLSTM-CRF模型整体结构 Fig. 1 The overall structure of BERT-BiLSTM-CRF model

1.2 BERT特征表示层

在NLP领域中，利用词嵌入（word embedding）方式将一个词映射到一个低维稠密的语义空间，可有效解决传统机器学习方法存在的文本特征稀疏问题，从而使得语义空间上相似的词具有更近的距离。利用Word2vec、GloVe等神经网络模型生成的词向量多数与上下文无关或者难以学习到更多的上下文信息来表征字词的多义性。BERT模型在很多NLP任务中均取得了较优的效果，通过无监督方式从大规模无标签数据集中学习得到，并充分考虑字符级、词语级、句字级和句间的关系特征，增强字向量的语义表示，同时将这些语义知识通过迁移学习应用在数据规模和标注量较少的电机领域的命名实体识别任务上，能使模型更好地挖掘电机领域文本的特征信息。

BERT模型使用多个Transformer双向编码器对字符进行编码。BERT网络结构如图 2所示，其中，E₁，E₂，…，E_N为模型的输入向量，T₁，T₂，…，T_N为模型的输出向量，Trm为Transformer编码器。

	Download: JPG larger image
图 2 BERT预训练语言模型结构 Fig. 2 BERT pre-training language model structure

1.2.1 Transformer结构

BERT预训练模型采用多层双向Transformer编码结构^[19]，每个单元主要由自注意力机制（Self-Attention）和前馈神经网络（Feed Forward）组成，如图 3所示，其中，X₁、X₂表示输入词向量。

	Download: JPG larger image
图 3 Transformer编码结构 Fig. 3 Transformer coding structure

Transformer的关键部分是使用自注意力机制代替传统CNN和RNN，解决了NLP长期依赖问题^[20]。具体方法是将输入句子中的每一个词都和句中的所有词做Attention计算，目的是为了获得词与词之间的相互关系，并捕获句子的内部结构，在一定程度上反映了不同词语之间存在的关联和重要程度，计算公式如下：

$ {\rm{Attention}}\left( {\mathit{\boldsymbol{Q}}, \mathit{\boldsymbol{K}}, \mathit{\boldsymbol{V}}} \right) = {\rm{softmax}}\left( {\frac{{\mathit{\boldsymbol{Q}}{\mathit{\boldsymbol{K}}^{\rm{T}}}}}{{\sqrt {{d_k}} }}} \right)\mathit{\boldsymbol{V}} $

(1)

其中：Q、K、V为编码器的输入字向量矩阵；d_k为输入向量的维度。

1.2.2 输入表示

BERT的输入是由词嵌入、句子嵌入和位置嵌入3个部分叠加来表示一个输入的文本序列。如图 4所示，Token Embeddings表示词向量，并且第一个单词是CLS标志，可用于后续NLP的下游任务分类，Segment Embeddings表示句子向量，用于区分两个句子，Position Embeddings表示BERT模型所学习到的位置向量。

	Download: JPG larger image
图 4 BERT输入向量表示 Fig. 4 BERT input vector representation

1.2.3 预训练任务

BERT包括Masked语言模型和下一句预测两个无监督预训练任务，目标是获取词语级和句子级的特征表示：

1）Masked语言模型。Masked语言模型是为了使模型学习并融合左右两侧的上下文信息。具体方法为随机遮盖15%的词，使训练模型预测并掩盖部分的原始词汇，其中，80%被遮挡词用masked token代替，10%被遮挡词用一个随机词汇代替，10%被遮挡词保持该词不变。

2）下一句预测。下一句预测是为了使模型学习两个句子之间的关联关系，并在模型中预训练一个二分类模型。在该任务中有50%的概率从语料库中抽取上下文连续的两句句子，然后利用模型预测抽取的两个句子之间的关系，并用IsNext/NotNest标签进行标记。

1.3 BiLSTM网络层

在NER任务中，通常使用RNN来处理这类序列标注问题，但是当序列长度过长时会出现梯度消失问题^[1]，难以学习到中间的长期依赖特征。LSTM对传统RNN作了较大改进，引入记忆单元和门限机制来捕捉长距离信息并解决了梯度消失的问题，在命名实体识别任务中取得了较好的效果。LSTM单元结构如图 5所示，包含了遗忘门、输入门和输出门3种门结构，通过保持和更新网络的状态来实现长期记忆功能。

	Download: JPG larger image
图 5 LSTM单元结构 Fig. 5 LSTM unit structure

LSTM网络隐藏层的输出表示如式（2）~式（6）所示：

$ {\mathit{\boldsymbol{i}}_t} = \sigma \left( {{\mathit{\boldsymbol{W}}_{ix}} + {\mathit{\boldsymbol{W}}_{ih}} + {\mathit{\boldsymbol{b}}_i}} \right) $

(2)

$ {\mathit{\boldsymbol{f}}_t} = \sigma \left( {{\mathit{\boldsymbol{W}}_{fx}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{W}}_{fh}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_f}} \right) $

(3)

$ {\mathit{\boldsymbol{o}}_t} = \sigma \left( {{\mathit{\boldsymbol{W}}_{ox}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{W}}_{oh}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_o}} \right) $

(4)

$ \mathit{\boldsymbol{\tilde c}} = {\rm{tanh}}\left( {{\mathit{\boldsymbol{W}}_{cx}}{\mathit{\boldsymbol{x}}_t} + {\mathit{\boldsymbol{W}}_{ch}}{\mathit{\boldsymbol{h}}_{t - 1}} + {\mathit{\boldsymbol{b}}_c}} \right) $

(5)

$ {\mathit{\boldsymbol{h}}_t} = {\mathit{\boldsymbol{o}}_t} \otimes {\rm{tanh}}\left( {{c_t}} \right) $

(6)

其中：W、b分别表示连接两层的权重矩阵和偏置向量；σ表示sigmoid激活函数；⊗表示点乘运算；x_t表示t时刻的输入向量；i_t、f_t和o_t分别表示t时刻的输入门、遗忘门和输出门；${\tilde c_t}$表示t时刻的状态；h_t表示t时刻的输出。

BiLSTM神经网络是由前向LSTM和后向LSTM组合而成，它对输入序列分别采用顺序和逆序计算后得到两种不同的隐含层表示，然后通过向量拼接的方式得到最终的隐含层特征表示。由于BiLSTM神经网络能较好地捕捉双向的语义信息，学习上下文关系，有效提升命名实体识别效果，因此在当前的序列标注任务中成为主流模型。

1.4 CRF推理层

为使模型学习到标签之间的约束信息，在BiLSTM网络层后加入了CRF推理层。CRF通过考虑相邻标签之间的关系对前面模型的输出结果加以限制来保证预测标签的合理性^[21]。CRF算法步骤具体如下：

1）对于输入序列x=(x₁, x₂, …, x_n)，其对给定的标签序列y=(y₁, y₂, …, y_n)的评分如式（7）所示：

$ S\left( {x, y} \right) = \mathop \sum \limits_{i = 0}^n {\mathit{\boldsymbol{A}}_{{y_i}, {y_{i + 1}}}} + \mathop \sum \limits_{i = 1}^n {\mathit{\boldsymbol{P}}_{i, {y_i}}} $

(7)

其中：A表示转移得分矩阵且${\boldsymbol{A}}\in {{\mathbb{R}}^{\left( k+2 \right)\times \left( k+2 \right)}}$，A_ij表示由标签i转移到标签j的转移得分；y₀和y_n+1表示句中起始和终止标签；矩阵P为BiLSTM层的输出且${\boldsymbol{P}}\in {{\mathbb{R}}^{n\times k}}$，P_ij表示第i个词在第j个标签下的输出得分，n表示序列长度，k表示标签个数。

2）使用softmax函数归一化得到序列y标签的最大概率，如式（8）所示：

$ P(y|x) = \frac{{{{\rm{e}}^{S\left( {x, y} \right)}}}}{{\sum\limits_{\tilde y \in {Y_x}} {{{\rm{e}}^{S\left( {x, \tilde y} \right)}}} }} $

(8)

其中：$\tilde y$表示真实标记值；Y_x表示所有可能标记的集合。在训练过程中，最大化正确标签序列的似然概率，如式（9）所示：

$ {\rm{lo}}{{\rm{g}}_a}P(y|x) = S\left( {x, y} \right) - \mathop \sum \limits_{\tilde y \in {Y_x}}^n S\left( {x, \tilde y} \right) $

(9)

3）利用Viterbi算法求得所有序列上预测总得分最高的序列作为最优序列，即最终电机领域实体识别的标注结果，如式（10）所示：

$ {y^{\rm{*}}} = \mathop {{\rm{argmax}}}\limits_{\tilde y \in {Y_x}} S\left( {x, \tilde y} \right) $

(10)

2 实验与结果分析 2.1 实验数据预处理

采用爬虫方式从百度学术获取电机相关文献，对获取的文献进行清洗和去重，结合领域专家意见选取500篇文献构成领域文本，并对文献摘要部分做人工标注，作为实验数据集。电机领域实体类别定义如下：

1）标志符号为N，实体类别为实物（OBJECT），类别定义为包括各种类型的电机及其内部结构，示例为流电机、永磁无刷电机、同步电动机、电枢、定子、转子等。

2）标志符号为C，实体类别为特性描述（CHARACTERISTIC），类别定义为电机领域所涉及的特性描述，示例为漏抗、电感、涡流、感应电动势、磁导率等。

3）标志符号为P，实体类别为问题/故障（PROBLEM），类别定义为与电机相关的故障类型，示例为小齿轮松弛、匝间短路、短路故障等。

4）标志符号为M，实体类别为方法/技术（METHOD），类别定义为解决电机领域问题的分析方法，示例为单相励磁法、负载法、应力张量法、磁路法等。

实验在自建数据集上进行分句处理得到1 657个句子，将数据集按7∶3划分为训练集和测试集，其中各类别实体数量统计如表 1所示。

下载CSV 表 1 电机数据集标注实体统计 Table 1 Annotated entity statistics of motor dataset

2.2 标注体系

在命名实体识别任务中，常用的标注体系有BIOES和BIO两种模式。实验中数据标注采用BIO标注模式：B（Begin）表示实体开始，I（Intermediate）表示实体中间，O（Other）表示非实体的其他部分。本文定义电机领域的4种实体，将第1个字符标记为“B-（实体类别）”，后续字符标记为“I-（实体类别）”，与该领域无关的其他字符统一标记为O。本文识别的电机领域文本数据标注示例如表 2所示。

下载CSV 表 2 电机领域文本标注示例 Table 2 Text annotation examples in motor field

2.3 评价指标

本文采用准确率（P）、召回率（R）以及F1值（F）作为模型性能的评价指标，对电机领域的实体识别结果进行评估，计算公式如下：

$ P = \frac{{{T_{{\rm{TP}}}}}}{{{T_{{\rm{TP}}}} + {F_{{\rm{TP}}}}}} \times 100{\rm{\% }} $

(11)

$ R = \frac{{{T_{{\rm{TP}}}}}}{{{T_{{\rm{TP}}}} + {F_{{\rm{FN}}}}}} \times 100{\rm{\% }} $

(12)

$ F = \frac{{2 \times P \times R}}{{P + R}} \times 100{\rm{\% }} $

(13)

其中：T_TP表示模型正确识别出的实体个数；F_FP表示模型识别出的不相关实体个数；F_FN表示实际为相关实体但模型并未识别出的实体个数。

2.4 实验环境与参数设置

本文提出的BERT-BiLSTM-CRF模型在Python 3.7和Tensorflow 1.14.0环境下进行实验，训练集和测试集的batch_size为16，epoch为50，sequence_length为100，为防止神经网络模型过拟合设置dropout为0.4。由于BERT模型的预训练过程需要大量的算力才能实现，因此Google使用64块TPU组成16个TPU集群对其进行预训练并发布了多种BERT模型版本，其常用的两种模型参数设置如表 3所示。本文选取BERT-Base-Chinese模型进行实验。

下载CSV 表 3 BERT模型参数设置 Table 3 Setting of parameters for BERT model

2.5 结果分析

为验证本文提出的BERT-BiLSTM-CRF模型对于电机领域实体的识别性能，在同一实验环境下，在实验过程中加入BiLSTM-CRF^[11]、BiLSTM-CNN^[22]、BiGRU^[23] 3种神经网络模型作为对比模型，对实物、特性描述、问题/故障、方法/技术4类实体进行识别，采用准确率、召回率以及F1值对模型识别效果进行评估。4种模型对不同实体的识别结果如表 4所示。

下载CSV 表 4 4种模型对不同实体的识别结果 Table 4 Recognition results of different entities by four models

从表 4可以看出，BERT-BiLSTM-CRF模型在对于数据集中标注数量较多的实物、特性描述类实体有较好的识别效果，实物类F1值达到87.21%，特性描述类达到74.02%，而对于数据集中标注数量较少的问题/故障类和方法/技术类实体的识别效果稍差于上述两类实体。在BiLSTM-CRF、BiLSTM-CNN和BiGRU这3种模型中，BiLSTM-CRF模型在各项指标中均取得了较好的结果，本文在BiLSTM-CRF模型中加入BERT预训练模型，从实验结果可以看出：实物类在3项评价指标上均有一定的性能提升；问题/故障、方法/技术这2类实体提升更为明显，远优于其他模型。这说明BERT预训练语言模型能使BERT-BiLSTM-CRF模型具有更好的词语表征能力，能充分学习文本的特征信息，尤其对于数据规模较小的特定领域实体，可以有效提升识别性能。

2.6 应用分析

在自建的电机领域数据集中，实物类的实体多数包含领域内的各种电机类型和电机内部零件，特性描述类主要包含领域中的电气描述，本文自建的电机领域数据集的标注参考《GB/T 2900.1—2008电工术语、基本术语》国家标准和相关从业人员的意见，因此具有一定的应用参考价值。对于问题/故障以及方法/技术类实体，所涉及的数量和定义还有待扩充，可根据实际电机领域的生产规范、最新学术研究成果等做进一步完善。

3 结束语

本文提出一种基于BERT-BiLSTM-CRF的电机领域中文命名实体识别方法，将字符序列输入到BERT特征表示层，对每个字符进行编码得到对应字符的字向量表示，同时利用BiLSTM网络层将字向量序列进行双向编码，通过CRF推理层输出概率最大的标签序列并将其作为模型最终的预测标签。在自制数据集上的实验结果表明，该方法相比目前主流的实体识别方法具有更高的准确率、召回率和F1值，且整体识别性能更优。但由于实验在规模小且标注量较少的自制数据集上进行，模型对于数据集中标注量较多的实体类别具有更好的识别效果，而对于标注量较少的实体类别的识别能力有待提升，因此后续将拓展电机数据集规模，增加稀缺实体标注数量，并对电机领域中的实体做更细致的类别划分，以提高模型对于稀缺实体类别的识别率。

参考文献

[1]	LIU L, WANG D B. Summary of research on named entity recognition[J]. Acta Information, 2018, 37(3): 329-340. (in Chinese) 刘浏, 王东波. 命名实体识别研究综述[J]. 情报学报, 2018, 37(3): 329-340. DOI:10.3772/j.issn.1000-0135.2018.03.010
[2]	WANG L, XIE Y, ZHOU J S, et al. Segment-level Chinese named entity recognition based on neural network[J]. Journal of Chinese Information Processing, 2018, 32(3): 84-90, 100. (in Chinese) 王蕾, 谢云, 周俊生, 等. 基于神经网络的片段级中文命名实体识别[J]. 中文信息学报, 2018, 32(3): 84-90, 100. DOI:10.3969/j.issn.1003-0077.2018.03.012
[3]	KARJALA T W, HIMMELBLAU D M, MⅡKKULAINEN R. Data rectification using recurrent(Elman) neural networks[C]//Proceedings of International Joint Conference on Neural Networks. Washington D.C., USA: IEEE Press, 1992: 901-905.
[4]	GRIDACH N. A framework based on (probabilistic)soft logic and neural network for NLP[J]. Applied Soft Computing Journal, 2020, 93: 106-132.
[5]	LI X Y, ZHANG H, ZHOU X H. Chinese clinical named entity recognition with variant neural structures based on BERT methods[J]. Journal of Biomedical Informatics, 2020, 107: 103-122.
[6]	HAMMERTON J. Named entity recognition with long short-term memory[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL. Philadelphia, USA: ACL Press, 2003: 172-175.
[7]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing(almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.
[8]	LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]//Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Philadelphia, USA: ACL Press, 2016: 260-270.
[9]	HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1508.01991.
[10]	Maimaitiayifu, SILAMU Wushouer, MUHETAER Palidan, et al. Uyghur named entity recognition based on BiLSTM-CNN-CRF Model[J]. Computer Engineering, 2018, 44(8): 230-236. (in Chinese) 买买提阿依甫, 斯拉木吾守尔, 木合塔尔帕丽旦, 等. 基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J]. 计算机工程, 2018, 44(8): 230-236.
[11]	LI J L, WANG P Q, HAN Q Y. Recognition of military named entities based on two-way LSTM[J]. Computer Engineering and Science, 2019, 41(4): 713-718. (in Chinese) 李健龙, 王盼卿, 韩琪羽. 基于双向LSTM的军事命名实体识别[J]. 计算机工程与科学, 2019, 41(4): 713-718. DOI:10.3969/j.issn.1007-130X.2019.04.019
[12]	LI M H, LIU Z, YAO Y Z. Symptom term re-cognition of traditional Chinese medicine records based on LSTM-CRF[J]. Computer Applications, 2018, 38(S2): 42-46. (in Chinese) 李明浩, 刘忠, 姚远哲. 基于LSTM-CRF的中医医案症状术语识别[J]. 计算机应用, 2018, 38(S2): 42-46.
[13]	ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: ACL Press, 2018: 1554-1564.
[14]	PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Philadelphia, USA: ACL Press, 2018: 2227-2237.
[15]	RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[EB/OL]. [2020-06-01]. https://blog.csdn.net/leo_95/article/details/89965558.
[16]	DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Philadelphia, USA: ACL Press, 2018: 4171-4186.
[17]	PENG M L, XING X Y, ZHANG Q, et al. Distantly supervised named entity recognition using positive-unlabeled learning[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1906.01378.
[18]	GHADDAR A, LANGLAIS P. Robust lexical features for improved neural network named-entity recognition[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1806.03489.
[19]	YANG P, DONG W Y. Chinese named entity recognition method based on BERT embedding[J]. Computer Engineering, 2020, 46(4): 40-45, 52. (in Chinese) 杨飘, 董文永. 基于BERT嵌入的中文命名实体识别方法[J]. 计算机工程, 2020, 46(4): 40-45, 52.
[20]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2020-06-01]. https://www.researchgate.net/publication/317558625_Attention_Is_All_You_Need.
[21]	ZHU Y, WANG G, KARLSSON B F. CAN-NER: convolutional attention network for Chinese named entity recognition[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1904.02141.
[22]	CHIU J, NICHOLS E. Named entity recognition with bidirectional LSTM-CNN[EB/OL]. [2020-06-01]. https://arxiv.org/abs/1511.08308.
[23]	WANG J, ZHANG R D, WU C S. Named entity recognition method based on GRU[J]. Computer Systems & Applications, 2018, 27(9): 18-24. (in Chinese) 王洁, 张瑞东, 吴晨生. 基于GRU的命名实体识别方法[J]. 计算机系统应用, 2018, 27(9): 18-24.