基于ALBERT-BGRU-CRF的中文命名实体识别方法

引用本文

李军怀, 陈苗苗, 王怀军, 等. 基于ALBERT-BGRU-CRF的中文命名实体识别方法[J]. 计算机工程, 2022, 48(6), 89-94, 106. DOI: 10.19678/j.issn.1000-3428.0061630.

LI Junhuai, CHEN Miaomiao, WANG Huaijun, et al. Chinese Named Entity Recognition Method Based on ALBERT-BGRU-CRF[J]. Computer Engineering, 2022, 48(6), 89-94, 106. DOI: 10.19678/j.issn.1000-3428.0061630.

基金项目

国家重点研发计划（2018YFB1703000）；陕西省水利厅基金（2020slkj-17）

作者简介

李军怀（1969—），男，教授、博士，主研方向为行为识别、云计算、大数据;
陈苗苗，硕士研究生;
王怀军，副教授、博士;
崔颖安，讲师、博士;
张爱华，工程师

文章历史

收稿日期：2021-05-12
修回日期：2021-07-26

Contents Abstract Full text Figures/Tables PDF

基于ALBERT-BGRU-CRF的中文命名实体识别方法

李军怀¹ , 陈苗苗¹ , 王怀军¹ , 崔颖安¹ , 张爱华²

1. 西安理工大学计算机科学与工程学院, 西安 710048;
2. 中铝萨帕特种铝材(重庆)有限公司, 重庆 401326

收稿日期：2021-05-12；修回日期：2021-07-26

基金项目：国家重点研发计划（2018YFB1703000）；陕西省水利厅基金（2020slkj-17）

作者简介：李军怀（1969—），男，教授、博士，主研方向为行为识别、云计算、大数据; 陈苗苗，硕士研究生; 王怀军，副教授、博士; 崔颖安，讲师、博士; 张爱华，工程师.

E-mail: 2191221052@stu.xaut.edu.cn

摘要：命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础，中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题，提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量，有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义，获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码，降低错误标签输出概率。最终得到实体标注信息，实现中文命名实体识别。实验结果表明，ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%，同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。

Chinese Named Entity Recognition Method Based on ALBERT-BGRU-CRF

LI Junhuai¹ , CHEN Miaomiao¹ , WANG Huaijun¹ , CUI Ying’an¹ , ZHANG Aihua²

1. School of Computer Science and Engineering, Xi'an University of Technology, Xi'an 710048, China;
2. Sapa Chalco Aluminium Products(Chongqing) Co., Ltd., Chongqing 401326, China)

Abstract: Named Entity Recognition(NER) is an important basis for upper-level natural language processing tasks such as knowledge graph construction, search engines, and recommendation systems.Chinese NER labels and classifies proper nouns or specific named entities in a text sequence.Aiming at the problem that the existing Chinese NER methods cannot effectively extract long-distance semantic information and solve the problem of polysemy, this study proposes a Chinese NER method based on ALBERT pre-training language model, Bidirectional Gated Recurrent Unit(BGRU) and Conditional Random Field(CRF), called ALBERT-BGRU-CRF model.First, the ALBERT pre-trained language model performs word embedding on the input text to obtain dynamic word vectors, which can effectively solve the polysemy problem.Second, BGRU extracts contextual semantic features to further understand semantics and obtain semantic features between long-distance words.Finally, the concatenated vector is input to the CRF layer and decoded using the Viterbi algorithm to reduce the probability of wrongly labelling the output.Then, the entity annotation information is obtained, and the Chinese NER task is completed.The experimental results show that the Chinese NER accuracy and recall rate of the ALBERT-BGRU-CRF model on the MSRA corpus reach 95.16% and 94.58%, respectively.Simultaneously, compared with the fragment neural network model and the CNN-BiLSTM-CRF model, the F1 value of the ALBERT-BGRU-CRF model has increased by 4.43 and 3.78 percentage points.

开放科学（资源服务）标志码（OSID）：

0 概述

命名实体识别（Named Entity Recognition，NER）是指从大量待处理文本中识别出人名、地名、组织机构名等具有特殊意义的一类名词，又称为实体抽取，是信息获取、知识图谱构建、问答系统、机器翻译、信息检索等任务的基础^[1]。命名实体识别方法主要分为基于词典和规则、基于传统机器学习、结合深度学习和机器学习3类。2016年，XIE等^[2]提出结合人工编写规则和启发式算法的命名实体识别方法，实现了从大量非结构化文本中抽取公司名称。依赖规则的命名实体识别方法一方面对人力需求大，另一方面规则的不通用性导致方法泛化能力较差。在NER任务中所应用的机器学习方法包括最大熵马尔可夫模型（Maximum Entropy Markov Models，MEMM）^[3]、条件随机场（Conditional Random Field，CRF）^[4]等。MEMM条件概率统计采用建立联合概率的方式，局部归一化导致结果容易陷入局部最优。CRF在统计全局概率、位置标记的同时利用内部特征和序列信息，解决了MEMM容易陷入局部最优的问题。深度学习技术的广泛应用使得NER任务几乎不再需要人工特征。2011年，COLLOBERT等^[5]提出基于神经网络的命名实体识别方法，该方法对每个单词给定固定大小窗口，而未考虑长距离词之间的信息。2016年，CHIU等^[6]提出双向LSTM-CNNs模型克服了神经网络的限制。同年，MA等^[7]将模型进一步优化为BiLSTM-CNNs-CRF，通过加入CRF模块以减少错误标签序列的输出。

由于中文表述与英文表述有所区别，不存在空格、首字母大写等明确标识分词的符号并且存在实体嵌套、英文缩写、表述不规范等问题，因此给中文命名实体识别带来了巨大挑战。本文提出一种基于ALBERT-双向门控循环单元（Bidirectional Gated Recurrent Unit，BGRU）-CRF的中文命名实体识别方法，在ALBERT层对输入文本完成词嵌入获取动态词向量以解决一词多义的问题，在BGRU层进一步学习长距离语义信息，在CRF层进行解码并完成实体识别任务。

1 相关工作 1.1 预训练语言模型

预训练语言模型是已训练完成具有对应参数的深层网络结构，利用大规模无标注语料训练得到，通常作为一个模块应用于下游任务。

2013年，MIKOLOV等^[8]提出用于表征文本的Word2Vec词向量技术。Word2Vec将词转化为向量，所提取特征是上下文无关的，对于下游任务的支撑作用有限。2018年，PETERS等^[9]提出ELMo预训练语言模型。ELMo内部采用双向LSTM有效捕捉上下文语义，提取文本深层特征，基于大量文本训练得到针对下游任务的通用语言模型，解决了静态词向量无法理解一词多义的问题。2019年，DEVLIN等^[10]提出的BERT动态预训练语言模型成为自然语言处理领域的重要里程碑，其在多个典型下游任务中取得较好效果。同年，谷歌发布了BERT的改进模型ALBERT^[11]，该模型参数更少且效果与BERT相当。本文方法基于ALBERT预训练语言模型。

1.2 中文命名实体识别

中文命名实体识别任务的难点在于：1）区别于英文，不存在空格、首字母大写等明确标识分词的符号，增加了分词难度；2）表述多元化，常出现字母缩写、中英文交替等表述，其中英文描述会干扰中文命名实体识别。当前针对中文命名实体识别任务多数采用结合机器学习和深度学习的方法。

2016年，刘玉娇等^[12]采用深度学习的命名实体识别方法，通过卷积自编码器提取文本特征对中文微博语料库进行命名实体识别。2017年，张海楠等^[13]基于深度神经网络结合字特征和词特征，针对1998人民日报标注语料库进行人名、地名和机构名识别，识别结果F1值达到93.3%。2018年：李雁群等^[14]提出一种从中文维基百科条目中自动构建中文嵌套命名实体识别语料库的方法；JIA等^[15]使用深度神经网络与机器学习相结合的方法构建CNN-BiLSTM-CRF模型完成中文命名实体识别任务，在MSRA数据集上F1值达到90.95%；ZHANG等^[16]提出基于Lattice LSTM模型的识别方法，在特征提取时利用字序列关系有效避免了分词错误的影响，该方法在微博、MSRA、OntoNotes等数据集上F1值均有所提升，在resume数据集上F1值达到94.46%；王蕾等^[17]采用深度学习片段神经网络完成实体边界标注及分类，该方法在MSRA数据集上总体F1值达到90.44%。2019年，石春丹等^[18]提出基于BGRU-CRF的中文命名实体识别方法，充分利用潜在词特征和上下文信息，在MSRA和OntoNotes数据集上F1值均有所提升。2020年：赵丰等^[19]基于CNN和注意力机制提出基于局部注意力卷积的嵌入算法以降低中文命名实体识别任务对分词的依赖，该方法在MSRA、微博和军事文本数据集上F1值均有所提升；李妮等^[20]提出一种基于BERT预训练语言模型结合IDCNN和CRF的方法，该方法在MSRA数据集上F1值达到94.41%，且模型训练时间大幅缩短。

现有研究主要存在2个问题：1）多数方法仅提取字符或词级别特征，而忽略长距离语义信息，导致无法提取文本语义信息；2）早期词嵌入工具生成静态词向量，导致无法处理一词多义的问题。针对以上2个问题，本文提出一种基于ALBERT-BGRU-CRF模型的中文命名实体识别方法。该方法采用ALBERT完成词嵌入以获取动态词向量，经过BGRU学习上下文语义特征，并使用CRF降低错误标签输出概率。

2 ALBERT-BGRU-CRF模型

传统深度学习模型较多关注字符和词级别特征，而忽略长距离语义信息，导致无法提取语义信息和解决一词多义的问题。ALBERT模型获取动态词向量解决了一词多义的问题，BGRU捕捉双向语义使得模型更深层理解文本语义信息。本文构建的中文命名实体识别模型包括ALBERT预训练语言模型、BGRU、CRF等3层，结构如图 1所示。

	Download: JPG larger image
图 1 ALBERT-BGRU-CRF模型结构 Fig. 1 Structure of ALBERT-BGRU-CRF model

在ALBERT-BGRU-CRF模型中，首先使用ALBERT预训练语言模型对待处理文本进行编码完成词嵌入，获取动态词向量，然后采用BGRU捕捉双向语义，最终将拼接后的向量输入至CRF层并解码，得到实体标注信息，完成实体边界及分类识别。对于文本“教育部新出台”，经过模型识别，为“教”标注“B-ORG”标签表示组织机构名的首字，为“育”和“部”标注“I-ORG”标签表示组织机构名的其他字符，文本中其他非实体字符均标注“O”，识别结果为“教育部”是一个组织机构名。

2.1 ALBERT层

预训练语言模型通常体量大，千万甚至亿级别的参数量给训练带来了较大困难。ALBERT模型参数量远小于BERT模型参数量。例如，在本文模型中所使用的albert_xlarge参数量为60M，远小于bert_base的参数量。ALBERT主要在以下3个方面做了改进：

1）嵌入向量参数因式分解

$ E $表示词向量大小，$ H $表示隐藏层大小，在BERT、XLNet、RoBERTa等预训练语言模型中$ E\equiv H $，若$ E $和$ H $始终相等，提升隐藏层大小$ H $，则词嵌入大小$ E $也随之提升，参数规模为$ O(V\times H) $。ALBERT采用因式分解的方法来降低参数量，在词嵌入后加入一个矩阵以完成维度变化，参数量从$ O(V\times H) $降低为$ O(V\times E+E\times H) $，当$ H\gg E $时参数量明显减少。

2）跨层参数共享

ALBERT采用跨层共享参数的方式，示意图如图 2所示。

	Download: JPG larger image
图 2 跨层参数共享示意图 Fig. 2 Schematic diagram of cross-layer parameter sharing

一般地，Transformer每一层（Layer）参数均是相互独立的，其中，多头自注意力层（Multi-Head Attention）和前馈神经网络层（Feed Forward）参数也是相互独立的，导致增加层数后参数量剧增。参数共享可采用仅跨层共享前馈神经网络参数，也可仅共享注意力层参数，ALBERT模型则跨层共享（Shared）所有参数，相当于仅学习第一层参数，在其他所有层中重用（Reuse）该层参数，一方面减少了参数量，另一方面有效提升了模型稳定性。

3）句间连贯性预测

ALBERT提出一种句间连贯性预测（Sentence-Order Prediction，SOP）方法，正样本表示与BERT相同，是两个连贯的语句，负样本为原文中交换顺序的两个连贯句。SOP中正负样本选自同一文档，仅关注句子之间的连贯性，避免主题影响，这使得模型在话语层面的学习具有更细粒度。

ALBERT-BGRU-CRF模型将文本序列输入至ALBERT进行编码，将ALBERT模型词嵌入所得动态词向量作为BGRU层的输入。

2.2 BGRU层

门控循环单元（Gated Recurrent Unit，GRU）是新一代的循环神经网络（Recurrent Neural Network，RNN），与长短期记忆网络（Long Short-Term Memory，LSTM）类似，用以解决传统RNN梯度消失和梯度爆炸问题。与LSTM的区别在于，GRU不再采用单元状态记录或传输信息，利用隐藏状态完成信息记录及传输。更新门和重置门控制GRU单元最终输出信息，GRU单元结构如图 3所示，其中，“+”表示加操作，“$ \sigma $”表示Sigmoid激活函数，“$ \times $”表示Hadamard乘积，“tanh”表示Tanh激活函数。

	Download: JPG larger image
图 3 GRU单元结构 Fig. 3 Structure of GRU unit

GRU参数更新计算公式如下：

$ {{\mathit{\boldsymbol{z}}}_t} = \sigma \left( {{{\mathit{\boldsymbol{W}}}_z} \cdot \left[ {{{\mathit{\boldsymbol{h}}}_{t - 1}}, {{\mathit{\boldsymbol{x}}}_t}} \right]} \right)$

(1)

${{\mathit{\boldsymbol{r}}}_t} = \sigma \left( {{{\mathit{\boldsymbol{W}}}_{\mathit{\boldsymbol{r}}}} \cdot \left[ {{{\mathit{\boldsymbol{h}}}_{t - 1}}, {{\mathit{\boldsymbol{x}}}_t}} \right]} \right) $

(2)

${\widetilde {\mathit{\boldsymbol{h}}}_t} = \tanh \left( {{{\mathit{\boldsymbol{W}}}_{\widetilde h}} \cdot \left[ {{{\mathit{\boldsymbol{r}}}_t}*{{\mathit{\boldsymbol{h}}}_{t - 1}}, {{\mathit{\boldsymbol{x}}}_t}} \right]} \right) $

(3)

${{\mathit{\boldsymbol{h}}}_t} = \left( {1 - {{\mathit{\boldsymbol{z}}}_t}} \right)*{{\mathit{\boldsymbol{h}}}_{t - 1}} + {{\mathit{\boldsymbol{z}}}_t}*{\widetilde {\mathit{\boldsymbol{h}}}_t}$

(4)

其中：z_t为更新门的激活结果，以门控的形式控制信息的流入；$ {\mathit{\boldsymbol{x}}}_{t} $为时间步$ t $的输入向量；W_z为权重矩阵；h_t-1表示保存时间步$ t-1 $的信息；r_t为重置门激活结果，计算过程同更新门类似；$ {\mathit{\boldsymbol{W}}}_{\mathit{\boldsymbol{r}}} $为权重矩阵；$ \tilde{\mathit{\boldsymbol{h}}}_t $表示当前时间步的记忆内容；h_t表示当前时间步的最终记忆。

GRU仅在一个方向上捕获信息。BGRU用于提取上下文信息，是双向输入的GRU。文本序列正向输入至GRU记录“过去信息”，文本序列反向输入至GRU获取“将来信息”，对两者进行拼接合并以达到提取上下文信息的目的。

BGRU层提取上下文信息得到更深层次的语义理解，获得发射分数矩阵输入至CRF层。

2.3 CRF层

CRF是一种由输入序列预测输出序列的判别式模型，常见的条件随机场是指在线性链上特殊的条件随机场，线性链式条件随机场结构如图 4所示。

	Download: JPG larger image
图 4 线性链式条件随机场结构 Fig. 4 Structure of linear chain conditional random field

设两组随机变量$ X=({x}_{1}, {x}_{2}, \cdots , {x}_{n}) $和$ Y=({y}_{1}, {y}_{2}, \cdots , {y}_{n}) $，线性链式条件随机场定义如下：

$ \begin{array}{l}p({y}_{i}\mid X, {y}_{1}, {y}_{2}, \cdots , {y}_{i-1}, {y}_{i+1}, \cdots , {y}_{n})=\\ p({y}_{i}\mid X, {y}_{i-1}, {y}_{i+1}), i=\mathrm{1, 2}, \cdots , n\end{array} $

(5)

其中：$ X $为观察状态；$ Y $为隐藏状态。$ X $和$ Y $具有相同结构。

本文模型通过在CRF中加入约束，以降低错误标签的输出概率。条件随机场判别计算过程如下：

$ \mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}(s, w)=\sum\limits_{i=0}^{n}{\mathit{\boldsymbol{A}}}_{{w}_{i}, {w}_{i+1}}^{}+\sum\limits_{i=0}^{n}{\mathit{\boldsymbol{P}}}_{i, {w}_{i}}^{} $

(6)

$ p(w\mid s)=\frac{{\mathrm{e}}^{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}(s, w)}}{\sum\limits_{w\in {W}_{s}}{\mathrm{e}}^{\mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}(s, w)}} $

(7)

其中：$ \mathrm{s}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}(s, w) $表示综合评估分数；$ \mathit{\boldsymbol{P}} $表示从BGRU层得到的发射分数矩阵；$ \mathit{\boldsymbol{A}} $表示CRF学习得到的转移矩阵；$ p(w\mid s) $表示输入序列与标签序列的对应概率；$ {W}_{s} $表示所有可能的标签序列。

CRF层结合BGRU层输出的发射分数矩阵和学习得到的转移矩阵计算最终得分，得到输入序列与对应标签序列概率，通过维特比解码获得最优序列标注。

算法1 ALBERT-BGRU-CRF识别算法

输入 $ S=({s}_{1}, {s}_{2}, \cdots , {s}_{n}), W=({w}_{1}, {w}_{2}, \cdots , {w}_{n}) $，其中，$ S $为输入文本序列，$ W $为实体对应标签

输出命名实体识别结果

1.Import训练集、验证集

2.导入ALBERT模型，获取动态词向量

3.forward=GRU（vector）；//前向GRU，vector表示词//向量

4.backward=GRU（vector）；//后向GRU

5.h=concat（forward，backward）；//BGRU输出隐藏状态

6.CRF（h）；//CRF计算输入序列与标签序列的对应概率

7.Viterbi解码；//求解最优路径，获得得分最高的标签序列

8.return命名实体识别结果

算法1输入为文本序列，输出为标签序列。ALBERT采用共享权值和分解矩阵的方式减少模型参数，有效降低了空间复杂度，BGRU由于自身特殊的门单元设置，通常收敛速度更快，CRF采用维特比算法完成预测任务，维特比算法利用动态规划求解最优路径降低复杂度。

3 实验与结果分析 3.1 数据集

实验使用微软亚洲研究院公开的MSRA^[21]数据集，其中标注有人名（PER）、地名（LOC）、组织机构名（ORG）三类实体。在实验过程中，训练集包含20 864句语料，验证集包含2 318句语料，测试集包含4 636句语料。

3.2 标注策略与评价指标

命名实体识别又称为序列标注，常用的标注策略包括BIO、BIOES、BMESO等，本文实验过程中采用BIO标注策略。对于文本中的实体，实体开始字符标注“B-Type”，实体其余字符标注“I-Type”，非实体字符标注“O”。

采用准确率（P）、召回率（R）和F1值（F₁）作为评价指标^[22-23]，其中，P表示正确识别的实体占全部识别出实体的比率，R表示正确识别的实体占应识别实体的比率，F₁是结合了P和R的综合评价指标，具体计算过程如下：

$ P=\frac{{T}_{\mathrm{p}}}{{T}_{\mathrm{p}}+{F}_{\mathrm{p}}}\times 100\mathrm{\%} $

(8)

$ R=\frac{{T}_{\mathrm{p}}}{{T}_{\mathrm{p}}+{F}_{\mathrm{n}}}\times 100\mathrm{\%} $

(9)

$ {F}_{1}=\frac{2PR}{P+R}\times 100\mathrm{\%} $

(10)

其中：$ {T}_{\mathrm{p}} $表示模型识别的正确实体数量；$ {F}_{\mathrm{p}} $表示模型识别的错误实体数量；$ {F}_{\mathrm{n}} $表示模型未识别出的实体数量。

3.3 实验环境与参数

实验训练过程的环境配置如表 1所示。

下载CSV 表 1 实验环境配置 Table 1 Experimental environment configuration

在训练过程中，使用Adam优化器，输入文本最大长度为202，为防止过拟合设置Dropout取0.5，具体参数设置如表 2所示。

下载CSV 表 2 实验参数设置 Table 2 Experimental parameter setting

3.4 实验结果对比

ALBERT-BGRU-CRF模型在MSRA数据集上的各类实体识别结果如表 3所示。

下载CSV 表 3 命名实体识别结果 Table 3 Named entity recognition results

由表 3可知，本文方法在各类实体中均有较高的准确率，ALBERT-BGRU-CRF模型结合上下文语义信息取得良好效果，针对人名的识别F1值最高。ALBERT-BGRU-CRF模型对于组织机构名的识别准确率、召回率偏低，主要原因为：1）存在组织机构名与地名歧义，例如句子“出席越秀艺苑和越秀书店开业典礼时”中“越秀艺苑”被标注为组织机构名，而模型识别其为地名，此类歧义表述导致识别率较低；2）组织机构名与地名存在大量嵌套，例如句子“陕西省铜川市商务局一位叫张宝玲的下岗女工在培训结束时”，其中“陕西省铜川市商务局”被标注为组织机构名，模型则识别“陕西省”为地名、“铜川市商务局”为组织机构名，此类嵌套描述也是影响模型准确率的原因之一。

为了验证ALBERT-BGRU-CRF模型的有效性，设置对比实验。ALBERT-BGRU-CRF模型与其他模型的命名实体识别结果对比如表 4所示。

下载CSV 表 4 不同模型命名实体识别结果对比 Table 4 Comparison of named entity recognition results of different models

由表 4可知：CNN-BiLSTM-CRF模型、片段神经网络模型和Lattice-LSTM-CRF模型与BERT-IDCNN-CRF模型对比发现，基于BERT对文本进行词嵌入后识别效果更佳，本文模型采用ALBERT完成词嵌入获取动态词向量，ALBERT在保证识别效果的基础上参数量仅约为BERT的1/2；Lattice-LSTM-CRF模型与BGRU-CRF模型对比发现，BGRU通过对上下文语义更深层的理解有效提高了命名实体识别的F1值；ALBERT-BGRU-CRF模型相比于其他模型F1值最高，相比于片段神经网络模型的F1值提升了4.43个百分点，相比于CNN-BiLSTM-CRF模型F1值提升了3.78个百分点。

4 结束语

本文提出一种用于中文命名实体识别的ALBERT-BGRU-CRF模型，使用ALBERT预训练语言模型对待处理文本进行编码完成词嵌入并获取动态词向量，解决了一词多义的问题，同时结合BGRU有效利用序列信息，使ALBERT-BGRU-CRF模型能进一步理解上下文语义。实验结果表明，ALBERT-BGRU-CRF模型相比于传统命名实体识别模型准确率、召回率和F1值均有所提升，并且在采用ALBERT保留BERT性能的同时，参数量仅约为BERT的1/2，降低了模型训练过程中对内存等硬件设备的要求。由于ALBERT-BGRU-CRF模型对于歧义实体和嵌套实体识别准确率较低，因此后续将从细化和完善实体标记规则以及更深层的语义学习等方面做进一步优化。

参考文献

[1]	陈曙东, 欧阳小叶. 命名实体识别技术综述[J]. 无线电通信技术, 2020, 46(3): 251-260. CHEN S D, OUYANG X Y. Overview of named entity recognition technology[J]. Radio Communications Technology, 2020, 46(3): 251-260. (in Chinese) DOI:10.3969/j.issn.1003-3114.2020.03.001
[2]	XIE R B, LIU Z Y, JIA J, et al. Representation learning of knowledge graphs with entity descriptions[C]//Proceedings of the 13th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2016: 31-37.
[3]	MCCALLUM A, FREITAG D, PEREIRA F C. Maximum entropy Markov models for information extraction and segmentation[EB/OL]. [2021-04-08]. http://www.doczj.com/doc/ba02ef20482fb4daa58d4b5e.html.
[4]	LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. New York, USA: ACM Press, 2001: 282-289.
[5]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing(almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12: 2493-2537.
[6]	CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370. DOI:10.1162/tacl_a_00104
[7]	MA X Z, HOVY E. End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2016: 1064-1074.
[8]	MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2021-04-08]. https://arxiv.org/abs/1301.3781.
[9]	PETERS M, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]//Proceedings of 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2018: 2227-2237.
[10]	DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2019: 4171-4186.
[11]	LAN Z Z, CHEN M D, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations[EB/OL]. [2021-04-08]. https://arxiv.org/abs/1909.11942.
[12]	刘玉娇, 琚生根, 李若晨, 等. 基于深度学习的中文微博命名实体识别[J]. 四川大学学报(工程科学版), 2016, 48(S2): 142-146. LIU Y J, JU S G, LI R C, et al. Named entity recognition in Chinese micro-blog based on deep learning[J]. Journal of Sichuan University(Engineering Science Edition), 2016, 48(S2): 142-146. (in Chinese)
[13]	张海楠, 伍大勇, 刘悦, 等. 基于深度神经网络的中文命名实体识别[J]. 中文信息学报, 2017, 31(4): 28-35. ZHANG H N, WU D Y, LIU Y, et al. Chinese named entity recognition based on deep neural network[J]. Journal of Chinese Information Processing, 2017, 31(4): 28-35. (in Chinese) DOI:10.3969/j.issn.1003-0077.2017.04.005
[14]	李雁群, 何云琪, 钱龙华, 等. 基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 计算机工程, 2018, 44(11): 76-82. LI Y Q, HE Y Q, QIAN L H, et al. Automatic construction of Chinese nested named entity recognition corpus based on Wikipedia[J]. Computer Engineering, 2018, 44(11): 76-82. (in Chinese) DOI:10.3778/j.issn.1002-8331.1612-0467
[15]	JIA Y Z, XU X B. Chinese named entity recognition based on CNN-BiLSTM-CRF[C]//Proceedings of the 9th International Conference on Software Engineering and Service Science. Washington D. C., USA: IEEE Press, 2018: 1-4.
[16]	ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 1-10.
[17]	王蕾, 谢云, 周俊生, 等. 基于神经网络的片段级中文命名实体识别[J]. 中文信息学报, 2018, 32(3): 84-90, 100. WANG L, XIE Y, ZHOU J S, et al. Segment-level Chinese named entity recognition based on neural network[J]. Journal of Chinese Information Processing, 2018, 32(3): 84-90, 100. (in Chinese) DOI:10.3969/j.issn.1003-0077.2018.03.012
[18]	石春丹, 秦岭. 基于BGRU-CRF的中文命名实体识别方法[J]. 计算机科学, 2019, 46(9): 237-242. SHI C D, QIN L. Chinese named entity recognition method based on BGRU-CRF[J]. Computer Science, 2019, 46(9): 237-242. (in Chinese)
[19]	赵丰, 黄健, 张中杰. LAC-DGLU: 基于CNN和注意力机制的命名实体识别模型[J]. 计算机科学, 2020, 47(11): 212-219. ZHAO F, HUANG J, ZHANG Z J. LAC-DGLU: named entity recognition model based on CNN and attention mechanism[J]. Computer Science, 2020, 47(11): 212-219. (in Chinese) DOI:10.11896/jsjkx.191000201
[20]	李妮, 关焕梅, 杨飘, 等. 基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 山东大学学报(理学版), 2020, 55(1): 102-109. LI N, GUAN H M, YANG P, et al. BERT-IDCNN-CRF for named entity recognition in Chinese[J]. Journal of Shandong University (Natural Science), 2020, 55(1): 102-109. (in Chinese)
[21]	LEVOW G. The third international Chinese language processing bakeoff: word segmentation and named entity recognition[C]//Proceedings of the 15th SIGHAN Workshop on Chinese Language Processing. Berlin, Germany: Springer, 2006: 108-117.
[22]	罗凌, 杨志豪, 宋雅文, 等. 基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究[J]. 计算机学报, 2020, 43(10): 1943-1957. LUO L, YANG Z H, SONG Y W, et al. Chinese clinical named entity recognition based on stroke ELMo and multi-task learning[J]. Chinese Journal of Computers, 2020, 43(10): 1943-1957. (in Chinese) DOI:10.11897/SP.J.1016.2020.01943
[23]	李韧, 李童, 杨建喜, 等. 基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别[J]. 中文信息学报, 2021, 35(4): 83-91. LI R, LI T, YANG J X, et al. Bridge inspection named entity recognition based on Transformer-BiLSTM-CRF[J]. Journal of Chinese Information Processing, 2021, 35(4): 83-91. (in Chinese)