基于交互式特征融合的嵌套命名实体识别

引用本文

廖涛, 黄荣梅, 张顺香, 等. 基于交互式特征融合的嵌套命名实体识别[J]. 计算机工程, 2022, 48(12), 119-126,133. DOI: 10.19678/j.issn.1000-3428.0063591.

LIAO Tao, HUANG Rongmei, ZHANG Shunxiang, et al. Nested Named Entity Recognition Based on Interactive Feature Fusion[J]. Computer Engineering, 2022, 48(12), 119-126,133. DOI: 10.19678/j.issn.1000-3428.0063591.

基金项目

国家自然科学基金面上项目(62076006);安徽省高校协同创新项目(GXXT-2021-008);安徽省自然科学基金面上项目(1908085MF189)

作者简介

廖涛（1977—），男，副教授、博士，主研方向为Web数据挖掘;
黄荣梅，硕士研究生;
张顺香，教授、博士;
段松松，硕士研究生

文章历史

收稿日期：2021-12-22
修回日期：2022-02-16

Contents Abstract Full text Figures/Tables PDF

基于交互式特征融合的嵌套命名实体识别

廖涛 , 黄荣梅 , 张顺香 , 段松松

安徽理工大学计算机科学与工程学院, 安徽淮南 232001

收稿日期：2021-12-22；修回日期：2022-02-16

基金项目：国家自然科学基金面上项目(62076006);安徽省高校协同创新项目(GXXT-2021-008);安徽省自然科学基金面上项目(1908085MF189)

作者简介：廖涛（1977—），男，副教授、博士，主研方向为Web数据挖掘; 黄荣梅，硕士研究生; 张顺香，教授、博士; 段松松，硕士研究生.

E-mail: 1683551760@qq.com

摘要：现有命名实体识别模型在字嵌入过程中多采用字符向量、字向量等不同单词表示向量的拼接或累加方式提取信息，未考虑不同单词表示特征之间的相互依赖关系，导致单词内部特征信息获取不足。提出一种基于交互式特征融合的嵌套命名实体识别模型，通过交互的方式构建不同特征之间的通信桥梁，以捕获多特征之间的依赖关系。采用交互机制得到包含不同单词表示信息的字嵌入向量，基于双向长短时记忆网络提取单词的表示特征，并对不同单词的表示特征进行交互，捕获特征之间的相互依赖关系。为进一步提取序列特征的上下文信息，采用基于特征交互的多头注意力机制捕获句子上下文的依赖关系。在此基础上，采用二元序列标记法过滤非实体区域，得到粗粒度候选区间，并对其进行细粒度划分以判断实体类别。实验结果表明，该模型的召回率和F1值为72.4%和71.2%，相比现有的嵌套命名实体识别模型，F1值平均提高了1.72%。

Nested Named Entity Recognition Based on Interactive Feature Fusion

LIAO Tao , HUANG Rongmei , ZHANG Shunxiang , DUAN Songsong

School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan, Anhui 232001, China

Abstract: During word embedding in existing Named Entity Recognition(NER) processes, information is extracted by splicing or accumulating different word representation vectors such as character and word vectors without considering the interdependence between different word representation features.This results in insufficient acquisition of internal feature information of words.Accordingly, a nested NER model based on interactive feature fusion is proposed in this study.A communication bridge between different features is constructed using an interactive approach to capture the dependency between multiple features.An interaction mechanism is used to obtain the word embedding vectors containing different word representation information, and a Bidirectional Long Short-Term Memory(BiLSTM) network is used to extract word representation features.The proposed model enables the representation features of different words to interact so that the interdependence between features can be captured.To further extract the contextual information of sequence features, a feature interaction-based multi-head attention mechanism is used to capture the dependency of sentence contexts.A binary sequence labeling method is then used to filter the non-entity regions, and coarse granularity candidate intervals are obtained that are then divided into fine granularity candidate intervals.Entity categories are then determined.Experimental results show that the recall rate and F1 value of the proposed model are 72.4% and 71.2%, respectively, and the F1 value increases by 1.72% on average as compared with the existing nested NER model.

开放科学(资源服务)标志码(OSID)：

0 概述

命名实体识别（Named Entity Recognition，NER）是从一个给定文本中识别并判断具有特殊意义的词以及所属类型，例如，人名、地名、组织机构名、专有名词等。命名实体识别在自然语言处理（Natural Language Processing，NLP）过程中具有重要意义，并被广泛应用在关系抽取^[1]、信息检索^[2]、机器翻译^[3]、问答系统^[4]等领域。

现有研究主要针对非嵌套命名实体（flat NER），在处理非嵌套命名实体时，现有方法将其作为序列标注的问题^[5]，但是无法准确地识别具有嵌套结构的实体。在GENIA数据集的某个嵌套命名实体“the CD28 surface receptor”中，“CD28”表示某种protein实体，包含在另一种protein实体“CD28 surface receptor”中，这种实体结构被称为嵌套命名实体（nested NER）。嵌套命名实体作为一种常见的语言现象，备受研究人员的关注。

近些年，研究人员在处理nested NER时，基于转化的方法提出构建嵌套命名实体的超图结构。例如，文献[6]基于递归神经网络构建超图识别嵌套实体，设计表达性标记模式来识别嵌套实体，但该方法未考虑句子特征信息的提取。文献[7]基于条件随机场（Conditional Random Field，CRF）通过转移操作将嵌套结构转换为平面结构来预测实体类型，但该方法需要进行复杂的转换，并且在解码过程中耗费大量时间。除此以外，研究人员基于跨度的方法解决nested NER问题。例如，文献[8]采用局部检测方法将给定文本划分不同片段，并将其编码成固定大小的表示，但该方法忽略了边界信息容易造成实体片段边界划分错误的问题。文献[9]提出额外的边界检测任务来预测实体边界的单词，但它与实体识别任务分开进行，忽略了边界信息与实体内部信息的联系。

本文提出基于交互式特征融合的嵌套命名实体识别模型。通过字符向量与字向量的交互融合，得到单词深层语义信息，采用双向长短时记忆（BiLSTM）网络提取句子级特征，对不同单词特征表示得到的句子级特征向量进行二次交互，并加入多头注意力机制捕获句子隐层序列表示的多重语义信息。为了增强实体边界信息的识别，构建粗粒度候选区间感知模块，并采用二元序列标记法过滤一些非实体区域。

1 相关工作

研究人员结合基于规则和机器学习的方法来处理嵌套命名实体^[10]。文献[11]基于隐马尔可夫模型（HMM）^[12]的方法检测最内部的实体提及，再通过基于规则的后处理方法检测外部提及。文献[13]提出CRF^[14]识别生物医学文本中的蛋白质实体和基因实体。文献[15]在文献[13]研究的基础上，提出基于线性链条件随机场构建模型，有效提升生物医学文本中的识别效果。然而，基于规则的方法存在灵活性差、可扩展性差以及除字典之外的词查找能力不足的问题。

随着深度学习的不断发展，深度学习被用于各类NLP任务中^[16]。近年来，研究人员提出各种针对嵌套命名实体识别的方法，主要分为基于转化和基于跨度的方法。基于转化的方法将复杂的序列嵌套问题转化为标注型的序列标记任务，例如，JU等^[17]提出堆叠的LSTM-CRF识别嵌套命名实体，将每一层的输出作为下一层的输入，并在其相应的内部实体中编码信息，但该模型并没有关注上下文信息的有效性和实体边界信息，可能存在传播过程的错误级联问题。文献[18]提出以BiLSTM作为编码器，LSTM作为解码器实现序列到序列的序列标记模型，但模型在嵌套命名实体识别中需要大量人力来标注语料库中的转换以及复杂的特征工程。以往的实验结果表明，基于转化的方法需要大量的标记信息和复杂的特征工程，且操作复杂。

基于跨度的方法首先将句子划分为不同的跨度，然后用局部标准化的分数对这些跨度进行分类。XIA等^[19]提出一种MGNER神经网络架构，检测某一词段是否为实体词段，再用相同结构的分类器判断实体类型。YU等^[20]结合词级嵌入和字符级别嵌入作为文本输入，经过BiLSTM获取句子的上下文语义信息，使用双仿射模型对句子中带有开始和结束标记对的所有跨度分配分数并排序。SOHRAB和MIVA^[21]将嵌套命名实体识别看作分类问题，采用深度穷举模型自上而下地对设定区间L及L以下区间（L是人为设定数据）进行实体判断。以上基于跨度的方法虽然解决了基于转换方法中的问题，但忽略了在单词嵌入时不同特征之间的相互依赖关系，并且将不同单词特征表示直接相加，未捕捉深层单词语义信息。这两种方法学习句子中不同长度的所有候选跨度会耗费许多人力和时间。

综上所述，嵌套命名实体识别方法存在单词语义特征融合效果较差、边界信息检测不足的问题。本文对字级别嵌入和字符级别嵌入特征向量进行交互学习，采用二元序列标记法过滤非实体区间，得到只含有实体词的粗粒度候选区间，再对其进行细粒度划分。实验结果表明，本文模型避免了对不同长度的所有跨度进行识别，减少了计算时间和成本，通过字特征表示向量交互学习得到强语义信息，提高了实体识别的准确性。

2 交互式特征融合嵌套命名实体识别模型 2.1 模型架构

与大多数嵌套命名实体识别方法相同，本文基于跨度的方法构建嵌套命名实体识别模型。本文模型架构如图 1所示。整体结构分为五层：第一层为字嵌入层，获得字级别嵌入和字符级别嵌入的向量表示，并使两个向量交互学习获取强化的单词语义信息；第二层为基于BiLSTM的特征交互表示层，经过BiLSTM编码器捕获单词间的长依赖关系，并使两个隐层信息表示交互学习得到最终的上下文序列表示；第三层为基于特征融合的注意力机制层，使用多头注意力层进一步提取多重语义信息；第四层为粗粒度候选区间感知层，利用二元序列标记过滤一些非实体区间，得到粗粒度候选区间；第五层为细粒度划分及类别判断层，得到所有候选跨度的实体类别或非实体类别。

	Download: JPG larger image
图 1 本文模型结构 Fig. 1 Structure of the proposed model

2.2 字嵌入层 2.2.1 字嵌入

在字嵌入过程中，输入的句子被编码为$ \boldsymbol{X}=\{{\boldsymbol{X}}_{1}, {\boldsymbol{X}}_{2}, \cdots , {\boldsymbol{X}}_{n}\} $。每个单词都有字级别嵌入向量和字符级别嵌入向量2种类型的嵌入表示，分别得到字级别嵌入向量表示$ {\boldsymbol{e}}_{i}^{w} $和字符级别嵌入向量表示$ {\boldsymbol{e}}_{i}^{c} $（i表示第i个单词）。本文字嵌入的初始化使用了MIKOLOV等^[22]和PENNINGTON等^[23]提出的公开可用的预训练词向量。首先，根据数据集构建单词词汇表，然后，通过公开可用的预训练单词向量初始化词汇表以得到词向量表，在不断的训练过程中更新词向量得到最终单词的字级别表示向量。因此，本文采用BiLSTM捕获字符级别的信息。首先，对数据集上所有字符构建字符表；然后，对每个字符随机初始化字符向量，此时将每个单词看作字符序列；最后，通过BiLSTM网络得到最终单词的字符级别嵌入向量。单词的字符级别表示过程如图 2所示。本文第i个单词$ {\boldsymbol{x}}_{i} $由$ {\boldsymbol{e}}_{i}^{w} $和$ {\boldsymbol{e}}_{i}^{c} $分开表示，为了方便后面两种特征向量交互学习，未对两种单词嵌入方式进行连接操作。

	Download: JPG larger image
图 2 单词的字符级别表示过程 Fig. 2 Character-level representation process of a word

单词$ {\boldsymbol{X}}_{i} $是由两种嵌入方式表示，本文定义$ {\boldsymbol{x}}^{w} $表示句子的字级别向量表示，$ {\boldsymbol{x}}^{c} $表示句子的字符级别向量表示。因此，句子的输入以两种不同的形式嵌入到分布空间中，如式（1）和式（2）所示：

$ {\boldsymbol{x}}^{w}=\left\{{\boldsymbol{e}}_{1}^{w}, {\boldsymbol{e}}_{2}^{w}, \cdots , {\boldsymbol{e}}_{n}^{w}\right\} $

(1)

$ {\boldsymbol{x}}^{c}=\left\{{\boldsymbol{e}}_{1}^{c}, {\boldsymbol{e}}_{2}^{c}, \cdots , {\boldsymbol{e}}_{n}^{c}\right\} $

(2)

其中：$ {\boldsymbol{e}}^{w} $表示由预先训练好的词向量构成的词向量查找表；$ {\boldsymbol{e}}_{i}^{w} $表示第i个单词的字级别嵌入向量；$ {\boldsymbol{e}}^{c} $表示单词的字符序列由BiLSTM网络获得的字符级别向量表示；$ {\boldsymbol{e}}_{i}^{c} $表示第i个单词的字符级别嵌入向量。

2.2.2 嵌入单词表示向量交互

两种单词表示向量可以通过强化学习来挖掘深层次的字语义信息和字符构成的单词信息。本文通过两次交互机制来强化特征之间的信息融合。

由上述可知，句子的字级别嵌入向量表示为$ {\boldsymbol{x}}^{w}=\left\{{\boldsymbol{e}}_{1}^{w}, {\boldsymbol{e}}_{2}^{w}, \cdots , {\boldsymbol{e}}_{n}^{w}\right\} $，句子的字符级别嵌入向量表示为$ {\boldsymbol{x}}^{c}=\left\{{\boldsymbol{e}}_{1}^{c}, {\boldsymbol{e}}_{2}^{c}, \cdots , {\boldsymbol{e}}_{n}^{c}\right\} $。在第一次交互完成后，两种单词表示向量满足式（3）和式（4）：

$ {\tilde{\boldsymbol{x}}}^{w}=\mathrm{m}\mathrm{u}\mathrm{l}\left({\boldsymbol{x}}^{w}, {\boldsymbol{x}}^{c}\right)+{\boldsymbol{x}}^{w} $

(3)

$ {\tilde{\boldsymbol{x}}}^{c}=\mathrm{m}\mathrm{u}\mathrm{l}\left({\boldsymbol{x}}^{w}, {\boldsymbol{x}}^{c}\right)+{\boldsymbol{x}}^{c} $

(4)

其中：mul表示不同数据之间的信息交互，经过第一次信息交互，字级别表示向量和字符级别表示向量分别带有对方的信息，强化了单词的信息表示。此时的两种单词表示向量包含了强化的单词语义信息。单词表示向量第一次交互过程如图 3所示。

	Download: JPG larger image
图 3 单词表示向量第一次交互过程 Fig. 3 The first interaction process of word representation vector

2.3 基于BiLSTM的特征交互表示层

BiLSTM分别采用顺序和逆序对每个句子进行计算，以有效利用上下文信息，并且不存在梯度爆炸的问题^[24]。本文融合字级别嵌入与字符级别嵌入来表示单词语义信息，在BiLSTM网络编码层中捕获句子上下文信息，再将两个隐层状态交互学习并融合得到最终上下文序列表示，通过多头注意力机制进一步得到句子的深层语义信息，该过程如图 4所示。

	Download: JPG larger image
图 4 基于BiLSTM的特征交互表示流程 Fig. 4 Procedure of feature interaction representation based on BiLSTM

2.3.1 BiLSTM特征提取

经过交互之后的句子字级别特征向量表示为$ {\tilde{\boldsymbol{x}}}^{w} $，在BiLSTM编码器中每个时刻t下各个单元的隐藏状态$ {\boldsymbol{h}}_{t}^{w} $计算如式（5）~式（10）所示：

$ {\boldsymbol{i}}_{t}^{w}=\delta \left({\boldsymbol{W}}_{i}^{w}{\tilde{\boldsymbol{e}}}_{t}^{w}+{\boldsymbol{u}}_{i}^{w}{\boldsymbol{h}}_{t-1}^{w}+{\boldsymbol{b}}_{i}^{w}\right) $

(5)

$ {\boldsymbol{f}}_{t}^{w}=\delta \left({\boldsymbol{W}}_{f}^{w}{\tilde{\boldsymbol{e}}}_{t}^{w}+{\boldsymbol{u}}_{f}^{w}{\boldsymbol{h}}_{t-1}^{w}+{\boldsymbol{b}}_{f}^{w}\right) $

(6)

$ {\boldsymbol{u}}_{t}^{w}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{W}}_{u}^{w}{\tilde{\boldsymbol{e}}}_{t}^{w}+{\boldsymbol{u}}_{u}^{w}{\boldsymbol{h}}_{t-1}^{w}+{\boldsymbol{b}}_{u}^{w}\right) $

(7)

$ {\boldsymbol{c}}_{t}^{w}={\boldsymbol{i}}_{t}^{w}\boldsymbol{e}{\boldsymbol{u}}_{t}^{w}+{\boldsymbol{f}}_{t}^{w}\boldsymbol{e}{\boldsymbol{c}}_{t-1}^{w} $

(8)

$ {\boldsymbol{o}}_{t}^{w}=\delta \left({\boldsymbol{W}}_{o}^{w}{\tilde{\boldsymbol{e}}}_{t}^{w}+{\boldsymbol{u}}_{o}^{w}{\boldsymbol{h}}_{t-1}^{w}+{\boldsymbol{b}}_{o}^{w}\right) $

(9)

$ {\boldsymbol{h}}_{t}^{w}={\boldsymbol{o}}_{t}^{w}\boldsymbol{e}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\boldsymbol{c}}_{t}^{w}\right) $

(10)

其中：$ \delta \left(g\right) $为Sigmoid激活函数；$ \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left(g\right) $为双曲正切函数；$ {\boldsymbol{i}}_{t}^{w} $、$ {\boldsymbol{f}}_{t}^{w} $、$ {\boldsymbol{o}}_{t}^{w} $分别为输入门、遗忘门和输出门；$ {\boldsymbol{u}}_{t}^{w} $为t时刻候选记忆单元向量；$ {\boldsymbol{c}}_{t}^{w} $为t时刻记忆单元向量；$ {\boldsymbol{W}}^{w} $和$ {\boldsymbol{u}}^{w} $为单元输出的权重矩阵；$ {\boldsymbol{b}}^{w} $为偏置向量。

通过连接前向LSTM和后向LSTM得到句子的隐藏状态$ {\boldsymbol{h}}_{t}^{w}=\left\{\overleftarrow{{\boldsymbol{h}}_{t}^{w}}\mathrm{⊕}\overrightarrow{{\boldsymbol{h}}_{t}^{w}}\right\} $，其中$ \overleftarrow{{\boldsymbol{h}}_{t}^{\boldsymbol{w}}}=\overleftarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}({\tilde{\boldsymbol{e}}}_{t}^{w}, \overleftarrow{{\boldsymbol{h}}_{t-1}^{w}}) $，$ \overrightarrow{{\boldsymbol{h}}_{t}^{w}}=\overrightarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}({\tilde{\boldsymbol{e}}}_{t}^{w}, \overrightarrow{{\boldsymbol{h}}_{t-1}^{w}}) $。同理，可以得到句子字符级别特征向量表示$ {\tilde{\boldsymbol{x}}}_{}^{\boldsymbol{c}} $，经过BiLSTM得到的句子隐藏状态特征$ {\boldsymbol{h}}_{t}^{c}=\left\{\overleftarrow{{\boldsymbol{h}}_{t}^{c}}\mathrm{⊕}\overrightarrow{{\boldsymbol{h}}_{t}^{c}}\right\} $，其中$ \overleftarrow{{\boldsymbol{h}}_{t}^{c}}=\overleftarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}({\tilde{\boldsymbol{e}}}_{t}^{c}, \overleftarrow{{\boldsymbol{h}}_{t-1}^{c}}) $，$ \overrightarrow{{\boldsymbol{h}}_{t}^{c}}=\overrightarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}({\boldsymbol{e}}_{t}^{c}, \overrightarrow{{\boldsymbol{h}}_{t-1}^{c}}) $。

2.3.2 特征交互

本文通过对隐藏状态的句子特征向量进行强化训练，获取深层语义信息，引入Softmax激活函数更新不同特征的权重，同时让两个隐藏状态句子特征向量与权重矩阵进行交互，从而达到提高有用信息比重、降低非实体信息比重的目的。该过程如式（11）和式（12）所示：

$ \overline{{\boldsymbol{h}}_{t}^{w}}=\mathrm{m}\mathrm{u}\mathrm{l}({\boldsymbol{h}}_{t}^{w}, \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}({\boldsymbol{h}}_{t}^{w}+{\boldsymbol{h}}_{t}^{c}\left)\right) $

(11)

$ \overline{{\boldsymbol{h}}_{t}^{c}}=\mathrm{m}\mathrm{u}\mathrm{l}({\boldsymbol{h}}_{t}^{c}, \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}({\boldsymbol{h}}_{t}^{w}+{\boldsymbol{h}}_{t}^{c}\left)\right) $

(12)

字级别嵌入向量与字符级别嵌入向量经过两次交互之后，最终包含单词语义信息和句子上下文信息的隐藏状态序列表示$ \boldsymbol{H}=\{{\boldsymbol{h}}_{1}, {\boldsymbol{h}}_{2}, \cdots , {\boldsymbol{h}}_{n}\} $。每个隐藏单元$ {\boldsymbol{h}}_{t} $满足式（13）：

$ {\boldsymbol{h}}_{t}=\{\overline{{\boldsymbol{h}}_{t}^{w}}+\overline{{\boldsymbol{h}}_{t}^{c}}\} $

(13)

2.3.3 基于特征交互的多头注意力

多头注意力通过多个子空间表示来提升模型关注不同特征的能力，有利于后续实体的边界分类和类型分类。因此，本文在BiLSTM后加入多头注意力来获取上下文信息的依赖关系。其中，缩放点积注意力的计算如式（14）所示：

$ {A}^{\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\frac{\boldsymbol{Q}{\boldsymbol{K}}^{\mathrm{T}}}{\sqrt{{\boldsymbol{d}}_{k}}}\boldsymbol{V} $

(14)

其中：$ {A}^{\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) $表示注意力分数；$ \boldsymbol{Q} $表示查询向量；$ \boldsymbol{K} $表示键向量；$ \boldsymbol{V} $表示值向量；$ \sqrt{{\boldsymbol{d}}_{k}} $表示键向量维数的平方根。

多头注意力层本质指进行两次以上的注意力头运算^[25]，对于基于BiLSTM的特征交互表示得到的隐层序列状态表示，单头注意力计算如式（15）所示：

$ \mathrm{h}\mathrm{e}\mathrm{a}{\mathrm{d}}_{i}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\left({\boldsymbol{h}}_{t}{\boldsymbol{W}}_{i}^{\boldsymbol{Q}}{)}^{}\right({\boldsymbol{h}}_{t}{\boldsymbol{W}}_{i}^{\boldsymbol{K}}{)}^{\mathrm{T}}}{\sqrt{{\boldsymbol{d}}_{k}}}\right){\boldsymbol{h}}_{t}{\boldsymbol{W}}_{i}^{v} $

(15)

其中：$ {\boldsymbol{h}}_{t} $为t时刻隐藏状态序列；$ {\boldsymbol{W}}_{i}^{\boldsymbol{Q}} $、$ {\boldsymbol{W}}_{i}^{\boldsymbol{K}} $、$ {\boldsymbol{W}}_{i}^{\boldsymbol{V}} $为可训练的矩阵；$ \sqrt{{\boldsymbol{d}}_{k}} $为i维度的调节平滑项。最后，拼接这i次的计算结果并做一次线性变换，得到对于每一时刻t通过基于BiLSTM的特征交互表示层的网络输出状态的多头注意力运算结果，如式（16）所示：

$ {M}^{\mathrm{M}\mathrm{H}}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}(\mathrm{h}\mathrm{e}\mathrm{a}{\mathrm{d}}_{1}, \mathrm{h}\mathrm{e}\mathrm{a}{\mathrm{d}}_{2}, \cdots , \mathrm{h}\mathrm{e}\mathrm{a}{\mathrm{d}}_{i}){\boldsymbol{W}}_{c} $

(16)

其中：$ {M}^{\mathrm{M}\mathrm{H}} $为多头注意力层的计算结果；$ {\boldsymbol{W}}_{c} $为权重参数。

2.4 粗粒度候选区间感知层

在粗粒度候选区间感知层中，本文采用二元序列标记法给每一个文本标记实数，其中实体词被标记为1，非实体词被标记为0，以判断每个词是否属于某个或多个实体，以便过滤掉一些非实体的区域，找到只含有实体词的粗粒度候选区间，进而划分出不同层的实体词，避免对所有不同跨度类型的区间进行实体判断，减少了计算的时间成本。隐藏层特征序列输出经过一个全连接层和Sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。

本文设定当粗粒度候选区间感知层中每个词被预测属于实体词的概率p大于（不包含）0.5时，即视为实体词。粗粒度候选区间全为实体词，对于每个粗粒度候选区间$ \mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}(i, j)=({\boldsymbol{X}}_{i}, {\boldsymbol{X}}_{i+1}, \cdots , {\boldsymbol{X}}_{j}) $，$ {\boldsymbol{X}}_{i} $表示输入文本的第i个词，此时定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息$ {\boldsymbol{h}}_{i} $，右边界信息为区间最后一个词的句子级信息$ {\boldsymbol{h}}_{j} $，整体信息为区间的所有词句子级信息表示的平均值。即每个粗粒度候选区间$ \mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}(i, j) $向量表示如式（17）所示：

$ \boldsymbol{I}(i, j)=\left[{\boldsymbol{h}}_{i};\frac{1}{j-i+1}\sum\limits _{k=i}^{j}{\boldsymbol{h}}_{k};{\boldsymbol{h}}_{j}\right] $

(17)

其中：$ {\boldsymbol{h}}_{k} $表示输入句子中第k个单词的隐藏状态特征表示。

句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}} $，如式（18）所示：

$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}=-\left[y\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\right(p)+(1-y\left)\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\right(1-p\left)\right] $

(18)

其中：y表示所判断词的真实标签；p表示所判断词为实体词的概率。

当模型进行训练时，若输入的句子$ \boldsymbol{X}=\{{\boldsymbol{X}}_{1}, {\boldsymbol{X}}_{2}, \cdots , {\boldsymbol{X}}_{n}\} $，且在区间$ ({\boldsymbol{X}}_{i}, {\boldsymbol{X}}_{i+1}, \cdots , {\boldsymbol{X}}_{j}) $内都是实体，则对应的二元序列标签$ {\boldsymbol{y}}_{i}, {\boldsymbol{y}}_{i+1}, \cdots , {\boldsymbol{y}}_{j} $都为1，不在任何实体中的词被标记为0。句子的粗粒度候选区间感知层在当前批次的损失$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}^{'} $如式（19）所示：

$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}^{'}=\sum\limits _{i=1}^{{m}_{x}}{L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}\left(\mathrm{w}\mathrm{o}\mathrm{r}{\mathrm{d}}_{i}\right) $

(19)

其中：$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}} $表示粗粒度候选区间感知层的损失函数；$ \mathrm{w}\mathrm{o}\mathrm{r}{\mathrm{d}}_{\boldsymbol{i}} $表示当前训练批次的第i个词；$ {m}_{x} $表示当前训练批次词的个数。当模型进行训练时，在训练集上运用反向传播算法对式（19）进行最小化，达到优化模型的目的。

2.5 细粒度划分及类别判断层

本文通过过滤一些非实体区域得到粗粒度候选空间。细粒度划分及类别判断层将对粗粒度候选区间进行划分，得到不同层的细粒度候选区间，通过一个全连接层和Softmax层判断实体类别或非实体类别。细粒度划分及类别判断层的结构如图 5所示。

	Download: JPG larger image
图 5 细粒度划分及类别判断层的结构 Fig. 5 Structure of fine granularity division and category judgment layer

在大多数句子中含有的实体词较少，且连续实体词的长度也较短，因此，采用枚举的方法对粗粒度候选区间的细粒度进行划分。其中，细粒度区间的向量表示和粗粒度候选区间的向量表示方法保持一致。将细粒度区间的向量表示输入到由全连接层和Softmax输出层构成的区域，用于分类该细粒度区间属于哪种实体类别或者不属于任何实体类别。本文的细粒度区间分类损失函数采用交叉熵损失函数，如式（20）所示：

$ {L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}}=-\sum\limits _{c=1}^{N}{y}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}, c}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({p}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}, c}\right) $

(20)

其中：$ {y}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}, c} $表示细粒度区间是否属于实体类别c的二元标签（1表示属于，0表示不属于）；$ {p}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}, c} $表示细粒度区间属于实体类别c的概率。实体类别总共有N个。

同理，细粒度划分及类别判断层在当前批次上的训练损失函数如式（21）如示：

$ {L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}}^{'}=\sum\limits _{i=1}^{{m}_{i}}{L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}}\left(\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}{\mathrm{l}}_{i}\right) $

(21)

其中：$ {L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}} $为细粒度划分及类别判断层的损失函数；$ \mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}{\mathrm{l}}_{i} $为当前训练批次的第i个细粒度区间；$ {m}_{i} $为当前训练批次细粒度区间的个数。当模型进行训练时，在训练集上运用反向传播算法对式（21）进行最小化，达到优化模型的目的。

由于粗粒度候选区间感知层和细粒度划分及类别判断层共享相同的编码器BiLSTM，因此整个模型可以看成多任务训练，模型在训练集上的损失函数L为多任务训练损失的加权平均值，如式（22）所示：

$ L=\lambda {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}^{'}+(1-\lambda ){L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}}^{'} $

(22)

其中：$ \lambda $为超参数，0 < $ \lambda $ < 1，表示粗粒度候选区间感知层在整个模型损失中的权重；$ {L}_{\mathrm{w}\mathrm{o}\mathrm{r}\mathrm{d}}^{'} $和$ {L}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}\mathrm{v}\mathrm{a}\mathrm{l}}^{'} $分别为粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数。经验证，当$ \lambda $取0.4或0.9时，本文的实验效果最优。

3 实验设计与结果分析 3.1 实验数据集

为验证模型的有效性，本文在嵌套的NER数据集GENIA上进行实验。对于GENIA数据集，本文使用文献[26]发布的预处理版本。该数据集在属于医学领域的GENIA v3.0.2语料库上建立，包含DNA、RNA、protein、Cell-line和Cell type实体类型。本文训练集、验证集和测试集的比例为8.1∶0.9∶1。GENIA数据集的统计数据如表 1所示。

下载CSV 表 1 GENIA数据集的统计数据 Table 1 Statistics data of GENIA dataset

3.2 训练数据标注方法

在实验部分，本文采用IOB2标注方法对训练数据进行标注，单层的IOB2标注方法无法标注嵌套命名实体，多层IOB2标注方法可以对包含多个实体含义的实体词进行多列标注。IOB2的标签I用于文本块内的字符，标签O用于除文本块之外的字符，标签B用于在该文本块前面接续一个同类型的文本块情况下的第一个字符。多个文本块和每个文本块都以标签B开始。

在标注时首先计算最大嵌套层数N，标注时对每个词标注N列，由内至外标注各层实体信息。在GENIA数据集上某一嵌套命名实体标注内容如图 6所示。

	Download: JPG larger image
图 6 多层IOB2标注格式实例 Fig. 6 Example of multi-layer IOB2 annotation format

3.3 实验参数设置

本文所提模型基于PyTorch框架，预训练的字级别嵌入的向量维度为200维，字符级别嵌入的向量维度为200维并随机初始化。模型参数设置如表 2所示。表 3所示为本文的实验环境与配置。

下载CSV 表 2 本文模型参数设置 Table 2 Parameter settings of the proposed model

下载CSV 表 3 本文实验的软硬件环境 Table 3 Software and hardware environment of the proposed experiment

本文分别采用准确率P、召回率R和综合评价指标F1值作为评价标准。

3.4 不同模型的对比实验

为验证本文所提模型的有效性，本文模型与嵌套命名实体识别的基线模型进行对比。对比模型如下：1）文献[27]基于超图方法联合建模识别实体边界、实体类型和实体头部；2）文献[8]提出基于局部检测方法识别嵌套命名实体；3）文献[28]引入分隔符概念，提出一种新的基于多图方法；4）文献[21]列举所有可能的实体跨度，并将其作为潜在的实体提及，使用深度神经网络对实体提及进行分类；5）文献[29]提出BILU-NEMH模型，将超图模型与编码模式和神经网络相结合，有效地捕获无界长度的嵌套提及实体。

在GENIA数据集上不同模型的评价指标对比如表 4所示。

下载CSV 表 4 在GENIA数据集上不同模型的评价指标对比 Table 4 Evaluation indexs comparison among different models on GENIA dataset

从表 4可以看出，相比对比模型，本文模型的召回率R和F1值都达到了最优。其中，文献[28]模型的性能次优。其原因为：虽然文献[28]提出的模型能够处理实体重叠的情况，但是在GENIA数据集上，大多数模型提到的实体都是在一个嵌套的结构中，而不是在实体重叠的结构中。

相比对比模型，本文模型的召回率比最优模型（文献[29]模型）提升3.5个百分点，F1值相比最优模型（文献[28]模型）提升0.4个百分点。这可能是由于本文模型经过特征交互融合和信息共享来优化实体正确识别的效果，也使得分类器更好地分类实体类别。因此，本文模型在召回率和F1值上都有所提升。

表 5所示为本文模型在五种实体类别识别中的P、R和F1值以及文献[21]模型在五种实体类别识别的F1值。总计数据是在整个数据集的实体类别识别中的R、P、F1值。文献[21]模型在RNA、protein实体类型上的识别效果优于本文模型，在其余实体类型上本文模型的性能都有不同程度的提高。因此，本文提出的基于交互式特征融合模型能有效改进句子隐藏信息的提取效果，对后续嵌套命名实体的识别起到了重要的作用。

下载CSV 表 5 不同模型在各实体类别上的评价指标对比 Table 5 Evaluation indicators comparison among different models on various entity categories

3.5 消融实验分析

在深度学习模型的训练过程中，单词嵌入对模型的整体效果起关键作用。嵌入向量的结合方式，即单词特征向量表示的不同融合方法，对模型的整体效果也起到重要的作用。为验证嵌入时不同单词特征向量以及句子特征向量的交互对整体模型产生的效果，本文进行交互对比实验，除引入的交互策略不同以外，其他模型的参数设置均相同。三组对比实验如下：1）F-Alternate+BiLSTM+att，加入第一次交互，即进行单词嵌入向量的交互，通过BiLSTM获取隐层序列信息，再通过多头注意力机制获取句子级信息；2）BiLSTM+S-Alternate+att，只进行第二次交互，即包含隐层序列状态信息的两种特征向量进行交互，之后加入多头注意力机制获取句子深层上下文信息；3）BiLSTM+att，不进行特征向量的交互，将两种单词嵌入表示向量直接拼接，并将其作为句子级输入，通过BiLSTM得到隐层状态序列表示，再由多头注意力机制得到句子级深层语义信息。消融实验结果如表 6所示。

下载CSV 表 6 消融实验结果 Table 6 Ablation experiment results

本文以BiLSTM+att模型作为基准，对本文模型、F-Alternate+BiLSTM+att模型、BiLSTM+S-Alternate+att模型进行对比。从表 6可以看出，F-Alternate+BiLSTM+att模型与基准模型相比，F1值和R分别提高0.2和0.9个百分点，这是由于此时两种单词表示向量各带有对方的信息，提取到了字与字符之间的依赖关系。BiLSTM+S-Alternate+att模型的F1值与R均低于基准模型，这可能是BiLSTM在获得两种特征表示向量之前，未进行数据交流，将交互之后的信息作为噪音过滤掉，导致最终隐藏序列状态的信息获取不足。相比基准模型，本文模型F1值和P分别提高0.4和0.9个百分点，说明第一次单词表示向量的交互使得字级别向量与字符级别向量分别带有对方的隐藏信息，获得两者之间的依赖关系，而第二次交互了句子级隐层序列特征向量，不仅加强了自身深层语义信息的获取，还增强了字级别特征与字符级别特征之间的信息交互。

为验证多头注意力机制对模型的影响，本文实验对比了基于特征交互的多头注意力模型与未加入多头注意力机制的模型，除了引入的注意力机制不同，其他模型的参数设置均相同。实验结果如表 7所示。

下载CSV 表 7 引入多头注意力机制后不同模型的评价指标对比 Table 7 Evaluation indicators comparison among different models after introducing multi-head attention mechanism

相比F-Alternate+BiLSTM+S-Alternate模型，本文模型的F1值提高1.5个百分点，P和R各有不同程度的提升。因此，多头注意力机制对于文本深层语义信息的提取以及学习句子长依赖关系具有重要的意义。

结合以上结果表明，基于交互式特征融合和多头注意力机制可以提取句子的深层语义信息，得到隐藏序列向量表示，有效地提高模型的性能。

4 结束语

现有嵌套命名实体模型在字嵌入过程中存在不同特征融合效果较差，以及无法捕获特征依赖关系和单词强语义信息的问题，本文提出一种基于交互式特征融合的嵌套命名实体识别模型。通过引入多头注意力机制学习句子长距离依赖关系，从而得到深层语义信息。采用二元序列标注法过滤非实体词，降低时间消耗。实验结果表明，本文模型能有效提取句子的深层语义信息。下一步将引入BERT预训练模型，对实体与词语之间的关系以及边界信息获取方式进行研究，增强模型识别效果。

参考文献

[1]	丁泽源, 杨志豪, 罗凌, 等. 基于深度学习的中文生物医学实体关系抽取系统[J]. 中文信息学报, 2021, 35(5): 70-76. DING Z Y, YANG Z H, LUO L, et al. Chinese biomedical entity relation extraction system based on deep learning[J]. Journal of Chinese Information Processing, 2021, 35(5): 70-76. (in Chinese) DOI:10.3969/j.issn.1003-0077.2021.05.009
[2]	BAI T, GE Y, GUO S Y, et al. Enhanced natural language interface for web-based information retrieval[J]. IEEE Access, 2020, 9: 4233-4241.
[3]	SELYA A, ANSHUTZ D, GRIESE E, et al. Predicting unplanned medical visits among patients with diabetes: translation from machine learning to clinical implementation[J]. BMC Medical Informatics and Decision Making, 2021, 21(1): 111. DOI:10.1186/s12911-021-01474-1
[4]	HANIFAH A F, KUSUMANINGRUM R. Non-factoid answer selection in Indonesian science question answering system using Long Short-Term Memory (LSTM)[J]. Procedia Computer Science, 2021, 179: 736-746. DOI:10.1016/j.procs.2021.01.062
[5]	连艺谋, 张英俊, 谢斌红. 用于嵌套命名实体识别的边界强化分类模型[J]. 计算机工程, 2022, 48(8): 313-320. LIAN Y M, ZHANG Y J, XIE B H. Boundary enhanced classification model for nested named entity recognition[J]. Computer Engineering, 2022, 48(8): 313-320. (in Chinese)
[6]	KATIYAR A, CARDIE C. Nested named entity recognition revisited[C]//Proceedings of Conference on the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 861-871.
[7]	WANG B, LU W, WANG Y, et al. A neural transition-based model for nested mention recognition[EB/OL]. [2021-11-20]. http://arXivpreprintarXiv:1810.01808.2018.
[8]	XU M B, JIANG H, WATCHARAWITTAYAKUL S. A local detection approach for named entity recognition and mention detection[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017: 1237-1247.
[9]	TAN C Q, QIU W, CHEN M S, et al. Boundary enhanced neural span classification for nested named entity recognition[C]//Proceedings of Conference on Artificial Intelligence. [S. l]: AAAI Press, 2020: 9016-9023.
[10]	余诗媛, 郭淑明, 黄瑞阳, 等. 嵌套命名实体识别研究进展[J]. 计算机科学, 2021, 48(增刊2): 1-10, 29. YU S Y, GUO S M, HUANG R Y, et al. Overview of nested named entity recognition[J]. Computer Science, 2021, 48(S2): 1-10, 29. (in Chinese)
[11]	ZHOU G D. Recognizing names in biomedical texts using mutual information independence model and SVM plus sigmoid[J]. International Journal of Medical Informatics, 2006, 75(6): 456-467. DOI:10.1016/j.ijmedinf.2005.06.012
[12]	王玉玺, 黄国策, 李伟, 等. 稳健MIMO雷达发射波形和接收滤波器优化[J]. 华中科技大学学报(自然科学版), 2017, 45(6): 26-32. WANG Y X, HUANG G C, LI W, et al. Robust design of MIMO radar transmit waveform and receive filter[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2017, 45(6): 26-32. (in Chinese)
[13]	MCDONALD R, PEREIRA F. Identifying gene and protein mentions in text using conditional random fields[J]. BMC Bioinformatics, 2005, 6(1): 1-7. DOI:10.1186/1471-2105-6-1
[14]	LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning. New York, USA: ACM Press, 2001: 282-289.
[15]	ALEX B, HADDOW B, GROVER C. Recognising nested named entities in biomedical text[C]//Proceedings of the Biological, Translational, and Clinical Language Processing. Morristown, USA: Association for Computational Linguistics, 2007: 65-72.
[16]	郭晓然, 罗平, 王维兰. 基于Transformer编码器的中文命名实体识别[J]. 吉林大学学报(工学版), 2021, 51(3): 989-995. GUO X R, LUO P, WANG W L. Chinese named entity recognition based on Transformer encoder[J]. Journal of Jilin University(Engineering and Technology Edition), 2021, 51(3): 989-995. (in Chinese)
[17]	JU M Z, MIWA M, ANANIADOU S. A neural layered model for nested named entity recognition[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 1446-1459.
[18]	STRAKOV A J, STRAKA M, HAJI J. Neural architectures for nested NER through linearization[EB/OL]. [2021-11-20]. http://arXivpreprintarXiv:1908.06926.2019.
[19]	XIA C, ZHANG C, YANG T, et al. Multi-grained named entity recognition[EB/OL]. [2021-11-20]. http://arXivpreprintarXiv:1906.08449.2019.
[20]	YU J, BOHNET B, POESIO M. Named entity recognition as dependency parsing[EB/OL]. [2021-11-20]. http://arXivpreprintarXiv:2005.07150.2020.
[21]	SOHRAB M G, MIWA M. Deep exhaustive model for nested named entity recognition[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 2843-2849.
[22]	MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2013: 3111-3119.
[23]	PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1532-1543.
[24]	赵丹丹, 黄德根, 孟佳娜, 等. 多头注意力与字词融合的中文命名实体识别[J]. 计算机工程与应用, 2022, 58(7): 142-149. ZHAO D D, HUANG D G, MENG J N, et al. Chinese named entity recognition by integrating multi-heads attention mechanism and character and words fusion[J]. Computer Engineering and Applications, 2022, 58(7): 142-149. (in Chinese)
[25]	司逸晨, 管有庆. 一种中文医疗命名实体识别方法: 中国, 112487820B[P]. 2021-05-25. SI Y C, GUAN Y Q. A Chinese medical named entity recognition method: CN, 112487820B[P]. 2021-05-25. (in Chinese)
[26]	ZHENG C M, CAI Y, XU J Y, et al. A boundary-aware neural model for nested named entity recognition[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019: 357-366.
[27]	WEI W, DAN R. Joint mention extraction and classification with mention hypergraphs[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 857-867.
[28]	MUIS A O, LU W. Labeling gaps between words: recognizing overlapping mentions with mention separators[EB/OL]. [ 2021-11-20]. http://arXivpreprintarXiv:1810.09073.2018.
[29]	LIN J C W, SHAO Y N, FOURNIER-VIGER P, et al. BILU-NEMH: a BILU neural-encoded mention hypergraph for mention extraction[J]. Information Sciences, 2019, 496: 53-64.