2. 湖南省智能信息感知及处理技术重点实验室, 湖南 株洲 412008
2. Hunan Key Laboratory of Intelligent Information Perception and Processing Technology, Zhuzhou, Hunan 412008, China
开放科学(资源服务)标志码(OSID):
实体链接是知识图谱构建[1]和应用[2]过程中的关键技术,在智能问答、信息检索等知识图谱的相关领域得到广泛应用[3]。实体链接任务的目标是将文本中的实体指称指向知识库中的特定实体,从而明确文本中实体指称的含义。实体链接通常分为候选实体生成和候选实体排序两个阶段,候选实体排序是实体链接过程中的研究重点。候选实体排序阶段对实体指称和候选实体集中的所有候选实体进行相关度排序,选择相关度最大的候选实体作为实体指称对应的链接实体。
已有的实体链接方法主要针对长文本语境[4],针对短文本的实体链接方法研究较少。随着社交平台的发展,越来越多的网络文本以短文本的形态呈现,面向短文本的实体链接方法具有重要的研究价值。面向短文本的实体链接与面向长文本的实体链接有所不同,短文本的特点是文本上下文缺失、表达不正式、语法结构不完整等。短文本的这些特点导致传统的实体链接方法针对短文本实体链接的效果有待提高。
针对短文本的特点,可以将多任务学习[5]引入短文本实体链接过程中。多任务学习是机器学习领域的一个分支[6],多个相关的任务并行学习,不同任务之间共享部分模型参数。多任务学习在机器学习的很多应用领域均取得了优秀的成果[7-9],如自然语言处理(Natural Language Processing,NLP)[10]和计算机视觉(Computer Vision,CV)[11]。与传统的单任务学习相比,多个任务的并行学习能够使模型学到更加通用的底层表达,从而提高模型的泛化能力,优化模型在主任务中的表现。实体指称的类别是实体链接过程中的重要信息[12],对短文本实体链接任务起积极作用,所以将实体分类任务作为辅助任务进行多任务学习。
为解决信息不充分导致的短文本实体链接准确率较低的问题,本文提出一种基于多任务学习的短文本实体链接方法。通过构建基于多任务学习的短文本实体链接模型,将实体分类任务作为短文本实体链接的辅助任务进行多任务学习。辅助任务能够缓解短文本实体链接过程中信息不充分的问题,促使模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的处理效果。
1 相关工作 1.1 多任务学习多任务学习是机器学习的一种学习模式,其目的是利用多个相关任务中包含的信息来提高模型在各个任务中的泛化能力和性能。多任务学习包含一组相关任务
$ {T}_{i}={\left\{\left({x}^{(\left(i, j\right)}, {y}^{(i, j)}\right)\right\}}_{j=1}^{{N}_{i}} $ | (1) |
其中:
定义M中各个任务对应的模型分别为
$ l\left(\theta \right)=\sum\limits _{i=1}^{M}\sum\limits _{j=1}^{{N}_{i}}{\eta }_{i}{l}_{i}\left({f}_{i}\left({x}^{\left(i, j\right)};\theta \right), {y}^{\left(i, j\right)}\right) $ | (2) |
其中:
多任务学习的难点在于各个任务之间共享机制的设计。常用的参数共享策略主要有硬共享模式和软共享模式,层次共享模式和共有-私有模式也被针对特定任务提出。硬共享模式是使用范围较广的共享模式,不同任务的神经网络模型共享底层网络部分,然后针对每个任务设置特定的私有网络层。硬共享能够通过多个相关任务的协同训练获取更加通用的底层表达,从而提高模型泛化能力,优化模型在目标任务上的表现。软共享模式中各个任务并不显式地共享模型结构,但每个任务均可以从其他任务中学习部分信息来优化当前任务的表现。
1.2 实体链接当前对实体链接的研究大多基于深度学习方法[13-15],基本思路是使用神经网络模型来计算实体指称上下文和候选实体上下文之间的语义匹配程度。许多研究人员将候选实体排序问题转化为二分类问题进行处理,对于给定实体指称对应的候选实体,用二分类器来判断该候选实体是否为当前实体指称对应的链接实体。PHAN等[16]首次将双向LSTM和注意力机制引入实体链接任务中,对实体指称左侧和右侧的上下文分别独立地进行编码,在当时取得了较优的性能。LIU等[17]将一种新的注意力机制引入实体指称上下文的编码过程,从而能够捕获实体指称周围的重要文本片段。SIL等[18]将深度学习方法和相似性模型相结合,能够有效获取实体指称上下文与目标候选实体的相似度。
随着短文本实体链接的需求增长,近年来一些研究人员针对短文本语境的实体链接方法进行了研究。GU等[19]提出一种多轮多选择阅读理解框架来解决短文本实体链接问题,首先利用实体指称的上下文在搜索引擎中进行查询,然后使用选择模块从查询所得的候选实体中识别正确的链接实体。ZHANG等[20]提出基于局部注意力机制的短文本实体链接方法,通过对实体指称的上下文与候选实体的描述文本进行拼接,将短文本转换为长文本,并引入局部注意力机制来缓解长距离依赖问题,强化局部的上下文信息。本文将多任务学习思想引入短文本实体链接过程中,以实体分类任务作为辅助任务进行多任务学习,缓解短文本实体链接过程中的信息不充分问题。
2 基于多任务学习的短文本实体链接模型构建本文提出的基于多任务学习的短文本实体链接模型整体结构如图 1所示,由BERT编码器、实体分类模块和实体链接模块构成。
![]() |
Download:
|
图 1 基于多任务学习的短文本实体链接模型 Fig. 1 Short text entity linking model based on multi-task learning |
模型的参数共享模式采用硬共享模式,实体分类模型和实体链接模型共同使用BERT编码器部分。BERT编码器与实体分类模块构成实体分类模型,与实体链接模块构成短文本实体链接模型。模型训练期间,实体分类和短文本实体链接任务交替进行,实体指称上下文和该实体指称对应的候选实体上下文作为实体链接任务的输入,实体指称上下文作为实体分类任务的输入。来自两个任务的梯度信息均会传递到共享的BERT编码器部分并更新模型参数,从而得到更加通用的底层表达。根据式(2),将多任务学习模型的损失函数定义为:
$ L=\alpha \times {L}_{\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{k}}+\beta \times {L}_{\mathrm{t}\mathrm{y}\mathrm{p}\mathrm{e}} $ | (3) |
其中:
常用的候选实体集构建方法是将实体指称对应的所有候选实体加入候选实体集中[20],分别计算每个候选实体上下文与实体指称上下文的相关度,若所有候选实体相关度得分的最大值大于给定阈值,则认为相关度最大的候选实体为实体指称对应的正确链接实体。若所有候选实体对应的相关度均小于阈值,则认为该实体指称在知识库中没有对应的实体。
对上述候选实体集构建方法进行改进,首先将实体指称对应的所有候选实体加入候选实体集中,然后对候选实体集增加候选实体“NIL”,NIL表示实体指称在知识库中没有对应的实体,将NIL也作为一个候选实体参与训练过程,其对应的候选实体上下文记为“未知实体”。预测时,取相关度最大的候选实体作为实体指称对应的实体。若NIL对应的相关度最大,则认为该实体指称在知识库中没有对应的实体。
2.2 BERT编码器预训练语言模型近年为NLP领域的发展做出了很大贡献,本文使用BERT[21]预训练语言模型作为共享编码器,其强大的语言表征能力可以提高下游实体链接和实体分类任务的性能。BERT模型结构如图 2所示,以双向Transformer编码器作为模型的基本组成单元。
![]() |
Download:
|
图 2 BERT模型结构 Fig. 2 Structure of BERT model |
模型的输入是词嵌入、位置嵌入和句子嵌入3个部分的和,词嵌入为中文文本中每个字对应的向量,位置嵌入包含每个字的时序信息,句子嵌入用来区分输入的两个句子。位置嵌入的计算式如式(4)和式(5)所示:
$ {P}_{\mathrm{P}\mathrm{E}}({P}_{\mathrm{p}\mathrm{o}\mathrm{s}}, 2i)=\mathrm{s}\mathrm{i}\mathrm{n}({P}_{\mathrm{p}\mathrm{o}\mathrm{s}}/{10}^{}{000}^{2i/{d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}}) $ | (4) |
$ {P}_{\mathrm{P}\mathrm{E}}({P}_{\mathrm{p}\mathrm{o}\mathrm{s}}, 2i+1)=\mathrm{c}\mathrm{o}\mathrm{s}({P}_{\mathrm{p}\mathrm{o}\mathrm{s}}/{10}^{}{000}^{2i/{d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}}) $ | (5) |
其中:
将叠加之后的向量输入Transformer编码器中,从而得到最终的包含语义信息的隐藏层向量,将隐藏层向量输入下游的任务模块进行相应任务的训练。
2.3 短文本实体链接模块本文将短文本实体链接问题转换为二分类问题进行处理。短文本实体链接模块采用基于BERT的实体链接模型,模型架构如图 3所示。首先对实体指称构建对应的候选实体集,候选实体集构建方法见2.1节。候选实体集构建完成后,对候选实体集中的候选实体依次进行训练。将实体指称上下文和候选实体上下文以[SEP]分隔符隔开并输入BERT,然后将BERT输出的CLS位置向量与实体指称对应的开始和结束位置向量拼接作为下一层全连接层的输入。接着,之后再经过Dropout层与全连接层得到模型最终输出,使用sigmoid函数进行激活,最终得到实体指称和当前候选实体的相关度概率得分y,把实体指称上下文与候选实体上下文的相关性问题转化为二分类问题进行处理。将实体链接模型得到的实体指称与候选实体的相关度概率得分y与预先设定的阈值K进行比较,若y大于阈值K,则认为该候选实体是正确的链接实体,否则认为不是。若候选实体集中有多个候选实体的相关度概率得分大于阈值K,则取y值最大的候选实体作为正确的链接实体。
![]() |
Download:
|
图 3 基于BERT的实体链接模型 Fig. 3 Entity linking model based on BERT |
本文使用的CCKS2020评测任务二数据集中,每个实体指称均有对应的类别,而实体指称的类别是实体链接过程中的重要信息,因此,将实体分类任务作为辅助任务帮助模型学习到更加通用的底层表达,从而提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。图 4所示为实体分类模块的模型架构。
![]() |
Download:
|
图 4 实体分类模型 Fig. 4 Entity type model |
数据集中的实体指称共有24类,故将实体指称分类问题看作24分类问题。将实体指称上下文输入BERT,然后将BERT输出的CLS位置向量与实体指称对应的开始和结束位置向量拼接作为下一层全连接层的输入,之后再经过Dropout层与全连接层得到模型最终输出,使用Softmax函数进行激活,得到实体指称的类别概率分布。
3 实验结果与分析为证明本文所提方法的有效性,根据不同的候选实体生成方法、不同的阈值K以及是否使用多任务学习模型分别进行短文本实体链接实验。
3.1 实验数据本文选用CCKS2020(2020全国知识图谱与语义计算大会)评测任务2提供的数据集。该数据集包括标准数据集和知识库。标准数据集由训练集、验证集和测试集组成,整体标注数据大约10万条,按8∶1∶1比例分配,3份数据均通过百度众包标注生成。标注数据集主要来自于:真实的互联网网页标题数据、视频标题数据、用户搜索query。
数据集中的知识库来自百度百科知识库,知识库中的每个实体均提供了实体名称,实体对应的概念类型,以及与此实体相关的一系列二元组 < predicate,object > 信息。
3.2 评价指标给定短文本输入Text,此Text中有N个实体指称:
$ \begin{array}{l}P=\frac{\sum\limits _{n\in N}\left|{E}_{n}\bigcap {E}_{n}^{{'}}\right|}{\sum\limits _{n\in N}\left|{E}_{n}^{{'}}\right|}\\ R=\frac{\sum\limits _{n\in N}\left|{E}_{n}\bigcap {E}_{n}^{{'}}\right|}{\sum\limits _{n\in N}\left|{E}_{n}^{}\right|}\\ \mathrm{F}=\frac{2(P\times R)}{P+R}\end{array} $ | (6) |
CCKS2020标准数据集中的实体指称是给定的,故
本文实验采用的操作系统为Ubuntu,CPU为Intel® CoreTM i7-9700K @ 3.60 GHz,GPU为NVIDIA RTX 2080Ti(11 GB),Python3.6版本,Tensorflow版本为1.13.1。
3.4 参数设置本文所使用的BERT为包含12层transformer的BERT-base,学习率为1
对不同的的候选实体生成方法进行实验,记候选实体集中不包含“NIL”实体的候选实体生成方法为方法1,候选实体集中包含“NIL”实体的候选实体生成方法为方法2。Model-signal代表采用2.3节中的基于BERT编码器的单任务实体链接模型,Model-multi代表本文提出的基于多任务学习的短文本实体链接模型。2个模型使用不同候选实体生成方法时取得的实体链接F值如表 1所示。
![]() |
下载CSV 表 1 两种候选实体生成方法对应的实体链接结果 Table 1 Entity linking results corresponding to the two candidate entity generation methods |
由表 1可知,Model-signal和Model-multi两个模型采用方法2进行实体链接实验得到的F值均高于采用方法1得到的F值。
分析实验发现,相当一部分候选实体集中并不存在实体指称对应的正确链接实体,且该部分候选实体集中与实体指称相关度最大的候选实体所取得的相关度概率得分仍然较小,此时实体指称对应的正确链接实体应为NIL,通过阈值K的取值实验解决此类问题。
3.5.2 阈值K的取值实验设定阈值K,将实体链接模型得到的实体指称与候选实体的相关度概率得分y与阈值K进行比较,若y大于阈值K,则认为该候选实体是正确的链接实体,否则认为不是。若候选实体集中有多个候选实体的相关度概率得分大于阈值K,则取y值最大的候选实体作为正确的链接实体。各模型的实体链接F值随阈值K的变化情况如表 2所示,实验结果如图 5所示。
![]() |
下载CSV 表 2 实体链接F值随阈值K的变化情况 Table 2 Change of entity link F value with threshold K |
![]() |
Download:
|
图 5 各模型实验结果 Fig. 5 Experimental results of each model |
由表 2和图 5可知,各模型在候选实体生成方法取方法1时,F值随阈值K的增大呈上升趋势,当达到最大值后呈下降趋势,Model-signal和Model-multi模型均在阈值K=0.25时F值达到最大;在候选实体生成方法取方法2时,F值随阈值K的增大呈下降趋势,Model-signal和Model-multi模型均在阈值K=0时F值达到最大。
3.5.3 对比实验与分析单任务和多任务学习模型的实体链接F值对比实验结果如表 3所示。由表 3可知,对于候选实体生成方法,将NIL实体加入候选实体集中的方法2优于方法1;Model-multi模型的表现优于Model-signal模型。基于多任务学习的短文本实体链接方法在采用两种候选实体生成方法时的表现均优于相同结构的单任务模型,多任务模型在采用方法2进行候选实体生成且阈值K=0时取得最优F值0.894 9。基于多任务学习的短文本实体链接方法优于相同结构的单任务模型,这证明了本文提出的基于多任务学习的短文本实体链接方法的有效性。
![]() |
下载CSV 表 3 对比实验结果 Table 3 Results of comparative experiments |
针对短文本中信息不充分导致实体指称和候选实体相关度计算依据不足的问题,本文提出一种基于多任务学习的短文本实体链接方法。实体指称的类别是实体链接过程中的重要信息,对短文本实体链接任务具有积极作用,因此将实体分类任务作为辅助任务进行多任务学习。实验结果表明,基于多任务学习的短文本实体链接方法能够有效提高短文本实体链接的F值,辅助任务的引入缓解了短文本实体链接过程中的信息不充分问题。多任务学习思想在短文本实体链接任务上的有效性对于自然语言处理领域的其他任务也有一定的启发意义。本文方法需要用到知识库中的实体类别信息,下一步将对面向中文的实体分类任务进行研究,提高该方法的泛化能力。
[1] |
刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600. LIU Q, LI Y, DUAN H, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600. (in Chinese) |
[2] |
WANG F, WU W, LI Z, et al. Named entity disambiguation for questions in community question answering[J]. Knowledge-Based Systems, 2017, 126(5): 68-77. |
[3] |
SHEN W, WANG J, HAN J. Entity linking with a knowledge base: issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443-460. |
[4] |
ZENG W, ZHAO X, TANG J, et al. CLEEK: a Chinese long-text corpus for entity linking[C]//Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2020: 2026-2035.
|
[5] |
ZHANG Y, YANG Q. An overview of multi-task learning[J]. National Science Review, 2018, 5(1): 30-43. DOI:10.1093/nsr/nwx105 |
[6] |
RUDER S. An overview of multi-task learning in deep neural networks[J]. National Science Review, 2018, 5(1): 14-19. |
[7] |
DOERSCH C, ZISSERMAN A. Multi-task self-supervised visual learning[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2051-2060.
|
[8] |
MISRA I, SHRIVASTAVA A, GUPTA A, et al. Cross-stitch networks for multi-task learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 3994-4003.
|
[9] |
LIU S, JOHNS E, DAVISON A J. End-to-end multi-task learning with attention[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 1871-1880.
|
[10] |
DONG D, WU H, HE W, et al. Multi-task learning for multiple language translation[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics, 2015: 1723-1732.
|
[11] |
ZHANG T, XU C, YANG M H. Multi-task correlation particle filter for robust object tracking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4335-4343.
|
[12] |
RAIMAN J, RAIMAN O. Deeptype: multilingual entity linking by neural type system evolution[EB/OL]. [2020-12-01]. https://arxiv.org/abs/1802.01021.
|
[13] |
SEVGILI O, SHELMANOV A, ARKHIPOV M, et al. Neural entity linking: a survey of models based on deep learning[EB/OL]. [2020-12-01]. https://arxiv.org/abs/2006.00575v3.
|
[14] |
CETOLI A, BRAGAGLIA S, O'HARNEY A D, et al. A neural approach to entity linking on wikidata[C]//Proceedings of European Conference on Information Retrieval. Berlin, Germany: Springer, 2019: 78-86.
|
[15] |
TRISEDYA B D, QI J, ZHANG R. Entity alignment between knowledge graphs using attribute embeddings[EB/OL]. [2020-12-01]. https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf.
|
[16] |
PHAN M C, SUN A, TAY Y, et al. NeuPL: attention-based semantic matching and pair-linking for entity disambiguation[C]//Proceedings of Conference on Information and Knowledge Management. New York, USA: ACM Press, 2017: 1667-1676.
|
[17] |
LIU C, LI F, SUN X, et al. Attention-based joint entity linking with entity embedding[J]. Information, 2019, 10(2): 46-54. DOI:10.3390/info10020046 |
[18] |
SIL A, KUNDU G, FLORIAN R, et al. Neural cross-lingual entity linking[EB/OL]. [2020-12-01]. https://arxiv.org/pdf/1712.01813.pdf.
|
[19] |
GU Y, QU X, WANG Z, et al. Read, retrospect, select: an MRC framework to short text entity linking[EB/OL]. [2020-12-01]. https://www.researchgate.net/publication/348321250_Read_Retrospect_Select_An_MRC_Framework_to_Short_Text_Entity_Linking.
|
[20] |
张晟旗, 王元龙, 李茹, 等. 基于局部注意力机制的中文短文本实体链接[J]. 计算机工程, 2021, 47(11): 77-83, 92. ZHANG S Q, WANG Y L, LI R, et al. Entity linking based on local attention mechanism for Chinese short text[J]. Computer Engineering, 2021, 47(11): 77-83, 92. (in Chinese) |
[21] |
DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[EB/OL]. [2020-12-01]. https://arxiv.org/abs/1810.04805.
|