2. 昆明理工大学 云南省人工智能重点实验室, 昆明 650500
2. Yunnan Key Laboratory of Artificial Intelligence, Kunming University of Science and Technology, Kunming 650500, China
开放科学(资源服务)标志码(OSID):
越南语事件实体识别主要包括对越南语新闻文本中人名、地名、组织机构名、特定政治概念名等实体类型标签的自动识别,是越南语新闻信息检索、自动问答、机器翻译等任务的重要基础。目前,多数事件实体识别系统采用基于双向长短时记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络和条件随机场(Conditional Random Field,CRF)的组合模型BiLSTM-CRF[1]进行实体识别。该模型在高资源语言事件实体识别任务上具有较好的性能,在高资源语言分别为英语和汉语的情况下,使用单语事件标注语料进行训练,所得F1值为91.23和90.78,并且在越南语公共数据集VLSP2016[2]上也取得了87.33的F1值。但是,该模型在越南语事件实体识别任务上的性能较差,主要原因为相较于公共数据集VLSP2016,越南语新闻事件数据集中加入了政治概念名这一特定的事件实体类别,扩大了实体标签的搜索空间,增加了模型对于实体标签的预测难度。同时,由于越南语新闻语料较少且人工标注越南语事件实体困难,因此导致越南语事件标注语料稀缺且标注语料中未登录词过多。然而,缺少用于训练的标注语料会使得模型训练不充分,引起模型过拟合,最终降低越南语事件实体识别的F1值。
目前,一些研究人员利用基于迁移学习思想的多任务学习、词级对抗实现双语词嵌入表示、双语词典实现双语词嵌入表示、两层对抗迁移等模型来提升越南语事件实体识别效果。多任务学习模型[3-4]是所有任务共享一个编码层,通过共享编码层进行知识迁移,但是由于不同语言的序列结构不同,当同时编码两种不同资源的语言信息时,编码器不能保证提取到与语言无关的序列信息从而对高资源语言的标注信息进行较好的迁移。词级对抗实现双语词嵌入表示模型[5-8]仅对两种语言的预训练词向量进行对抗训练以将两种语言映射到同一语义空间中,忽略了两种语言的序列特征信息,无法充分地利用源语言的序列特征辅助目标语言进行实体识别。双语词典实现双语词嵌入表示模型[9-11]使用大规模双语词典对齐源语言与目标语言的词向量空间,从而将源语言标注信息迁移至目标语言空间上,但人工构造大规模双语词典相对困难且该模型未考虑双语翻译的一词多义问题。两层对抗迁移模型[12]基于BiLSTM-CRF网络,使用词级对抗迁移将两种语言融入同一语义空间,利用了句子级对抗迁移提取与语言无关的序列特征,但是目标语言词语义表征单一且提取与语言无关的序列特征效果较差。
为更好地将源语言序列信息迁移到目标语言语义空间中,进而利用源语言序列特征辅助目标语言进行实体识别。本文针对上述多任务学习模型和词级对抗实现双语词嵌入表示模型中存在无法提取与语言无关的序列特征问题,以及两层对抗迁移模型中存在与语言无关的序列特征提取效果较差的问题,使用融合多头注意力的句子级对抗迁移方式,句子级鉴别器用来区分目标语言语义空间中句子的真实来源,即判断句子是否来源于源语言句子或目标语言句子,使用多头注意力特征共享编码器混淆句子级鉴别器,从而提取到与语言无关的序列特征,实现将两种语言的序列信息映射到同一目标语言语义空间中。
1 模型结构为有效利用源语言的已标注信息提升目标语言的实体识别效果,本文提出融合词典与对抗迁移的越南语事件实体识别模型。使用词级对抗迁移方法将源语言预训练词向量线性映射到目标语言语义空间中,词级鉴别器用来区分目标语言语义空间中词的真实来源,即判断词是否来源于线性映射前的源语言词或真实的目标语言词,线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化,从而实现将两种语言的词级信息映射到同一目标语言语义空间中。
对于目标语言句子而言,本文模型针对两层对抗迁移模型中存在的目标语言词语义表征单一的问题,融入目标语言字符级特征,并且引入小规模双语词典中词义互为补充的源语言互译词的词级特征,使目标语言词得到更丰富的语义表征。不同语言对的同一个词往往有不同的解释,例如:越南语词“thợ rèn”的中文解释是“铁匠”,该词在越南语中通常不是作为一个人名出现的,但是根据英越词典,该越南语词的一个英文解释是“smith”,而该英文解释在英语中常常是作为人名出现的;越南语词“Phật sơn”的中文解释是“佛画”,该词在越南语中通常不是作为一个地名出现的,但是根据汉越词典,该越南语词的一种汉语解释是“佛山”,而该汉语解释在汉语中常常是作为具体地名出现的。由于双语词典中不一定包含所有的目标语言词及其对应的源语言词构成的互译词对,并且会存在少量的目标语言未登录词,因此为解决这一问题,本文将未登录的目标语言词通过线性映射转化到源语言空间上,利用转化后的目标语言词表征作为源语言词的语义表征融入模型中。对于源语言句子而言,将源语言词通过使用词级对抗迁移方法优化后的线性映射层转化到目标语言空间后,融入源语言字符级特征,由于转化后的源语言词可能失去源语言词本身的语义信息,因此将转化前源语言词的语义表征融入模型中以补充该词缺失的语义信息。
本文提出的融合词典与对抗迁移的越南语事件实体识别模型结构如图 1所示,该模型主要由词级对抗迁移模块、融合双语词典的多粒度特征嵌入模块、句子级对抗迁移模块、CRF推理模块等4个部分组成。首先,在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化。然后,提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征,以及源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征。最后,在句子级对抗迁移训练过程中,将多头注意力特征共享编码器与句子级鉴别器相互对抗混淆,不断优化共享编码器,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息。将与语言无关的序列特征输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
![]() |
Download:
|
图 1 融合词典与对抗迁移的越南语事件实体识别模型结构 Fig. 1 Structure of Vietnamese event entity recognition model combining dictionary and adversarial transfer |
为更好地利用源语言的标注信息,这一模块利用词级对抗迁移的方式将源语言与目标语言语义上对齐的词映射在同一语义空间中。该训练过程是无监督的训练过程,在参考ZHANG等[13-14]利用无监督的方式学习双语词向量的工作基础上,本文使用词级对抗训练的方式来自动对齐源语言与目标语言的词表示。在得到预训练好的目标语言词向量
$ {\tilde{\boldsymbol{V}}}_{\mathrm{s}}=f\left({\boldsymbol{V}}_{\mathrm{s}}\right)={\boldsymbol{V}}_{\mathrm{s}}\boldsymbol{U} $ | (1) |
其中:
$ \boldsymbol{U}=\boldsymbol{A}{\boldsymbol{B}}^{\mathrm{{\rm T}}}, \boldsymbol{A}\boldsymbol{\Sigma }{\boldsymbol{B}}^{\mathrm{{\rm T}}}=\mathrm{S}\mathrm{V}\mathrm{D}\left({\tilde{\boldsymbol{V}}}_{\mathrm{s}}{\boldsymbol{V}}_{\mathrm{s}}^{\mathrm{{\rm T}}}\right) $ | (2) |
为自动优化映射函数
$ \begin{array}{l}{L}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{w}=-\frac{1}{{I}_{\mathrm{t};\mathrm{s}}}\cdot \sum\limits _{i=0}^{{I}_{\mathrm{t;s}}}({y}_{i}\cdot \mathrm{log}_{a}(D\left({w}_{i}^{*}\right))+\\ \ \ \ \ \ \ \ \ \ \ \ (1-{y}_{i})\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1-D({w}_{i}^{\mathrm{*}}\left)\right))\end{array} $ |
$ {y}_{i}={\delta }_{i}(1-2\varepsilon )+\varepsilon $ | (3) |
其中:
映射函数
$ \begin{array}{l}{L}_{f}^{w}=-\frac{1}{{I}_{\mathrm{t};\mathrm{s}}}\cdot \sum\limits _{i=0}^{{I}_{\mathrm{t;s}}}\left(\right(1-{y}_{i})\cdot \mathrm{log}_{a}(D\left({w}_{i}^{*}\right))+\\ \ \ \ \ \ \ \ \ \ \ \ \ {y}_{i}\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1-D({w}_{i}^{\mathrm{*}}\left)\right))\end{array} $ |
$ {y}_{i}={\delta }_{i}(1-2\varepsilon )+\varepsilon $ | (4) |
借鉴GOODFELLOW等[16]在深度对抗神经网络训练过程中的优化策略,使用随机梯度下降法在训练过程中对线性映射函数和词级鉴别器进行优化,不断减小损失函数
在利用词级对抗迁移的方式对齐源语言与目标语言的词表示后,输入源语言与目标语言的句子表示,将源语言的句子表示通过训练好的线性映射层映射到目标语言语义空间中。此时,认为映射后的源语言句子和目标语言句子来自同一种语言,可以利用源语言的标注信息来对目标语言的句子进行标注,但是对事件实体进行标注不仅需要词级特征,而且需要字符级特征和句子内上下文特征,因此分别针对源语言与目标语言的特点提取词级特征和字符级特征。不同语言对的同一个词往往有不同的解释,为使目标语言和映射后的源语言获得更丰富的语义表示,分别利用双语词典引入目标语言词翻译后的词嵌入和直接引入映射前的源语言词嵌入的方式使得目标语言得到更多源语言的语义信息。
输入目标语言句子表示
对于目标语言句子而言:如果目标语言句子中的一个词
$ \boldsymbol{p}=\sum\limits _{j=1}^{l}{\alpha }_{j}{\boldsymbol{t}}_{j} $ | (5) |
其中:
使用一个线性层计算每一个
$ {g}_{j}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{\mathrm{a}\mathrm{t}\mathrm{t}}{\boldsymbol{w}}_{i}^{\mathrm{t}}+{\boldsymbol{U}}_{\mathrm{a}\mathrm{t}\mathrm{t}}{\boldsymbol{t}}_{j}+{\boldsymbol{b}}_{\mathrm{a}\mathrm{t}\mathrm{t}}) $ | (6) |
其中:
将得到的
$ {\alpha }_{j}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({g}_{j}\right)}{\sum\limits _{z=1}^{l}\mathrm{e}\mathrm{x}\mathrm{p}\left({g}_{z}\right)} $ | (7) |
如果目标语言句子中的一个词
$ {\boldsymbol{p}}_{i}=\boldsymbol{M}{\boldsymbol{w}}_{i}^{\mathrm{t}} $ | (8) |
其中:
$ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(\boldsymbol{M}\right)={\sum\limits _{i=1}^{f}‖{\boldsymbol{p}}_{i}-\boldsymbol{M}{\boldsymbol{w}}_{i}^{\mathrm{t}}‖}_{2} $ | (9) |
在得到优化的
$ {\boldsymbol{p}}_{i}^{\mathrm{o}}=\boldsymbol{M}{\boldsymbol{o}}_{i} $ | (10) |
为能从不同的表示子空间中学习句子内部源语言翻译词之间的依赖关系,捕获句子的内部结构,模型使用多头注意力机制对得到的
对于源语言句子而言:使用
在得到目标语言字符嵌入、目标语言词嵌入和相应的源语言翻译词嵌入以及源语言字符嵌入、源语言词嵌入和相应的映射前源语言词嵌入后,借鉴多粒度嵌入算法[18],分别针对源语言与目标语言的词嵌入和字符嵌入进行联合学习。但若只进行简单的词与字符向量的拼接会导致不准确的编码,则本文使用注意力机制自适应地依赖权重强化或弱化每个粒度,更有效地学习输入的特征并丰富单词嵌入。
对于目标语言句子表示
$ \begin{array}{l}[{\boldsymbol{u}}_{i}^{\mathrm{t}}, {\boldsymbol{u}}_{i}^{\mathrm{t}\mathrm{c}}, {\boldsymbol{u}}_{i}^{\mathrm{v}}]=\sigma \left[\right({\boldsymbol{W}}_{m}\cdot {\boldsymbol{w}}_{i}^{\mathrm{t}}+{\boldsymbol{b}}_{m}), \\ \ \ \ \ \ \ \ \ \ \ \ ({\boldsymbol{W}}_{m}\cdot {\boldsymbol{w}}_{i}^{\mathrm{t}\mathrm{c}}+{\boldsymbol{b}}_{m}), ({\boldsymbol{W}}_{m}\cdot {\boldsymbol{w}}_{i}^{\mathrm{v}}+{\boldsymbol{b}}_{m})]\\ {\alpha }_{i}^{m}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{u}}_{i}^{m}\right)}{\sum\limits _{{m}^{\mathrm{*}}\in \{\mathrm{t}, \mathrm{t}\mathrm{c}, \mathrm{v}\}}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{u}}_{i}^{{m}^{\mathrm{*}}}\right)}, \forall m\in \{\mathrm{t}, \mathrm{t}\mathrm{c}, \mathrm{v}\}\\ {\boldsymbol{s}}_{i}^{\mathrm{t}}={\alpha }_{i}^{\mathrm{t}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{t}}+{\alpha }_{i}^{\mathrm{t}\mathrm{c}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{t}\mathrm{c}}+{\alpha }_{i}^{\mathrm{v}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{v}}\end{array} $ | (11) |
其中:
对于源语言句子表示
$ \begin{array}{l}[{\boldsymbol{u}}_{i}^{\mathrm{s}}, {\boldsymbol{u}}_{i}^{\mathrm{s}\mathrm{c}}, {\boldsymbol{u}}_{i}^{\mathrm{v}\mathrm{s}}]=\sigma \left[\right({\boldsymbol{W}}_{n}\cdot {\boldsymbol{w}}_{i}^{\mathrm{s}}+{\boldsymbol{b}}_{n}), \\ \ \ \ \ \ \ \ \ \ \ \ \ \ ({\boldsymbol{W}}_{n}\cdot {\boldsymbol{w}}_{i}^{\mathrm{s}\mathrm{c}}+{\boldsymbol{b}}_{n}), ({\boldsymbol{W}}_{n}\cdot {\boldsymbol{w}}_{i}^{\mathrm{v}\mathrm{s}}+{\boldsymbol{b}}_{n})]\\ {\alpha }_{i}^{n}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{u}}_{i}^{n}\right)}{\sum\limits _{{n}^{\mathrm{*}}\in \{\mathrm{s}, \mathrm{s}\mathrm{c}, \mathrm{v}\mathrm{s}\}}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{u}}_{i}^{{n}^{\mathrm{*}}}\right)}, \forall n\in \{\mathrm{s}, \mathrm{s}\mathrm{c}, \mathrm{v}\mathrm{s}\}\\ {\boldsymbol{s}}_{i}^{\mathrm{s}}={\alpha }_{i}^{\mathrm{s}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{s}}+{\alpha }_{i}^{\mathrm{s}\mathrm{c}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{s}\mathrm{c}}+{\alpha }_{i}^{\mathrm{v}\mathrm{s}}\cdot {\boldsymbol{w}}_{i}^{\mathrm{v}\mathrm{s}}\end{array} $ | (12) |
其中:
在得到融合多粒度特征后的目标语言句子嵌入
将目标语言句子嵌入
基于得到的目标语言序列特征
$ \begin{array}{l}{L}_{\mathrm{d}\mathrm{i}\mathrm{s}}^{x}=-\frac{1}{{\tilde{I}}_{\mathrm{t};\mathrm{s}}}\cdot \sum\limits _{i=0}^{{\tilde{I}}_{\mathrm{t;s}}}({\tilde{y}}_{i}\cdot \mathrm{log}_{a}(\tilde{D}\left({x}_{i}^{*}\right))+\\ \ \ \ \ \ \ \ \ \ \ \ (1-{\tilde{y}}_{i})\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1-\tilde{D}({x}_{i}^{\mathrm{*}}\left)\right))\\ {\tilde{y}}_{i}={\tilde{\delta }}_{i}(1-2\eta )+\eta \end{array} $ | (13) |
其中:当
特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方,试图使
$ \begin{array}{l}{L}_{\mathrm{e}}^{x}=-\frac{1}{{\tilde{I}}_{\mathrm{t};\mathrm{s}}}\cdot \sum\limits _{i=0}^{{\tilde{I}}_{\mathrm{t;s}}}\left(\right(1-{\tilde{y}}_{i})\cdot \mathrm{log}_{a}(\tilde{D}\left({x}_{i}^{*}\right))+\\ \ \ \ \ \ \ \ \ \ \ \ \ {\tilde{y}}_{i}\cdot \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1-\tilde{D}({x}_{i}^{\mathrm{*}}\left)\right))\\ {\tilde{y}}_{i}={\tilde{\delta }}_{i}(1-2\eta )+\eta \end{array} $ | (14) |
在特征共享编码器提取到与语言无关的序列特征后,可以利用所有目标语言与源语言已标注的训练数据训练一个仅针对目标语言的实体识别器。将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层[19-21],给每个事件实体打上预测的标签。
首先在得到共享编码器提取到的序列特征
$ \mathrm{S}\mathrm{c}\mathrm{o}\mathrm{r}\mathrm{e}(x, \boldsymbol{Y}, Z)=\sum\limits _{i=1}^{n}({\boldsymbol{R}}_{{z}_{i-1}, {z}_{i}}+{\boldsymbol{Y}}_{i, {z}_{i}}) $ | (15) |
其中:
对于已标注的标签序列
$ {L}_{\mathrm{c}\mathrm{r}\mathrm{f}}=\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\sum\limits _{{Z}'\in \tilde{Z}}{\mathrm{e}}^{\mathrm{Score}(x, \boldsymbol{Y}, {Z}')}-\mathrm{Score}(x, \boldsymbol{Y}, Z) $ | (16) |
其中:
通过最小化损失函数
本文提出一种融合词典与对抗迁移的越南语事件实体识别模型,在属于低资源语言范畴内的越南语上进行模型性能评估。越南语数据集采用人工构造的越南语新闻数据集,数据集中包含预定义的人名、地名、组织机构名、特定政治概念名等实体类型。针对作为目标语言的越南语,分别选用属于高资源语言范畴内的英语和汉语作为源语言。实验中用到的目标语言和源语言新闻数据集篇章(Paragraph)数与句子(Sentence)数的详细统计信息如表 1所示,其中“—”表示实验中未设置英语新闻和汉语新闻的验证集与测试集。
![]() |
下载CSV 表 1 数据集篇章数与句子数统计 Table 1 Statistics of the number of paragraphs and sentences in the dataset |
实验中使用准确率(P)、召回率(R)和F1值(F)作为评价指标[20],指标计算公式如式(17)~式(19)所示:
$ P=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}}\times 100\mathrm{\%} $ | (17) |
$ R=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}}\times 100\mathrm{\%} $ | (18) |
$ F=\frac{2\times P\times R}{P+R}\times 100\mathrm{\%} $ | (19) |
其中:
对越南语、英语和汉语新闻语料均使用FastText[22]工具分别训练其各自的单语词嵌入,实验超参数设置如表 2所示。
![]() |
下载CSV 表 2 超参数设置 Table 2 Setting of hyperparameters |
为验证本文模型的有效性,将其与单语实体识别模型和主流基线模型进行比较:
1)单语实体识别模型[1]。仅使用目标语言标注语料进行训练,利用目前比较流行的BiLSTM-CRF神经网络进行越南语事件实体识别。
2)多任务学习模型[4]。使用多任务学习的方式实现目标语言的实体标注,通过使用权重共享的上下文编码器将源语言的标注信息迁移到目标语言上,从而提升越南语的实体标注准确率。
3)词级对抗实现双语词嵌入表示模型[8]。仅使用词级对抗迁移的方式将源语言映射到目标语言空间,然后利用所有的源语言和越南语的标注信息对越南语文本进行实体识别。在将源语言映射到目标语言空间后:直接使用两种语言的所有标注信息训练实体识别器对越南语进行标注,记为词级对抗实现双语词嵌入表示模型1;先使用越南语的标注信息训练实体识别器,再使用源语言的标注信息进行调优,记为词级对抗实现双语词嵌入表示模型2。
4)双语词典实现双语词嵌入表示模型[11]。使用预先构造好的双语词典对齐源语言与目标语言的词向量空间,通过最近邻搜索算法找到与源语言词距离最近的目标语言词作为该源语言词的翻译词。利用翻译词和其源语言词对应的标签训练融合自注意力机制的BiLSTM-CRF网络对越南语文本进行实体识别。
5)两层对抗迁移模型[12]。利用BiLSTM-CRF网络,首先使用词级对抗迁移的方式将源语言映射到目标语言空间上,然后使用句子级对抗迁移的方式使得共享编码器提取与语言无关的序列特征,最后融合上下文语义信息训练实体识别器对越南语进行标注。
3.2.2 无目标语言标注数据情况下的跨语言迁移比较在无目标语言(越南语)标注数据的情况下,本文模型与对比模型在性能上的差异。在进行句子级对抗迁移训练时,移除输入的目标语言(越南语)句子的标签信息,在只有源语言标注数据的情况下对句子鉴别器进行优化,训练出针对目标语言的实体识别器。以英语和汉语作为源语言对越南语进行实体识别,实验结果如表 3所示。
![]() |
下载CSV 表 3 无目标语言标注数据情况下的实体识别性能 Table 3 Entity recognition performance without target language annotation data |
从表 3的对比结果可以看出,本文模型在源语言为英语或汉语的情况下的实体识别性能均优于对比模型。与仅包含权重共享的上下文编码器的多任务学习模型相比,本文模型不仅加入了语言共享的上下文编码器,而且使用多级对抗训练的方式促使两种语言的词进行语义对齐,基于双语词典融入多粒度特征信息,使用特征共享编码器提取与语言无关的序列特征。因此,在源语言为英语和汉语的情况下,本文模型的F1值增加了21.16和33.27个百分点,提升效果显著。与词级对抗实现双语词嵌入表示模型和两层对抗迁移模型相比,本文模型不仅使用词级对抗和句子级对抗迁移,更重要的是加入了基于双语词典及注意力的多粒度特征嵌入。因此,本文模型在准确率、召回率和F1值上均有一定程度的提升。与双语词典实现双语词嵌入表示模型相比,本文模型在其基础上加入了多级对抗迁移,提升了两种语言词的语义对齐效果,从而使得最终的实体识别性能有所提升。
3.2.3 有目标语言标注数据情况下的跨语言迁移在有目标语言(越南语)标注数据的情况下,比较本文模型与对比模型的性能差异。以英语和汉语作为源语言对越南语进行实体识别,实验结果如表 4所示。
![]() |
下载CSV 表 4 有目标语言标注数据情况下的实体识别性能 Table 4 Entity recognition performance with target language annotation data |
从表 4的对比结果可以看出,词级对抗实现双语词嵌入表示模型和单语实体识别模型在利用目标语言标注数据进行训练的基础上,直接加入源语言标注数据可能会降低模型性能。这也说明了在用于训练的目标语言标注数据不足时,模型会对噪声更加敏感,在加入源语言标注数据的同时也引入了噪声影响模型性能。当源语言与目标语言属于同一语系时,多任务学习模型的识别结果优于单语实体识别结果;反之,结果则相反。
加入源语言标注数据会引入噪声的主要原因在于源语言与目标语言的语言表达和序列结构不相同。双语词典实现双语词嵌入表示模型利用预先构造好的双语词典对齐源语言与目标语言的词向量空间,找到源语言词的翻译词,从而实现源语言到目标语言的转换,减弱数据噪声。两层对抗迁移模型使用共享编码器提取到与语言无关的序列特征,从而达到减弱源语言标注数据噪声的问题。从实验结果可以看出:这两种模型的F1值相较单语实体识别模型均有大幅提升;本文模型不仅利用双语词典融入了多粒度特征信息,而且使用基于多头注意力的特征共享编码器提取与语言无关的序列特征,分别在源语言为英语和汉语的情况下,相较单语实体识别模型的F1值增加了19.61和18.73个百分点,提升效果明显。以上实验结果证明了本文模型能利用源语言标注数据提升目标语言事件实体识别性能。
4 结束语本文提出一种融合词典与对抗迁移的越南语事件实体识别模型,利用词级对抗迁移训练将源语言和目标语言映射到同一语义空间中,通过双语词典及注意力进行多粒度特征嵌入使得目标语言和映射后的源语言获得更丰富的语义表示,高度关注对实体识别有用的信息。同时,考虑到不同语言有不同的语言表达和序列结构,因此利用句子级对抗迁移训练以使得基于多头注意力的特征共享编码器可以提取到与语言无关的序列特征。实验结果表明,本文模型在属于低资源语言范畴内的越南语新闻数据集上相较于当前主流的单语实体识别模型和迁移学习模型效果均有显著提升。但是本文模型相比汉语、英语等高资源语言的单语实体识别模型在F1值上相对较低,下一步将考虑在其中加入篇章级对抗迁移训练以融入源语言篇章级信息,同时构建针对越南语事件实体识别任务的无监督预训练跨语言模型,进一步提升实体识别性能。
[1] |
LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]//Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2016: 260-270.
|
[2] |
DOAN X D, DANG T T, NGUYEN L M. Effectiveness of character language model for Vietnamese named entity recognition[C]//Proceedings of the 32nd Pacific Asia Conference on Language, Information and Computation. Stroudsburg, USA: Association for Computational Linguistics, 2018: 157-163.
|
[3] |
YANG Z, SALAKHUTDINOV R, COHEN W. Multi-task cross-lingual sequence tagging from scratch[EB/OL]. [2020-12-28]. https://arxiv.org/pdf/1603.06270.pdf.
|
[4] |
LIN Y, YANG S Q, STOYANOV V, et al. A multi-lingual multi-task architecture for low-resource sequence labeling[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2018: 799-809.
|
[5] |
FANG M, COHN T. Learning when to trust distant supervision: an application to low-resource POS tagging using cross-lingual projection[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Stroudsburg, USA: Association for Computational Linguistics, 2016: 178-186.
|
[6] |
WANG D, PENG N, DUH K. A multi-task learning approach to adapting bilingual word embeddings for cross-lingual named entity recognition[C]//Proceedings of the 8th International Joint Conference on Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2017: 383-388.
|
[7] |
SHI G, FENG C, HUANG L F, et al. Genre separation network with adversarial training for cross-genre relation extraction[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 1018-1023.
|
[8] |
CONNEAU A, LAMPLE G, RANZATO M A, et al. Word translation without parallel data[EB/OL]. [2020-12-28]. http://arxiv.org/abs/1710.04087.
|
[9] |
FANG M, COHN T. Model transfer for tagging low-resource languages using a bilingual dictionary[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 587-593.
|
[10] |
ZIRIKLY A. Cross-lingual transfer of named entity recognizers without parallel corpora[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2015: 390-396.
|
[11] |
XIE J T, YANG Z L, NEUBIG G, et al. Neural cross-lingual named entity recognition with minimal resources[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 369-379.
|
[12] |
HUANG L F, JI H, MAY J. Cross-lingual multi-level adversarial transfer to enhance low-resource name tagging[C]//Proceedings of 2019 Conference of the North. Stroudsburg, USA: Association for Computational Linguistics, 2019: 3823-3833.
|
[13] |
ZHANG M, LIU Y, LUAN H B, et al. Adversarial training for unsupervised bilingual lexicon induction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 1959-1970.
|
[14] |
CAO P F, CHEN Y B, LIU K, et al. Adversarial transfer learning for Chinese named entity recognition with self-attention mechanism[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2018: 182-192.
|
[15] |
XING C, WANG D, LIU C, et al. Normalized word embedding and orthogonal transform for bilingual word translation[C]//Proceedings of 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, USA: Association for Computational Linguistics, 2015: 1006-1011.
|
[16] |
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th Annual Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2014: 2672-2680.
|
[17] |
SUKHBAATAR S, WESTON J, FERGUS R. End-to-end memory networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2015: 2440-2448.
|
[18] |
YIN R C, WANG Q, LI P, et al. Multi-granularity Chinese word embedding[C]//Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2016: 981-986.
|
[19] |
张应成, 杨洋, 蒋瑞, 等. 基于BiLSTM-CRF的商情实体识别模型[J]. 计算机工程, 2019, 45(5): 308-314. ZHANG Y C, YANG Y, JIANG R, et al. Commercial intelligence entity recognition model based on BiLSTM-CRF[J]. Computer Engineering, 2019, 45(5): 308-314. (in Chinese) |
[20] |
何阳宇, 晏雷, 易绵竹, 等. 融合CRF与规则的老挝语军事领域命名实体识别方法[J]. 计算机工程, 2020, 46(8): 297-304. HE Y Y, YAN L, YI M Z, et al. Named entitiy recognition method for Laotian in military field combining CRF and rules[J]. Computer Engineering, 2020, 46(8): 297-304. (in Chinese) |
[21] |
买买提阿依甫, 吾守尔·斯拉木, 帕丽旦·木合塔尔, 等. 基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别[J]. 计算机工程, 2018, 44(8): 230-236. Maimaitiayifu, Silamu Wushouer, Muhetaer Palidan, et al. Uyghur named entity recognition based on BiLSTM-CNN-CRF model[J]. Computer Engineering, 2018, 44(8): 230-236. (in Chinese) |
[22] |
JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 427-431.
|