2. 昆明理工大学 云南省人工智能重点实验室, 昆明 650504;
3. 云南南天电子信息产业股份有限公司, 昆明 650041
2. Yunnan Key Laboratory of Artificial Intelligence, Kunming University of Science and Technology, Kunming 650504, China;
3. Yunnan Nantian Electronic Information Industry Co., Ltd., Kunming 650041, China
开放科学(资源服务)标志码(OSID):
药物不良反应(Adverse Drug Reaction,ADR)检测是药物研究和开发的重要组成部分。以往的研究数据主要来源于药物不良反应报告[1]、生物医学文献[2]、临床笔记[3]或医疗记录[4]。目前,医疗社交媒体例如MedHelp、好大夫、寻医问药、丁香医生等均提供了诸如专家问诊、论坛讨论、电话视频交流等形式多样的信息收集手段,形成了具有权威性、时效性和全面性的互联网医疗数据源,为药物不良反应检测提供了丰富的语料基础。
药物不良反应检测通常被看作涉及ADR的文本二分类问题,即辨别文本是否包含ADR的问题。早期,大多数研究均基于词典识别文本中的ADR[5-6],但这类方法无法识别词典中未包含的非常规ADR词汇。后来有些研究人员发现,利用统计机器学习方法抽取特征能够有效提高准确性[7-8]。随着深度学习的不断发展和广泛应用,基于深度学习方法的ADR检测模型大量涌现。LEE等[9]为Twitter中的ADR分类建立了卷积神经网络(Convolutional Neural Network,CNN)模型,COCOS等[10]开发了一个递归神经网络(Recurrent Neural Network,RNN)模型,通过与任务无关的预训练或在ADR检测训练期间形成词嵌入向量,并将其作为输入。HUYNH等[11]提出2种新的神经网络模型,即将CNN与RNN连接起来的卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)以及在CNN中添加注意力权重的卷积神经网络(Convolutional Neural Network with Attention,CNNA),针对Twitter数据集分别进行了ADR分类任务。PANDEY等[12]分别采用Word2Vec和GloVe模型从多渠道的医学资源中训练临床词的词向量,将无监督的词嵌入表示输入到双向长期短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)神经网络中,并使用注意力权重来优化ADR抽取的效果。
尽管深度学习模型往往表现很好,但通常需要基于大量标注数据进行监督学习。当标注数据过少时,容易出现过拟合现象,严重影响预测的准确性。目前,已有大量的研究从英文语料中检测ADR,但由于缺乏公开可用的中文医疗社交媒体的数据集,目前针对此方面的研究非常有限。
为解决标注数据不足的问题,本文提出一种基于数据增强与半监督学习(Semi-Supervised Learning,SSL)的药物不良反应检测方法。通过对未标注数据进行数据增强,使用分类模型产生低熵标签,以获得较为准确的伪标签。此外,将标注数据、未标注数据和增强数据混合,在文本向量空间中对混合样本进行插值,以扩增样本数量。
1 相关工作 1.1 文本增强在少样本场景下采用数据增强技术,与同等标注量的无增强监督学习模型相比,其性能会有较大幅度的提升。文本增强技术如EDA算法[13]、回译[14]、TF-IDF等通常只针对标注数据进行有监督地数据增强。XIE等[15]将有监督的数据增强技术扩展到未标注数据中,以尽可能地利用未标注数据。GUO等[16]针对文本分类任务,提出词级的wordMixup和句子级的senMixup这2种文本增强策略,通过分别对词嵌入向量和句子向量进行线性插值,以产生更多的训练样本,提升分类性能。
1.2 半监督学习半监督学习是一种在不需要大量标签的情况下训练大量数据模型的方法。监督学习方法仅在标注数据上训练分类器而忽略了未标注数据。SSL通过利用未标注数据的方法来减轻对标注数据的需求。在通常情况下,未标注数据的获取要比标注数据容易得多,因此SSL所带来的性能提升通常都是低成本的。SSL方法主要分为两类:一类是对一个输入添加微小的扰动,输出应该与原样本保持不变,即一致性正则化;另一类是使用预测模型或它的某些变体生成伪标签,将带有伪标签的数据和标注数据进行混合,并微调模型。
将增强技术与半监督学习方法整合于一个框架中的技术在计算机视觉领域已经取得成功。例如MixMatch[17]和FixMatch[18]方法均表现出了良好的性能。然而在自然语言处理领域,由于受文本的语法、语义关系等影响,此类方法的应用极少。
基于上述方法,本文将文本增强技术与半监督学习方法相结合,应用于面向中文医疗社交媒体的ADR检测任务。利用回译对未标注数据进行增强,以获取低熵标签,并将得到的伪标签未标注数据和标注数据进行Mixup操作,降低对标注数据的需求,充分发挥大量未标注数据的价值,提升ADR检测模型的准确性。
2 本文方法给定有限标注的数据集
![]() |
Download:
|
图 1 本文方法框架 Fig. 1 Framework of method in this paper |
回译是一种常见的文本增强技术,用机器翻译把一段中文翻译成另一种语言,然后再翻译回中文。通过对同一未标注数据进行不同中间语言的回译,可以得到不同的增强数据,且能保留原始文本的语义。对于未标注数据集
分别通过文本分类模型对未标注数据样本
$ {\mathit{\boldsymbol{y}}}_{i}^{u}=\frac{1}{{\mathit{\boldsymbol{w}}}_{\mathrm{o}\mathrm{r}\mathrm{i}}+\sum\limits _{k}{\mathit{\boldsymbol{w}}}_{k}}\left({\mathit{\boldsymbol{w}}}_{\mathrm{o}\mathrm{r}\mathrm{i}}p\left({\mathit{\boldsymbol{x}}}_{i}^{u}\right)+\sum\limits _{k=1}^{K}{\mathit{\boldsymbol{w}}}_{k}p\left({\mathit{\boldsymbol{x}}}_{i, k}^{a}\right)\right) $ | (1) |
其中:
为了避免加权过于平均,对预测结果使用如式(2)所示的锐化函数进行处理:
$ \mathrm{S}\mathrm{h}\mathrm{a}\mathrm{r}\mathrm{p}\mathrm{e}\mathrm{n}\left({\mathit{\boldsymbol{y}}}_{i}^{u}, T\right)=\frac{{\left({\mathit{\boldsymbol{y}}}_{i}^{u}\right)}^{\frac{1}{T}}}{{‖{\left({\mathit{\boldsymbol{y}}}_{i}^{u}\right)}^{\frac{1}{T}}‖}_{1}} $ | (2) |
其中:
Mixup是ZHANG等[19]提出的一种图像增强方法,Mixup的主要思想非常简单,即给定2个标记数据
$ \tilde{\mathit{\boldsymbol{x}}}=\mathrm{m}\mathrm{i}\mathrm{x}\left({\mathit{\boldsymbol{x}}}_{i}, {\mathit{\boldsymbol{x}}}_{j}\right)=\lambda {\mathit{\boldsymbol{x}}}_{i}+\left(1-\lambda \right){\mathit{\boldsymbol{x}}}_{j} $ | (3) |
$ \tilde{\mathit{\boldsymbol{y}}}=\mathrm{m}\mathrm{i}\mathrm{x}\left({\mathit{\boldsymbol{y}}}_{i}, {\mathit{\boldsymbol{y}}}_{j}\right)=\lambda {\mathit{\boldsymbol{y}}}_{i}+\left(1-\lambda \right){\mathit{\boldsymbol{y}}}_{j} $ | (4) |
其中:混合因子
$ \lambda ~\mathrm{B}\mathrm{e}\mathrm{t}\mathrm{a}\left(\alpha , \alpha \right) $ | (5) |
$ \lambda =\mathrm{m}\mathrm{a}\mathrm{x}\left(\lambda , 1-\lambda \right) $ | (6) |
新的训练样本将被用于训练神经网络模型。Mixup可以看作是一种数据增强方法,能够基于原始训练集创建新的数据样本。同时,Mixup强制对模型进行一致性正则化,使其在训练数据之间的标签为线性。作为一种简单有效的增强方法,Mixup可以提升模型的鲁棒性和泛化能力。
受Mixup在图像分类领域运用的启发,本文尝试将其应用于文本分类任务中。通过标签猜测得到未标注数据的标签后,将标注数据
在训练过程中,本文从数据集
$ \mathrm{M}\mathrm{i}\mathrm{x}\mathrm{u}\mathrm{p}\left(\mathit{\boldsymbol{x}}, {\mathit{\boldsymbol{x}}}^{\mathrm{'}}\right)=\lambda f\left(\mathit{\boldsymbol{x}}\right)+\left(1-\lambda \right)f\left(\mathit{\boldsymbol{x}}'\right) $ | (7) |
$ \mathrm{m}\mathrm{i}\mathrm{x}\left(\mathit{\boldsymbol{y}}, \mathit{\boldsymbol{y}}'\right)=\lambda \mathit{\boldsymbol{y}}+\left(1-\lambda \right)\mathit{\boldsymbol{y}}' $ | (8) |
其中:
混合样本通过分类模型获得预测值
$ {L}_{\mathrm{M}\mathrm{i}\mathrm{x}\mathrm{u}\mathrm{p}}={\mathbb{E}}_{\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{x}}'\in \mathit{\boldsymbol{X}}}\mathrm{K}\mathrm{L}\left(\mathrm{m}\mathrm{i}\mathrm{x}\left(\mathit{\boldsymbol{y}}, \mathit{\boldsymbol{y}}'\right)\left|\right|p\left(\mathrm{M}\mathrm{i}\mathrm{x}\mathrm{u}\mathrm{p}\left(\mathit{\boldsymbol{x}}, {\mathit{\boldsymbol{x}}}^{\mathrm{'}}\right)\right)\right) $ | (9) |
由于
1) 监督损失。当
2) 一致性损失。当样本来自未标注数据或增强数据时,即
为使模型能够基于未标注数据预测出置信度更高的标签,本文使用未标注数据的预测概率最小熵作为损失函数:
$ {L}_{m}={\mathbb{E}}_{\mathit{\boldsymbol{x}}\in {\mathit{\boldsymbol{X}}}_{u}}\mathrm{m}\mathrm{a}\mathrm{x}\left(0, \gamma -{‖{\mathit{\boldsymbol{y}}}^{u}‖}_{2}^{2}\right) $ | (10) |
其中:
结合2种损失,构造总损失函数的表示式如式(11)所示:
$ L={L}_{\mathrm{M}\mathrm{i}\mathrm{x}\mathrm{u}\mathrm{p}}+{\gamma }_{m}{L}_{m} $ | (11) |
本文模型包含编码层、Mixup层、分类层共3层。输入文本经过编码层得到向量表示,Mixup层通过随机混合的文本向量表示和对应的分类标签生成混合样本和混合标签。混合样本的向量表示经过Mixup层被送入分类层。分类层通过全连接层和softmax函数计算预测值,并针对混合样本的标签和预测值计算分类损失。本文模型的结构如图 2所示。
![]() |
Download:
|
图 2 本文模型结构 Fig. 2 Structure of model in this paper |
编码层分为ERNIE层、BiLSTM层、Attention层共3个子层。
3.1.1 ERNIE层传统的词向量模型Word2vec得到的是静态词向量,无法体现1个词在不同语境中的不同含义,而预训练模型能够动态捕捉上下文信息,提高文本表示能力。其中ERNIE等[20]提出一种知识掩码(Knowledge Masking,KM)策略,在训练阶段引入外部知识,并随机选取字、短语、命名实体进行mask,可以潜在地学习到被掩码的短语和实体之间的先验知识。此外,新增预训练任务,使ERNIE词向量从训练数据中获取到更可靠的词法、语法以及语义信息。
中文医疗文本存在一词多义的问题,往往需要结合上下文语境才能获得精确的语义信息,且药物不良反应检测通常与外部知识、药物实体等密切相关。因此,本文使用百度开源的ERNIE中文预训练模型,并充分利用该模型的外部知识和实体信息。
ERNIE采用多层Transformer作为编码器,通过自注意力机制捕获每个词向量在文本序列中的上下文信息,并生成上下文语境表征嵌入。以语料中的一个文本为例,文本中的词序列
BiLSTM层以词向量表示为输入,计算词语在上下文中的向量表示:
$ {\overrightarrow{\mathit{\boldsymbol{h}}}}_{i}=\overrightarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}\left({\overrightarrow{\mathit{\boldsymbol{h}}}}_{i-1}, {\mathit{\boldsymbol{e}}}_{i}\right) $ | (12) |
$ {\overleftarrow{\mathit{\boldsymbol{h}}}}_{i}=\overleftarrow{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}}\left({\overleftarrow{\mathit{\boldsymbol{h}}}}_{i+1}, {\mathit{\boldsymbol{e}}}_{i}\right) $ | (13) |
$ {\mathit{\boldsymbol{h}}}_{i}=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\overrightarrow{\mathit{\boldsymbol{h}}}}_{i}, {\overleftarrow{\mathit{\boldsymbol{h}}}}_{i}\right) $ | (14) |
其中:
Attention层将BiLSTM层的隐藏状态作为输入,通过自注意力权重分配来计算文本多个侧面的向量表示,表达式如下:
$ \mathit{\boldsymbol{A}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\mathit{\boldsymbol{W}}}_{s2}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({\mathit{\boldsymbol{W}}}_{s1}{\mathit{\boldsymbol{H}}}^{\mathrm{T}}\right)\right) $ | (15) |
$ \mathit{\boldsymbol{Z}}=\mathit{\boldsymbol{A}}\mathit{\boldsymbol{H}} $ | (16) |
其中:
将文本表示矩阵
本文基于Mixup方法,在文本的向量空间中混合样本。混合过程是先随机选取一个样本,然后将同批次的样本随机打乱后抽取另一个样本,对2个样本
$ \tilde{\mathit{\boldsymbol{z}}}=\lambda {\mathit{\boldsymbol{z}}}_{i}+\left(1-\lambda \right){\mathit{\boldsymbol{z}}}_{j} $ | (17) |
$ \tilde{\mathit{\boldsymbol{y}}}=\lambda {\mathit{\boldsymbol{y}}}_{i}+\left(1-\lambda \right){\mathit{\boldsymbol{y}}}_{j} $ | (18) |
在训练的过程中,Mixup层通过随机混合批次内的文本向量表示
混合样本通过一个全连接层和softmax激活函数,得到分类标签的预估概率值:
$ \widehat{\mathit{\boldsymbol{y}}}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\mathit{\boldsymbol{W}}\tilde{\mathit{\boldsymbol{z}}}+\mathit{\boldsymbol{b}}\right) $ | (19) |
其中:
由于目前中文医疗社交媒体没有公开可用的药物不良反应检测数据集,因此本文从好大夫网站收集用户的诊疗记录。如图 3所示,每个诊疗记录包含患者的信息、病情描述、医生诊疗建议等内容。
![]() |
Download:
|
图 3 诊疗记录样例 Fig. 3 Sample of treatment record |
本文选取80余种常用药作为研究内容,其中包含降压药、抗过敏药、抗生素等,获取了网站2011年以后包含相关药物的诊疗记录,并选择记录中的病情描述内容作为本文的原始语料。最终共获得42 800个文本,每个文本都提及了一种或者多种药物。通过对文本进行预处理,删除URL、英文字母、特殊字符等并去停用词。原始语料来源于中文社交媒体,需要对其进行分词。对于医疗数据,传统的jieba分词效果并不理想,因此本文使用北京大学开源分词工具pkuseg进行分词,调用其自带的medicine模型将大部分的医药专业词汇分词出来。
为得到标注数据,本文从语料中选取6 000条数据让5名药学专业学生进行人工标注,设定分类标签
![]() |
下载CSV 表 1 标注数据样例 Table 1 Samples of labeled data |
本文采用Pytorch实现所提模型和算法,将文本的最大词序列长度设为256。ERNIE预训练模型包含12个Encoder层,多头注意力机制的头数为12,隐藏层维度为768。将BiLSTM层的隐藏状态维度
模型采用Adam梯度下降算法训练,初始学习率设为0.001,
本文选择了如下6种基于深度学习的ADR检测模型进行对比实验:
1) CNN[11]模型:采用不同尺度的卷积神经网络构建文本分类器。分别设置滤波器宽度为2、3、4、5,每个滤波器的大小均为25。
2) CNN+Att[11]模型:在CNN网络最上层加入注意力机制。
3) BiL+Att[12]模型:采用BiLSTM作为编码器,加入注意力机制。
4) ERNIE[20]模型:采用百度开源的ERNIE中文预训练模型作为编码器,得到文本表示,直接连接一个全连接层实现文本分类。
5) ERNIE+BiL+Att模型:基于BiL+Att模型,使用ERNIE模型得到词向量表示。
6) ERNIE+BiL+Att+S-Mixup模型:在ERNIE+BiL+Att模型的编码层之上加Mixup层。对标注数据进行文本增强,即有监督的Mixup (Supervised Mixup,S-Mixup)。
选取4 800条标注数据训练模型,使用精确率、召回率和F1值作为评价指标。实验结果如表 2所示。
![]() |
下载CSV 表 2 不同ADR检测模型的实验结果 Table 2 Experimental results of different ADR detection models |
由表 2可知,CNN模型的效果最差,而采用BiLSTM获取上下文信息,并引入注意力机制获取文本的重要特征,能提高模型效果。对比BiL+Att和ERNIE+BiL+Att模型,利用ERNIE预训练模型得到的动态词向量更符合语义环境,模型的性能也能得到有效提升。
本文对ERNIE预训练模型进行微调,实验效果显著,说明了预训练模型在ADR检测任务中能达到较好的分类效果。然而对比ERNIE与ERNIE+BiL+Att模型,后者的实验效果仍有小幅度提升,体现了ERNIE+BiL+Att模型的优势。
由表 2还可以看出,ERNIE+BiL+Att+S-Mixup模型的精确率、召回率和F1值均优于其他模型。这是因为神经网络的训练通常需要大量的标注数据,而当标注数据有限时,效果往往不太理想。ERNIE+BiL+Att+S-Mixup模型引入Mixup,通过对标注数据进行文本增强,在一定程度上增加了训练样本的数量,从而使ADR检测模型的性能得到明显的提升。
4.3.2 半监督模型的对比实验本文选取了如下5种半监督模型进行对比实验:
1) ERNIE+BiL+Att+S-Mixup模型:仅使用标注数据。
2) Pseudo-Label[22]模型:先使用标注数据训练模型,将未标注数据经过分类模型后得到的预测值作为伪标签,使用带有伪标签的数据和标注数据一起训练模型。
3)Π-Model[23]模型:对于同一数据的输入,使用不同的正则化进行2次预测,通过减小2次预测的差异,提升模型在不同扰动下的一致性。
4) Mean Teachers[24]模型:使用时序组合模型,对模型参数进行EMA平均,将平均模型作为teacher预测人工标签,由当前模型预测。
5) ERNIE+BiL+Att+SS-Mixup模型:即本文模型。先对未标注数据进行多次增强,将预测值加权平均作为低熵标签,并共享原始样本和增强样本。使用标注数据、未标注数据和增强数据一起对模型进行训练,即半监督的Mixup(Semi-Supervised Mixup,SS-Mixup)。
从训练集中选取不同数量的标注数据和5 000条未标注数据。使用准确率(Accuracy,Acc)作为评价指标,实验结果如表 3所示。
![]() |
下载CSV 表 3 不同半监督模型的Acc值对比 Table 3 Acc value comparison of different semi-supervised models |
由表 3可知,与传统的半监督模型相比,本文模型在不同标注数据量的情况下,准确率均最高。当标注数据的数量较少时,准确率增长幅度尤其突出。随着标注数据的增加,本文模型带来的额外提升效果会逐渐降低。从表 3中还可以看出,当标注数据量为1 500条时,本文模型与ERNIE+BiL+Att+S-Mixup模型在2 800条标注数据时的表现相近。即通过本文对未标注数据的半监督学习,相当于免费获得了近一倍的额外标注数据。说明本文模型有效利用了未标注数据的信息,缓解了标注数据量不足的影响。同时,本文模型对未标注数据有较好的标签预测能力。
4.3.3 不同未标注数据量的对比实验为进一步对比未标注数据量对本文模型的影响,从训练集中挑选了800条标注数据和不同数量的未标注数据。实验结果如表 4所示。
![]() |
下载CSV 表 4 不同未标注数据量的Acc结果 Table 4 Acc results of different unmarked data quantities |
由表 4可知,当标注数据量一定时,未标注数据的数量越多,本文模型的预测结果越准确,表明本文模型能够有效利用未标注数据的信息,帮助模型提升性能。
5 结束语本文面向中文医疗社交媒体提出一种融合数据增强与半监督学习的ADR检测方法。通过利用回译的文本增强技术对未标注数据进行多次增强,并在模型的编码层和分类层之间加入Mixup层,对混合样本的文本向量采取插值操作以扩充样本数量。此外,通过半监督学习训练分类模型,充分利用标注数据与未标注数据。实验结果表明,本文方法充分利用未标注数据解决了标注数据不足的问题。当标注数据量较少时,模型的准确率提升幅度尤其突出,且随着未标注数据量的增加,模型性能得到提升。下一步将研究文本中药物和不良反应的关系,通过辨别文本中出现的ADR信息是否已知,从而挖掘潜在的ADR信息,提升本文模型的性能。
[1] |
HARPAZ R, DUMOUCHEL W, SHAH N H, et al. Novel data-mining methodologies for adverse drug event discovery and analysis[J]. Clinical Pharmacology and Therapeutics, 2012, 91(6): 1010-1021. DOI:10.1038/clpt.2012.50 |
[2] |
WANG W, HAERIAN K, SALMASIAN H, et al. A drug-adverse event extraction algorithm to support pharmacovigilance knowledge mining from PubMed citations[J]. AMIA Annual Symposium Proceedings, 2011, 25(3): 64-70. |
[3] |
SOHN S, KOCHER J P A, CHUTE C G, et al. Drug side effect extraction from clinical narratives of psychiatry and psychology patients[J]. Journal of the American Medical Informatics Association, 2011, 18(1): 144-149. |
[4] |
WARRER P, HANSEN E H, JUHL JENSEN L, et al. Using text-mining techniques in electronic patient records to identify ADRs from medicine use[J]. British Journal of Clinical Pharmacology, 2012, 73(5): 674-684. DOI:10.1111/j.1365-2125.2011.04153.x |
[5] |
WU H, FANG H, STANHOPE S J. Exploiting online discussions to discover unrecognized drug side effects[J]. Methods of Information in Medicine, 2013, 52(2): 152-159. DOI:10.3414/ME12-02-0004 |
[6] |
YATES A, GOHARIAN N. ADRTrace: detecting expected and unexpected adverse drug reactions from user reviews on social media sites[C]//Proceedings of the 35th European Conference on Advances in Information Retrieval. Berlin, Germany: Springer, 2013: 816-819.
|
[7] |
SARKER A, GONZALEZ G. Portable automatic text classification for adverse drug reaction detection via multi-corpus training[J]. Journal of Biomedical Informatics, 2015, 53(4): 196-207. |
[8] |
NIKFARJAM A, SARKER A, O'CONNOR K, et al. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features[J]. Journal of the American Medical Informatics Association, 2015, 22(3): 671-681. DOI:10.1093/jamia/ocu041 |
[9] |
LEE K, QADIR A, HASAN S A, et al. Adverse drug event detection in tweets with semi-supervised convolutional neural networks[EB/OL]. [2021-06-20]. https://dl.acm.org/doi/10.1145/3038912.3052671.
|
[10] |
COCOS A, FIKS A G, MASINO A J. Deep learning for pharmacovigilance: recurrent neural network architectures for labeling adverse drug reactions in Twitter posts[J]. Journal of the American Medical Informatics Association, 2017, 24(4): 813-821. DOI:10.1093/jamia/ocw180 |
[11] |
HUYNH T, HE Y, WILLIS A, et al. Adverse drug reaction classification with deep neural networks[C]//Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan: [s. n. ], 2016: 877-887.
|
[12] |
PANDEY C, IBRAHIM Z, WU H H, et al. Improving RNN with attention and embedding for adverse drug reactions[C]//Proceedings of 2017 International Conference on Digital Health. New York, USA: ACM Press, 2017: 67-71.
|
[13] |
WEI J, ZOU K. EDA: easy data augmentation techniques for boosting performance on text classification tasks[C]//Proceedings of 2019 Conference on Empirical Methods in Natural Language. Stroudsburg, USA: Association for Computational Linguistics, 2019: 6381-6387.
|
[14] |
EDUNOV S, OTT M, AULI M, et al. Understanding back-translation at scale[EB/OL]. [2021-06-22]. https://arxiv.org/abs/1808.09381.
|
[15] |
XIE Q Z, DAI Z H, HOVY E, et al. Unsupervised data augmentation for consistency training[EB/OL]. [2021-06-22]. https://arxiv.org/abs/1904.12848.
|
[16] |
GUO H Y, MAO Y Y, ZHANG R C. Augmenting data with mixup for sentence classification: an empirical study[EB/OL]. [2021-06-22]. https://arxiv.org/abs/1905.08941.
|
[17] |
BERTHELOT D, CARLINI N, GOODFELLOW I, et al. MixMatch: a holistic approach to semi-supervised learning[EB/OL]. [2021-06-22]. https://www.researchgate.net/publication/332932671_MixMatch_A_Holistic_Approach_to_Semi-Supervised_Learning.
|
[18] |
SOHN K, BERTHELOT D, LI C L, et al. FixMatch: simplifying semi-supervised learning with consistency and confidence[EB/OL]. [2021-06-22]. https://arxiv.org/abs/2001.07685.
|
[19] |
ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[EB/OL]. [2021-06-22]. https://arxiv.org/abs/1710.09412.
|
[20] |
SUN Y, WANG S, LI Y, et al. ERNIE: enhanced representation through knowledge integration[C]//Proceedings of AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2020: 8968-8975.
|
[21] |
CHEN J A, YANG Z C, YANG D Y. MixText: linguistically-informed interpolation of hidden space for semi-supervised text classification[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2020: 2147-2157.
|
[22] |
LEE D H. Pseudo-label: the simple and efficient semi-supervised learning method for deep neural networks[EB/OL]. [2021-06-22]. https://www.researchgate.net/publication/280581078.
|
[23] |
LAINE S, AILA T M. Temporal ensembling for semi-supervised learning[J]. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 2016, 12: 143-152. |
[24] |
TARVAINEN A, VALPOLA H. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results[C]//Proceedings of International Conference on Learning Representations. Vancouver, Canada: [s. n. ], 2017: 156-168.
|