2. 上海市数据科学重点实验室, 上海 200438;
3. 上海金融期货信息技术有限公司, 上海 200120
2. Shanghai Key Laboratory of Data Science, Shanghai 200438, China;
3. Shanghai Financial Features Information Technology Co., Ltd., Shanghai 200120, China
开放科学(资源服务)标志码(OSID):
在移动互联网时代,金融新闻资讯成为人们高效获取市场情报的主要途径。然而随着新闻数量的爆发式增长,如何准确地对金融文本进行分类用以精准推荐或辅助决策,成为亟待解决的问题。由于单条新闻文本常常同多个标签相关联,因此多标签文本分类问题受到广泛关注[1-3]。
二元关联是解决多标签问题最常用的思路[1-3]。二元关联把多标签分类转化为多个二分类问题[4],每次针对一个标签类别开展,即每次判断样本是否属于某个类别。不同的标签与文本中不同的特征有关。文献[1]提出的CAML算法使用标签注意力机制为每个二分类问题进行特征提取。然而,CAML使用固定窗口大小的卷积网络融入上下文信息,导致模型只能提取固定长度的局部短语信息。文献[2-3]提出的MSATT-KG和BiGRU-LWAN算法分别使用密集连接卷积层和双向门控循环网络代替一维卷积层,从而关注到文本中不同粒度的上下文信息。文献[5]提出的ZACNN算法在CAML的基础上进一步融入标签语义特征等先验知识,以提升模型在小样本场景下的性能表现。然而,这些工作都忽略了标签之间的复杂依赖关系,二元关联中多个二分类问题并不是相互独立的。
图深度学习[5-7]通过深度网络刻画了图节点之间的关联,其在蛋白质分子属性推断[8]、交通流量预测[9]、金融欺诈检测[10]、新闻文本分类[11]等领域得到了成功应用。在多标签文本分类中,也有一些工作通过图深度学习刻画了标签层级结构。文献[12-13]分别提出使用Tree-LSTM(Tree-structured Long Short Term Memory)网络和图卷积神经网络(Graph Convolution Network,GCN)对标签的层级结构和标签语义描述进行编码表示。上述方法都依赖于预先定义的标签层级结构和丰富的标签语义信息。然而,在金融领域,这样的标签结构信息获取依赖于专业领域人员,对标签划分层级结构的代价很大,并且由于尾部标签出现频次较低,尾部标签对应的二分类问题中正负样本数量严重失衡,但上述工作难以直接处理这种数据的不均衡性问题。
本文通过建模金融文本多标签分类中标签之间的相关性,提出基于图深度学习的金融文本多标签分类算法,在不依赖于标签层级结构等先验知识的前提下,学习语义信息以建模标签之间的复杂依赖关系。该算法根据原始数据集中的标签分布构建标签关联图,对新闻文本使用双向门控循环网络进行上下文语义嵌入,并将通过标签注意力机制得到的文本特征表示作为图上对应标签节点的属性信息,进一步使用图神经网络融合标签之间的关联与文本信息得到新闻的特征表征,利用多个线性层预测新闻文本在标签空间中的概率分布。同时,为解决二元关联中尾部标签正负样本严重不均衡的问题,选用非对称损失函数[14]作为优化目标。
1 问题定义给定一段新闻文本,经过分词、去除停用词等处理,将原始输入文本转换为字符序列
本节将详细介绍本文提出的基于图深度学习的多标签文本分类模型FMLG,其中所使用的重要符号定义如表 1所示。
![]() |
下载CSV 表 1 重要符号定义 Table 1 Definition of important symbols |
图 1展示了FMLG模型的基本框架。输入新闻文本d。首先,将原始字符序列转换为嵌入表示,并进一步表示为融合上下文信息的语义嵌入向量,由于不同标签会侧重不同的文本特征,因此多标签注意力网络使用多个注意力头提取标签相关的文本特征;然后,为了捕捉标签之间的依赖关系并学习更丰富的语义信息,在构建标签关联图的基础上,模型使用门控图神经网络实现标签间的语义特征交互;最后,多个线性层被用于预测标签的概率分布。
![]() |
Download:
|
图 1 FMLG模型框架 Fig. 1 Framework of FMLG model |
JOHNSON等[15]指出,预训练的词嵌入表示可以使模型训练过程更加稳定,因此,使用word2vec[16]进行嵌入表示学习。单词序列经过嵌入表示后得到向量序列
由于文本中常常包含大量冗余信息且每个标签侧重不同角度的文本特征,因此FMLG使用标签注意力
$ {\alpha }_{ij}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{q}}_{i}^{\mathrm{T}}{\boldsymbol{h}}_{j}^{\mathrm{c}}\right)}{\sum\limits _{k=1}^{m}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{q}}_{i}^{\mathrm{T}}{\boldsymbol{h}}_{k}^{\mathrm{c}}\right)} $ | (1) |
$ {\boldsymbol{f}}_{i}^{\mathrm{a}}=\sum\limits _{j=1}^{m}{\alpha }_{ij}{\boldsymbol{h}}_{j}^{\mathrm{c}} $ | (2) |
其中:
尽管FMLG模型利用了标签注意力来提取与各个标签相关的文本特征,但这样的做法只是在标签与文本之间建立联系,仍然无法捕捉标签之间的关系。本文先利用统计关系对标签进行构图,再通过门控图神经网络[17]对其进行特征交互。这不仅可以在模型中显式地融入标签之间的关联,而且其中的门控机制也可以自适应地捕捉到更丰富的相关文本特征。
本文模型首先根据训练集构建标签关联图G,图G为有向带权图,其中节点集V由数据集中的所有标签组成,边权
$ {A}_{ij}=p\left({l}_{j}\right|{l}_{i}) $ | (3) |
$ p\left({l}_{j}\right|{l}_{i})\approx \frac{\sum \limits_{k=1}^{N}I({l}_{i}, {l}_{j}\in {y}_{k})}{\sum \limits_{k=1}^{N}I({l}_{i}\in {y}_{k})} $ | (4) |
其中:I为指示函数。给定图G,模型使用门控图神经网络进行特征交互。图上节点的初始向量表示设置为注意力层提取得到的特征,即
$ {\tilde{\boldsymbol{v}}}_{i}^{\left(k\right)}=\frac{\sum \limits_{j}^{}{A}_{ji}{\boldsymbol{v}}_{i}^{\left(k\right)}}{\sum \limits_{j}^{}{A}_{ji}} $ | (5) |
然而从邻节点聚合到的信息可能存在噪声,因此模型使用门控机制自适应选择有效信息,信息聚合与传递的具体过程如下:
$ {\boldsymbol{r}}_{i}^{\left(k\right)}=\sigma ({\boldsymbol{W}}_{r1}{\tilde{\boldsymbol{v}}}_{i}^{\left(k\right)}+{\boldsymbol{W}}_{r2}{\boldsymbol{v}}_{i}^{\left(k\right)}+{\boldsymbol{b}}_{r}) $ | (6) |
$ {\boldsymbol{z}}_{i}^{\left(k\right)}=\sigma ({\boldsymbol{W}}_{z1}{\tilde{\boldsymbol{v}}}_{i}^{\left(k\right)}+{\boldsymbol{W}}_{z2}{\boldsymbol{v}}_{i}^{\left(k\right)}+{\boldsymbol{b}}_{z}) $ | (7) |
$ {\boldsymbol{n}}_{i}^{\left(k\right)}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\boldsymbol{W}}_{n1}{\tilde{\boldsymbol{v}}}_{i}^{\left(k\right)}+{\boldsymbol{b}}_{n1}+{\boldsymbol{r}}_{i}^{\left(k\right)}\mathrm{*}({\boldsymbol{W}}_{n2}{\boldsymbol{v}}_{i}^{\left(k\right)}+{\boldsymbol{b}}_{n2}\left)\right) $ | (8) |
$ {\boldsymbol{v}}_{i}^{(k+1)}=(1-{\boldsymbol{z}}_{i}^{\left(k\right)})\mathrm{*}{\boldsymbol{n}}_{i}^{\left(k\right)}+{\boldsymbol{z}}_{i}^{\left(k\right)}\mathrm{*}{\boldsymbol{v}}_{i}^{\left(k\right)} $ | (9) |
其中:σ代表Sigmoid函数;
$ {\boldsymbol{f}}_{i}^{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}}={\boldsymbol{v}}_{i}^{\left(K\right)}\left|\right|{\boldsymbol{v}}_{i}^{\left(0\right)} $ | (10) |
其中:
最终,对于每个类别,模型训练一个二分类器:
$ {\widehat{p}}_{i}=\sigma ({\boldsymbol{w}}_{{p}_{i}}^{\mathrm{T}}{\boldsymbol{f}}_{i}^{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}}+{b}_{{p}_{i}}) $ | (11) |
其中:
由于大部分标签只在少数样本中出现,因此采用二元关联解决多标签分类会导致二分类问题中正负样本比例的严重失衡。本文采用非对称损失函数(Asymmetric Loss)[14]处理非均衡分布问题。非对称损失通过权重衰减因子和置信度阈值平衡正负样本在损失中的占比。预测概率
$ {L}_{\mathrm{a}\mathrm{s}\mathrm{y}}({\widehat{p}}_{i}, {p}_{i})=-{p}_{i}{L}^{+}-(1-{p}_{i}){L}^{-} $ | (12) |
$ {L}^{+}=\mathrm{l}\mathrm{n}\left({\widehat{p}}_{i}\right) $ | (13) |
$ {L}^{-}=\mathrm{l}\mathrm{n}(1-{\tilde{p}}_{i}){\tilde{p}}_{i}^{\gamma } $ | (14) |
$ {\tilde{p}}_{i}=\mathrm{m}\mathrm{a}\mathrm{x}({\widehat{p}}_{i}-m, 0) $ | (15) |
其中:
本节通过实验验证FMLG模型的有效性,并分析讨论实验中的场景数据以及相关的参数设置。
3.1 数据集实验使用的金融新闻数据集中共包含84 707条中文金融新闻文本,文本的平均长度为598个中文字符。每条文本由新闻标题和内容两部分组成。数据集中的每条文本都被打上多个金融类话题标签,共包含115个标签。数据集中每条文本平均被打上1.5个标签,35%的文本标签数量大于1,13%的标签在数据集中出现次数少于100次。
3.2 对比算法下面介绍本文采用的对比算法:
1)CAML[1]。由于文本中存在大量冗余信息且不同标签对应着不同的文本特征,因此该方法提出在卷积神经网络的基础上,进一步使用注意力机制为每个标签进行特征提取。
2)BiGRU-LWAN[3]。由于卷积神经网络只能提取局部信息,而双向GRU可以捕捉长距离依赖,因此该方法将CAML的卷积神经网络替换为双向GRU。BiGRU-LWAN在多个多标签文本分类数据集上都取得了极佳的效果,是一个极具竞争力的对比算法。
3)ZACNN[5]。RIOS等提出在CAML中融入标签的语义信息以进一步提升模型在尾部低频标签上的性能表现。
3.3 实验设置实验预处理阶段使用jieba(https://github.com/fxsjy/jieba)对文本进行分词,并取文档频率大于4次的字符组成词表。预训练嵌入表示维度设置为100。随机划分70%、15%、15%的数据分别作为训练集,测试集和验证集,并将在训练集中出现次数少于100次的标签视为尾部少样本标签。
对于本文提出的FMLG算法,经双向GRU编码后的特征维度
为了使得模型有着更好的泛化能力,实验中对于上述所有模型的词嵌入层向量表示和注意力系数使用概率为0.2的Dropout[18]。训练阶段优化器选用Adam[19],学习率设置为
在FMLG模型上分别进行2组实验。FMLG/BCE和FMLG/ASL分别表示使用交叉熵和非对称损失函数训练的FMLG模型。表 2、表 3展示了模型在所有标签和尾部标签上的性能表现,其中,加粗数据表示最优结果。
![]() |
下载CSV 表 2 模型在所有标签上的性能表现 Table 2 Model performance on all labels |
![]() |
下载CSV 表 3 模型在尾部标签上的性能表现 Table 3 Model performance on tail labels |
1)ZACNN模型效果最差。ZACNN中标签的嵌入表示通过标签名称中字符的嵌入表示取平均得到,但是由于标签名称同对应文本特征存在较大的语义鸿沟,因此导致模型表达能力欠缺。
2)BIGRU-LWAN效果优于CAML,表明卷积网络只能提取固定长度的局部信息的特点具有局限性,双向GRU可以更好地建模上下文之间的长距离依赖。
3)相比BIGRU-LWAN,FMLG/BCE取得了更好的结果,且在尾部标签上的提升更为明显,这表明显式地建模标签之间的关联能够提升模型性能。
4)对比FMLG/BCE和FMLG/ASL可以发现,使用非对称损失函数能够大幅提升模型在正负样本失衡条件下的召回率与F1值。
为了更加直观,在表 4中进一步列出部分测试样例预测结果,其中文本中的下划线部分代表新闻中的重要信息。从中可以发现,相比性能最优的对比算法BIGRU-LWAN算法,FMLG可以预测出更为完整的标签集合。以样例1为例,由于标签“A股策略”和“研判优选”在训练集中存在共现关系,它们在标签关联图中存在连边,FMLG可以通过图语义交互层学习两者之间的依赖关系,从而实现更为准确完整的预测输出。
![]() |
下载CSV 表 4 部分测试样例预测结果 Table 4 Prediction results of some test samples |
为表明语义交互层带来的提升不完全是由于更深层的网络结构导致,实验中还将图神经网络中的邻接矩阵替换为单位阵。从表 5实验结果可以发现,使用单位阵代替标签关联图会导致性能下降。这表明在模型中通过构建标签关联图的方式显式建模标签之间的关联具有重要意义。
![]() |
下载CSV 表 5 不同邻接矩阵对实验结果的影响 Table 5 Influence of adjacency matrix to experimental result |
此外,还通过实验探究不同图神经网络结构对实验结果的影响,实验结果见表 6。可以发现,门控图神经网络取得了更好的效果,进一步验证了从邻节点聚合到的信息往往存在噪声,门控机制可以从中自适应选择有效信息。
![]() |
下载CSV 表 6 不同图神经网络对实验结果的影响 Table 6 Influence of different graph neural networks to experimental result |
本文提出基于图深度学习的多标签文本分类算法FMLG,通过标签统计信息构建关联图,并利用门控图神经网络挖掘标签之间的关系。在与各个算法的对比实验中,FMLG在所有标签和尾部标签的宏观F1值上最高取得了2.0%和4.5%的提升,这表明显式建模标签之间的关系可以大幅提升模型的泛化能力。为了进一步解决二元关联中正负样本不均衡的问题,FMLG使用非对称损失函数作为优化目标。相比现有算法,FMLG在所有标签和尾部标签宏观F1值上最高取得了3.1%和6.9%的提升。由于现实场景中标签数量较多,数据集中的样本常常只被打上部分标签,使用存在标签缺失的样本训练模型会对性能造成较大的负面影响。后续将在本文工作的基础上使用PU learning[21-22](Positive-Unlabelled learning)进一步模型在标签缺失场景下的鲁棒性。
[1] |
MULLENBACH J, WIEGREFFE S, DUKE J, et al. Explainable prediction of medical codes from clinical text[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long Papers). Stroudsburg, USA: ACL, 2018: 1101-1111.
|
[2] |
XIE X C, XIONG Y, YU P S, et al. EHR coding with multi-scale feature attention and structured knowledge graph propagation[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York, USA: ACM Press, 2019: 649-658.
|
[3] |
CHALKIDIS I, FERGADIOTIS E, MALAKASIOTIS P, et al. Large-scale multi-label text classification on EU legislation[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2019: 6314-6322.
|
[4] |
马慧芳, 贾美惠子, 李晓红, 等. 一种基于标签关联关系的微博推荐方法[J]. 计算机工程, 2016, 42(4): 197-201, 208. MA H F, JIA M H Z, LI X J, et al. A microblog recommendation method based on label correlation relationship[J]. Computer Engineering, 2016, 42(4): 197-201, 208. (in Chinese) |
[5] |
RIOS A, KAVULURU R. Few-shot and zero-shot multi-label learning for structured label spaces[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2018: 3132-3142.
|
[6] |
BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[C]//Proceedings of 2014 International Conference on Learning Representations. Banff, Canada: [s. n. ], 2014: 1-14.
|
[7] |
NIEPERT M, AHMED M, KUTZKOV K. Learning convolutional neural networks for graphs[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR, 2016: 2014-2023.
|
[8] |
VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C]//Proceedings of 2018 International Conference on Learning Representations. Vancouver, Canada: [s. n. ], 2018: 1-12.
|
[9] |
HAMILTON W L, YING R, LESKOVEC J. Inductive representation learning on large graphs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 1025-1035.
|
[10] |
GUO S N, LIN Y F, FENG Y, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proceedings of 2019 AAAI Conference on Artificial Intelligence. Hawaii, USA: AAAI, 2019: 922-929.
|
[11] |
刘月, 翟东海, 任庆宁. 基于注意力CNLSTM模型的新闻文本分类[J]. 计算机工程, 2019, 45(7): 303-308, 314. LIU Y, ZHAI D H, REN Q N. News text classification based on CNLSTM model with attention mechanism[J]. Computer Engineering, 2019, 45(7): 303-308, 314. (in Chinese) |
[12] |
WANG D X, LIN J B, CUI P, et al. A semi-supervised graph attentive network for financial fraud detection[C]//Proceedings of 2019 IEEE International Conference on Data Mining. Washington D.C., USA: IEEE Press, 2019: 598-607.
|
[13] |
XIE P T, XING E. A neural architecture for automated ICD coding[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, USA: ACL, 2018: 1066-1076.
|
[14] |
BEN-BARUCH E, RIDNIK T, ZAMIR N, et al. Asymmetric loss for multi-label classification[EB/OL]. [2021-04-01]. https://arxiv.org/abs/2009.14119.
|
[15] |
JOHNSON R, ZHANG T. Convolutional neural networks for text categorization: shallow word-level vs. deep character-level[EB/OL]. [2021-04-01]. https://arxiv.org/abs/1609.00718.
|
[16] |
LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning. Stockholm, Sweden: JMLR, 2018: 1188-1196.
|
[17] |
LI Y J, TARLOW D, BROCKSCHMIDT M, et al. Gated graph sequence neural networks[C]//Proceedings of 2016 International Conference on Learning Representations. San Juan, USA: [s. n. ], 2016: 273-283.
|
[18] |
SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958. |
[19] |
KINGMA D P, BA J. Adam: a method for stochastic optimization[C]//Proceedings of 2015 International Conference on Learning Representations. San Diego, USA: [s. n. ], 2015: 1-15.
|
[20] |
KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[C]//Proceedings of 2016 International Conference on Learning Representations. San Juan, USA: [s. n. ], 2016: 1-14.
|
[21] |
KIRYO R, NIU, G, PLESSIS M C., et al. Positive-unlabeled learning with non-negative risk estimator[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. [S. l. ]. Curran Associates, 2017: 1674-1684.
|
[22] |
SHU S, LIN Z, YAN Y, et al. Learning from multi-class positive and unlabeled data[C]//Proceedings of 2020 IEEE International Conference on Data Mining. Washington D.C., 2020: 1256-1261.
|