基于因果干预与不变性的卷积预训练模型优化研究

引用本文

胡璇, 邢凯, 李亚鸣, 等. 基于因果干预与不变性的卷积预训练模型优化研究[J]. 计算机工程, 2022, 48(4), 89-98. DOI: 10.19678/j.issn.1000-3428.0061188.

HU Xuan, XING Kai, LI Yaming, et al. Research on Optimization of Convolution Pretraining Model Based on Causal Intervention and Invariance[J]. Computer Engineering, 2022, 48(4), 89-98. DOI: 10.19678/j.issn.1000-3428.0061188.

基金项目

国家自然科学基金（61332004）

作者简介

胡璇（1995—），女，硕士研究生，主研方向为深度学习;
邢凯，副教授、博士;
李亚鸣，硕士研究生;
王志勇，硕士研究生;
邓洪武，硕士研究生

文章历史

收稿日期：2021-03-18
修回日期：2021-05-22

Contents Abstract Full text Figures/Tables PDF

基于因果干预与不变性的卷积预训练模型优化研究

胡璇^1,2 , 邢凯^1,2 , 李亚鸣^1,2 , 王志勇^2,3 , 邓洪武^1,2

1. 中国科学技术大学计算机科学与技术学院, 合肥 230027;
2. 中国科学技术大学苏州高等研究院, 江苏苏州 215123;
3. 中国科学技术大学网络空间安全学院, 合肥 230027

收稿日期：2021-03-18；修回日期：2021-05-22

基金项目：国家自然科学基金（61332004）

作者简介：胡璇（1995—），女，硕士研究生，主研方向为深度学习; 邢凯，副教授、博士; 李亚鸣，硕士研究生; 王志勇，硕士研究生; 邓洪武，硕士研究生.

E-mail: 893230064@qq.com

摘要：基于卷积神经网络(CNN)的深度模型在图像识别与分类领域应用广泛，但在全局特征控制、概念层次特征不变性提取和变量之间的因果关系确定方面仍存在不足，使得深度模型缺乏灵活性、适应性及泛化性。基于因果干预和不变性，提出一种基于CNN深度模型的定向修剪和网络结构优化方法。通过对模型输入进行基于不变性的干预调制，根据生成的调制图片序列分析预训练网络卷积子结构的输出分布，筛选和定向修剪噪声敏感子结构。构建基于类间区分度的目标函数，借助经济学领域中的资本资产定价模型构建网络的层间连接，生成在单分类任务下能增大类间区分度的网络拓扑结构，逐层优化构建概念层次的稳定特征。在ImageNet-2012数据集上的实验结果表明，优化后的深度模型相比于ResNet50基线预训练模型的分类准确率约提升了5个百分点，并大幅降低了训练集规模。

Research on Optimization of Convolution Pretraining Model Based on Causal Intervention and Invariance

HU Xuan^1,2 , XING Kai^1,2 , LI Yaming^1,2 , WANG Zhiyong^2,3 , DENG Hongwu^1,2

1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China;
2. Suzhou Research Institute for Advanced Research, University of Science and Technology of China, Suzhou, Jiangsu 215123, China;
3. School of Cyberspace Security, University of Science and Technology of China, Hefei 230027, China

Abstract: The deep learning model based on Convolutional Neural Network(CNN) has been widely used in image recognition and classification.However, the model still has some shortcomings in the overall grasp of global features, the effective extraction of feature invariance at concept level, and determining the clear causal relationship between variables.This makes deep models less flexible, adaptable and generalizable.Based on causal intervention and invariance, this study proposes a directional pruning and network structure optimization method based on a CNN deep model.The optimization method performs invariant-based intervention modulation on the model input, then analyzes the output distribution of the pretrained network convolutional substructure according to the generated modulation picture sequence, and filters and directionally prunes the noise-sensitive substructure.On this basis, the objective function based on inter-class differentiation and the inter-layer connection of the network are constructed with the help of the Capital Asset Pricing Model(CAPM) used in the field of economics.The network topology that can increase the inter-class differentiation under a single classification task is generated, and the stable characteristics of the concept level are optimized layer by layer.The experimental results on the ImageNet-2012 dataset show that the optimized deep model improves the classification accuracy of the ResNet50 baseline pre-training model by about 5 percentage points, and greatly reduces the size of the training set.

开放科学（资源服务）标志码（OSID）：

0 概述

在图像处理领域，基于卷积神经网络（Convolutional Neural Network，CNN）的深度学习模型由于避免了对图像特征的手动提取，因此在图像识别、分割、检测等相关的图像处理任务上得到广泛应用。CNN相比全连接神经网络，主要采用两个重要的归纳偏差。CNN卷积结构依据局部像素关系紧密、较远像素相关性弱的先验认知，采用局部连接，每个神经元只连接上一层小范围内的神经元，并且依据局部特征的位置无关性，采用权重共享，通过在整张特征图上复用卷积核，使一组卷积连接共享相同的权重。上述归纳偏差大幅降低了卷积结构的参数规模，加快了训练收敛速度，却也引入了局部敏感性，导致缺乏对数据的整体把握^[1]。另外，特征提取中对各种不变性的捕捉也是CNN面临的重要挑战，通常认为复用卷积核和池化操作可以使得深度CNN对图像的平移、形变具有某种程度的不变性，但文献[2]研究证明当图像平移几个像素后，多数CNN结构的输出会发生巨大改变。当前的机器学习理论建立在对现有数据相关分析与回归分析的基础上，基于对已有数据的观察，寻找规律、拟合模型并作出预测。深度神经网络（Deep Neural Network，DNN）提高了拟合函数的复杂度和精确度，但拟合过程仍然依赖对现有数据的统计关联性分析，而关联性仅是对共现频率、概率的统计和预测，并非从因果性上提供有说服力的解释，因此难以判断变量之间真正的因果关系，使得模型缺乏灵活性、适应性及泛化性^[3]。

针对图像处理领域CNN的局部敏感性问题，增大卷积核或卷积深度可以增强感受野，但同时也会扩大参数规模，存在感受野和训练效率之间的权衡问题。从VGG^[4]开始的卷积架构普遍采用将单个较大的卷积核分解成两层小卷积核，减少训练参数的同时加入更多非线性，然而过深的网络会出现退化，因此ResNet^[5]向卷积层中添加跨层旁路，通过缩短信息传递的有效路径长度来保证梯度信息流动。并且自然语言处理（Natural Language Processing，NLP）中的自注意力机制也被引入图像领域，用于捕获数据中的远程交互^[1]，但依然存在参数多、计算量大的问题。

针对CNN在特征提取中的不变性问题，研究人员通过增大训练集规模或基于变换对训练数据进行增强，提高模型泛化能力，但该方式增加了训练量，通过复制跨尺度、方向和其他仿射自由度的特征来利用视点变化的其他影响方式会产生难以处理的高维特征图^[6]。因此，Inception系列^[7-9]采用并列的多尺度卷积核提取多尺度信息，特征金字塔网络（Feature Pyramid Network，FPN）^[10]利用逐层堆叠不同感受野和分辨率特征图的金字塔模式进行跨分辨率的信息融合，胶囊网络系列^{[6, 11-12]}学习特征空间姿态和特征间位置关系的编码，捕获特征间一致性位置关系并构建特征处于不同位姿的一致性表达。

在因果关系学习方面，PEARL等^[3]提出关联、干预、反事实推理3个层级，但基于被动观察的数据做出预测的深度学习模型仅处于最低层级，只能基于观察到的某一事件是否改变了观察到的另一事件的可能性做出数据间的统计关联性层次判断，而无法预测对事件的主动干预会引起的后果。PEARL等^[3]认为足够强大准确的因果模型可以利用第一层级（关联）的数据来回答第二层级（干预）的问题，通过在数学上做出修正来强调引入干预概念的必要性。

ARORA等^[13]指出：如果数据的概率分布能被大型稀疏深度神经网络描述，则通过分析之前层激活值的相关统计特性，聚类输出高度相关的神经元，便可逐层构建出最优的网络拓扑结构。借鉴PEARL和ARORA的思想，本文引入因果干预，提出高维空间中概念层次的一致性表达对低维空间中的变换具有不变性的假设（即不动点的存在性），通过因果干预手段辅助筛选CNN卷积具有各种不变性的子结构，改善模型对纯粹统计关联性的依赖，筛选出模型中噪声敏感的部分结构。进一步地，基于Wasserstein距离（以下简称W距离）度量类内类间区分度并由此构建收益函数，通过基于收益的组合来捕捉长距离特征间的相关依赖，具体过程基于高斯分布下的Hessian矩阵和协方差的互逆关系，将基于Hessian矩阵的优化转化为资本资产定价模型（Capital Asset Pricing Model，CAPM）中最小化给定收益水平下风险的约束优化，利用夏普比率来计算优化方向，生成具有类间区分度的网络结构，由此构建出概念层次的稳定特征。

1 相关工作 1.1 图像识别中的CNN卷积结构

图像分类与识别是计算机视觉的基本问题，是定位、检测、分割等任务的基础，面临对观察视角的依赖、类内多样性等复杂情况构成的挑战^[14]，传统图像分类采用人工提取特征作为可训练分类器的输入，分类的准确性依赖特征提取阶段的设计，任务艰巨且不具有普适性，无法独立于特定任务本身^[15]。

近年来，深度学习模型利用多层非线性信息处理，在自动特征提取和图像分类上取得了丰硕成果。文献[15]提出的LeNet-5将局部感受野、共享权重和降采样相结合，应用在手写数字识别等场景下，是现代CNN的基础。文献[16]提出的AlexNet在CNN上成功使用ReLU激活函数、定向修剪（dropout）和局部响应归一化（Local Response Normalization，LRN），并采用数据增强缓解过拟合，提高泛化能力，获得了ImageNet 2012竞赛冠军，开启了深度CNN领跑图像领域的先河。后续研究针对实际训练中模型深度、参数规模、梯度传播等一系列挑战，对CNN卷积结构进行了有针对性的优化，模型分类性能持续提高。文献[4]提出的VGGNets证明了增加网络深度可以一定程度提高性能，并用2层3×3的卷积核代替1层5×5，在保持感受野的前提下减少参数量，提高非线性。文献[7]提出由Inception模块叠加成的22层GoogLeNet，用不同大小的卷积核提取图像不同尺度的特征再加以融合，并在卷积前用1×1卷积降维，用全局平均池化代替全连接层，从而比8层的AlexNet拥有更好的性能和更少的参数。Inception的V2^[8]和V3^[9]版本引入了批标准化（Batch Normalization，BN），加入了对较大卷积核的分解，并指出在低层采用1×1卷积降维会丢失信息。为解决深度模型的梯度消失问题，文献[5]提出34层的ResNet，使用跳层直连构建两层残差块，降低信息传递有效路径的长度。更深的模型（50、101、152）采用带有1×1瓶颈结构的三层残差块，进一步减少卷积计算量。针对多尺度特征，文献[10]提出FPN结构，利用卷积网络本身带有的层次性语义特征构建特征金字塔，用于处理大范围尺度变化的物体，通过对特征图上采样和跨层融合，同时获取顶层语义特征和底层高分辨率信息。

在深度神经网络中，获取远程依赖关系至关重要。对于图像数据，长距离依赖关系是由深层卷积堆叠从而形成大感受野来建模的。卷积运算在空间上是对局部邻域进行操作，因此只有当反复执行卷积时，使信息在网络中逐层传播，才能捕获远程依赖关系，在计算效率和优化上都存在挑战^[1]。为此，研究人员将NLP领域用于捕获远程交互的自注意力机制引入视觉领域，用于增强或替代卷积结构^{[1, 17-18]}。自注意力的关键思想是通过隐层神经元之间的相似函数动态生成加权平均值，与池化或卷积不同，输入信息之间的相互作用取决于信息本身，而不是由相对位置先验决定，使得自注意力可捕获输入数据中的远程交互而不增加参数的数量。文献[1]提出一种二维相对自注意力机制，通过将卷积特征图与自注意力机制产生的特征图级联，用自注意力来增强卷积算子，可以灵活地调整自注意力通道的比例，并考虑从完全卷积到完全自注意力模型的一系列架构。

基于图方法的研究也是近年来的热点之一，这类方法通常将数据集映射为一个图，每个样本对应一个节点，若两个样本具有强相似度与相关性，则对应的节点之间存在一条强度正比于相似度与相关性的边，然后通过构造的图来推断无标注数据的标签。这一思想在缺乏大规模标注数据的半监督分类任务上应用广泛，出现了很多关于构造图和传播标签的算法，如基于b-matching^[19]和基于低秩子空间^[20]的图构造方法、基于线性邻域的标签传播算法^[21]等。由于原始数据中包含噪声污染，建立的图可能无法准确反映样本之间的潜在关系，因此文献[22]提出一种基于光滑表示的半监督分类算法，在构造图之前先对原始数据进行过滤，同时采用统一的框架集成图构造和标签传播两个步骤，有效提升了构造图的准确性和与后续任务的关联性。

1.2 相关概念介绍 1.2.1 W距离

本文使用W距离^[23]来度量卷积子结构映射到高维空间后样本分布之间的距离。W距离来自最优传输理论，给定欧式空间中的区域X、$ Y\subset {\mathbb{R}}^{N} $，分别有概率密度μ、ν，总测度相同μ（X）=ν（Y）。假设映射T：X→Y，若对任意可测集合$ B\subset Y $，式（1）均成立，则此映射保持测度，记作$ {T}_{\mathrm{*}}\mu =v $，其中*是保持测度的记号，表示映射T可以保测度地将分布μ映射到分布ν。假设任意$ x\in X\mathrm{、}y\in Y $的距离为$ c(x, y) $，则映射的传输代价$ C\left(T\right) $是距离$ c(x, y) $的积分，如式（2）所示。最优传输映射是所有保测度的映射中使得传输代价最小者，如式（3）所示。最优传输映射的传输代价被称为是两个概率测度之间的W距离，如式（4）所示，其中γ是一个边缘分布为$ \mu \mathrm{、}v $的联合概率分布。

$ {\int }_{{T}^{-1}\left(B\right)}^{}{\rm{d}}\mu ={\int }_{B}^{}{\rm{d}}v $

(1)

$ C\left(T\right)={\int }_{X}^{}c(x, T(x\left)\right)\mathrm{d}\mu \left(x\right) $

(2)

$ \underset{{T}_{\mathrm{*}}\mu =v}{\mathrm{m}\mathrm{i}\mathrm{n}}C\left(T\right) $

(3)

$ W(\mu , v)=\underset{\gamma \sim \prod (\mu , v)}{\mathrm{i}\mathrm{n}\mathrm{f}}{E}_{(x, y)\sim \gamma }\left[||x-y||\right] $

(4)

即使两个分布的支撑集没有重叠或重叠非常少，W距离仍然能反映两个概率分布的远近。另外，W的值域没有0到1的限制，因此在高维空间中比KL散度和JS散度更能度量空间中低维流形之间的分布距离。

1.2.2 因果干预与格兰杰因果关系检验

因果关系通常被解释为描述某个事件对另一个事件的作用关系，后一事件被认为是前一事件的结果。一般而言，一个事件是很多原因综合产生的，而该事件又可以成为其他多个事件的原因。因此，若要量化这种因果关系往往较为困难，需要现代数学工具的辅助。在确定某一事件是否真正是导致另一事件的原因，特别在这种影响是不确定性的描述且只是在总体现象观察到的情况下，就更加难以判断^[24]。

当前的机器学习理论建立在对现有数据回归分析的基础上，基于对已有数据的被动观察，寻找规律、拟合模型并做出预测。深度神经网络提高了拟合函数的复杂度和精确度，数据规模和拟合精度不断提高，但其拟合过程仍然依赖对现有数据的统计相关性分析，而相关性仅是对共现频率的统计，并非从因果性上提供有说服力的解释，因此难以判断变量之间的因果关系和方向^[3]。

随机控制实验是发现因果关系的传统途径，但受限于实验条件，大部分场合只能获得被动观察数据，而无法主动干预。从被动观察数据上探索因果关系避免了实验条件的限制，分为基于时序观察数据和非时序观察数据的因果关系发现方法。基于时序观察数据的因果推断受限于观察手段、采样频率等限制，因此实际中后者具有更广的适用范围^[25]。

本文借鉴时间序列的数据处理方法，基于干预调制，将非序列数据扩展为序列观察数据，由序列数据的因果推断方法来锁定网络结构中具有不变性的部分。本文基于格兰杰因果检验来发现网络中具有不变性的子结构，该检验方法由文献[26]在分析经济变量的因果关系时提出，将因果关系定义为基于一个时间序列的先验值预测另一个时间序列的能力。给定长期时间序列X和Y，如果采用X和Y序列对Y做回归的联合预测误差小于只用Y序列自回归的预测误差，则可以认为X对Y的预测起到了帮助，因此减小了预测误差。在这种情况下，称X对Y有格兰杰因果关系。

1.2.3 夏普比率与资本资产定价模型

在现代投资组合理论中，投资者通常计算资产类型之间的相关性构建投资组合，在给定的风险水平上实现收益最大化^[24]。本文将CNN卷积结构提取到的有效信息类比为资产，通过定义收益和风险，借鉴资本资产定价模型计算有效信息的组合，由之前层激活值的相关统计特性，基于有效信息组合输出为高度相关的神经元，便可逐层构建出最优的网络拓扑结构，由此获得给定风险下的最大收益（性能）。资本资产定价模型示意图如图 1所示。

	Download: JPG larger image
图 1 资本资产定价模型示意图 Fig. 1 Schematic diagram of CAPM

图 1中曲线为风险资产组合可以达到的有效前沿，若投资组合中包含无风险资产，则组合的收益-风险关系将落在一条截距为无风险收益率$ {r}_{f} $并经过曲线上任意一点A的资本配置线（Capital Allocation Line，CAL）上。对CAL上的任意一点P，期望收益$ E\left({R}_{P}\right) $由$ \frac{{\sigma }_{P}}{{\sigma }_{A}} $倍的风险资产组合期望收益$ E\left({R}_{A}\right) $和$ \left(1-\frac{{\sigma }_{P}}{{\sigma }_{A}}\right) $倍的无风险资产期望收益$ E\left({R}_{f}\right) $组成，如式（5）^[27]所示，其中$ {\sigma }_{P} $和$ {\sigma }_{A} $分别为点P和A的标准差。这条直线的斜率被称为夏普比率^[28-29]，又称为报酬-波动性比率，如式（6）所示。

$ \begin{array}{l}E\left({R}_{P}\right)=\frac{{\sigma }_{P}}{{\sigma }_{A}}E\left({R}_{A}\right)+\left(1-\frac{{\sigma }_{P}}{{\sigma }_{A}}\right)E\left({R}_{f}\right)=\\ \frac{E\left({R}_{A}\right)-E\left({R}_{f}\right)}{{\sigma }_{A}}{\sigma }_{P}+E\left({R}_{f}\right)=\frac{E\left({R}_{A}\right)-{r}_{f}}{{\sigma }_{A}}{\sigma }_{P}+{r}_{f}\end{array} $

(5)

$ {S}_{A}=\frac{E\left({R}_{A}\right)-{r}_{f}}{{\sigma }_{A}} $

(6)

夏普比率刻画了投资组合每承受一单位总风险，会产生多少超额报酬。在给定的标准差上，夏普比率越高的投资组合拥有越高的期望收益。当CAL与有效前沿相切时，夏普比率最高，达到资本市场线（Capital Market Line，CML）。资本市场线上的每个点都对应着当前风险下最高的期望收益。通过基于自定义收益和风险的计算挖掘CNN卷积结构采样视角之间的相关性，形成聚合结构以实现对有效特征信息的高效组合。

2 基于不变性的预训练网络结构选择性定向修剪

CNN卷积结构对变换缺乏一致性表示，虽然卷积和池化操作带来了一定程度上的平移不变性，但对缩放、旋转等变换依然需要针对性改进卷积架构^{[4, 13]}或在训练数据中加入对应增强来实现对变换后目标的认知。借鉴流形学习中数据通常存在低于现实空间维度中的唯一表示这一观点，认为物体在高维空间中存在概念层次的一致性表达，该表达在低维空间中存在一种映射表达，在特定视角下不会随低维空间中的变换改变。基于不变量理论和Brouwer不动点定理，假设模型映射函数f能还原出物体概念层次的一致性表达，那么f是各种变换群上的不变量，该高维表达为变换群映射下的不动点。将平移、缩放等变换作用在二维样本图像上，根据变换前后模型提取信息分布的差异，观察模型各维度在变换作用下的稳定性，筛选出具有不变性的模型子结构。

由于缺乏因果稳定性，模型不能分辨提取到的信息来自物体本身还是来自采样过程引入的噪声。根据文献[30]的研究可知，未经训练的初始网络对特定数据的建模能力可以由拟合函数对输入数据的雅可比矩阵反映，矩阵中元素相关性越弱，越能良好地对数据建模。在噪声和干扰的影响下，输入输出之间的相关性很容易遭到篡改，反之，若模型的输入输出具有稳定的因果关系，则不容易受到噪声干扰。为样本图片加入参数随时间规律变化的高斯模糊增强，将非序列数据扩展为序列数据，由序列数据的因果推断方法，即检验输出序列和调制序列在统计上的因果关系，筛选模型中具有因果稳定性的子结构。

2.1 基于平移、尺度等不变性的多样性调制序列生成

基于不变性理论将平移、尺度等变换作用在样本图片上，基于因果干预将参数随时间规律变化的高斯模糊添加到样本图片上，通过测算模型输出分布的稳定性，检验模型的各种不变性和因果稳定性。调制序列生成步骤具体如下：

1）从数据集中选取小规模样本，为每一个样本按表 1中3种方式连续生成多张图片。

下载CSV 表 1 调制序列生成方式 Table 1 Modulation sequence generation mode

2）生成图片构成调制序列，样本整体规模为[样本数，序列长度]。

2.2 基于干预序列的预训练模型子结构不变性分析

采用基于平移和尺度变换生成的调制序列，依据不变量理论来筛选预训练模型中具有各种不变性的子结构。这一操作的理论依据是在变换群作用下，假设模型某部分采样点有助于还原目标在高维空间中的一致性表达，则其输出分布应当是稳定的，即表现为模型提取到的特征信息不随样本的平移、尺度等变化而变化，映射到高维空间中的不动点。

定理1（Brouwer不动点）若$ A\subset {\mathbb{R}}^{N} $且A为非空紧凸集，$ f:A\to A $是一个从A到A的连续函数，则该函数$ f $有一个不动点，即存在$ x\in A, x=f\left(x\right) $。

假设每一类物体在概念层次上都存在足够区别于其他类的高维空间表达，如图 2所示，在理想情况下，从概念到表示的过程可以看作从一个高维空间到其自身的整体映射，则由Brouwer不动点定理，无论在中间加入何种变换，映射都一定存在不动点，即一定存在某个高维空间中的表示不受低维空间中的变换影响。假设这样的高维空间概念表示为θ，样本生成和采样过程的映射为Q（·），群G是对图片的变换群，变换g∈G，特征提取模型为f（·）。根据Brouwer不动点定理，从概念到表示的过程是一个高维空间到其自身的整体映射，有f（Q（θ））= θ，f（g（Q（θ）））= θ，因此f（Q（θ））= f（g（Q（θ）））。设样本图片为x=Q（θ），则在样本图片上，不变性表现为f（x）=f（g（x）），即模型提取到的特征信息不随样本的平移、旋转、尺度等变化而变化。

	Download: JPG larger image
图 2 概念-表示映射流程 Fig. 2 Mapping process of concepts-represents

不变性分析的具体步骤如下：

1）对相同调制方式的同类样本集合通过模型卷积结构的输出分布，测算用W距离度量的分布差异。

2）使用W距离的方差衡量分布差异稳定性，筛选出每种变换具有一定程度不变性的特征提取结构。

2.3 基于格兰杰因果关系的预训练网络选择性定向修剪

采用基于高斯模糊生成的调制序列，依据序列数据的因果推断方法来筛选预训练模型中具有因果稳定性的部分，并对噪声敏感的部分结构进行定向修剪。采用方差分析衡量输出分布的稳定性，用格兰杰因果检验判断模型提取到的信息对调制函数的响应。1.2.2节中介绍了格兰杰因果检验的原理和计算过程，通过检验由调制序列的先验值预测输出序列的能力，来判断在给定的显著水平下调制序列是否为输出序列。对噪声干扰不稳定，又未对调制序列产生响应的采样点可以被认为受到了噪声干扰，对这样的点进行定向修剪，以便进一步构建稳定特征。

基于因果干预的剪枝步骤具体如下：

1）将基于高斯模糊生成的调制序列中的同类样本集合通过模型卷积层，获得输出分布。

2）测算用W距离衡量的分布差异。

3）使用W距离的方差衡量分布差异稳定性，筛选出对噪声干扰较为稳定的采样点。

4）对调制函数和输出分布的W距离序列进行格兰杰因果检验，筛选出对调制函数有响应的采样点。

5）对不属于以上两种的部分采样点进行剪枝。

3 基于W距离的网络模型结构优化生成

模型通过优化不断调整连接权重，在实际应用中有Momentum^[31]、Adagrad^[32]、Adam^[33]等多种基于梯度的优化方式。相比一阶梯度，Shampoo^[34]等基于二阶梯度的优化方式具有更快的收敛速度，但受限于计算量、内存、通信花销等因素，普及度不高。本文给出基于二阶梯度的优化过程与经济学领域资本资产定价模型中基于协方差计算投资组合的等价性，并通过加入单位风险下收益最大的约束得到最优解。该方法首先定义同类和不同类样本之间用W距离衡量的区分度为无监督的收益函数，基于高斯分布假设下对数似然的二阶导（Hessian）矩阵和协方差的互逆关系，并引入夏普比率，将基于Hessian矩阵的最优化问题转化为资本资产定价模型中给定收益水平下最小化风险的约束优化问题，逐层计算优化方向，为每类目标生成在单分类任务下能形成良好类间区分的网络拓扑结构，构建单分类稳定特征，进一步实现多分类。

3.1 基本原理与理论分析

将基于Hessian矩阵的最优化问题转化为资本资产定价模型中给定收益水平下最小化风险的约束优化问题，该方法依据高斯分布假设下负对数似然的二阶导（即Hessian）与协方差的逆相等。

证明

假设期望为$ \mathit{\boldsymbol{\theta }}^{\mathrm{*}} $、协方差矩阵为$ \mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }} $的高斯随机向量$ \mathit{\boldsymbol{\theta}} $，概率密度$ p\left(\mathit{\boldsymbol{\theta}}\right) $如式（7）所示，负对数似然$ J\left(\mathit{\boldsymbol{\theta}}\right) $如式（8）所示，Hessian矩阵在$ \left(l, l\text{'}\right) $维度下的分量如式（9）所示。由此可得Hessian矩阵如式（10）所示。

$ p\left(\mathit{\boldsymbol{\theta}}\right)={\left(2{\rm{ \mathsf{ π} }}\right)}^{-\frac{{N}_\mathit{\boldsymbol{\theta }}}{2}}{\left|\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}\right|}^{-\frac{1}{2}}\mathrm{e}\mathrm{x}\mathrm{p}\left[-\frac{1}{2}{\left(\mathit{\boldsymbol{\theta}}-\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}^{-1}\left(\mathit{\boldsymbol{\theta}}-\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)\right] $

(7)

$ \begin{array}{l}J\left(\mathit{\boldsymbol{\theta}}\right)=-\mathrm{l}\mathrm{n}p\left(\mathit{\boldsymbol{\theta}}\right)=\frac{{N}_\mathit{\boldsymbol{\theta }}}{2}\mathrm{l}\mathrm{n}2{\rm{ \mathsf{ π} }}+\frac{1}{2}\mathrm{l}\mathrm{n}\left|\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}\right|+\\ \;\;\;\;\;\;\;\; \frac{1}{2}{\left(\mathit{\boldsymbol{\theta}}-\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}^{-1}\left(\mathit{\boldsymbol{\theta}}-\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)\end{array} $

(8)

$ \mathit{\boldsymbol{H}}^{\left(l, l\text{'}\right)}\left(\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)={\left.\frac{{\partial }^{2}J\left(\mathit{\boldsymbol{\theta}}\right)}{\partial {\theta }_{l}\partial {\theta }_{l\text{'}}}\right|}_{\mathit{\boldsymbol{\theta}}=\mathit{\boldsymbol{\theta }}^{\mathrm{*}}}={\left(\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}^{-1}\right)}^{\left(l, l\text{'}\right)} $

(9)

$ \mathit{\boldsymbol{H}}\left(\mathit{\boldsymbol{\theta }}^{\mathrm{*}}\right)=\mathit{\boldsymbol{V}}_\mathit{\boldsymbol{\theta }}^{-1} $

(10)

计算CAPM中的均值-方差前沿，即每个给定的收益水平对应的最小方差投资组合，需先计算风险资产组合可能达到的有效前沿。对某个资产组合p，其用向量表示的风险资产构成$ \mathit{\boldsymbol{r}} $如式（11）所示，$ {r}_{n} $（$ n=1\sim N, n\in \mathbb{R} $）为组合中的单个资产，份额$ \mathit{\boldsymbol{w}} $如式（12）所示，$ {w}_{n} $为资产$ {r}_{n} $在组合中所占的份额，每个资产的收益期望$ E\left(\mathit{\boldsymbol{r}}\right) $如式（13）所示，$ E\left({r}_{n}\right) $为资产$ {r}_{n} $的收益期望，资产$ {r}_{i} $与$ {r}_{j} $的两两协方差$ {\sigma }_{ij} $（$ i, j=1 \sim N, i, j\in \mathbb{R} $）如式（14）所示，由两两协方差构成的协方差矩阵$ \mathit{\boldsymbol{V}} $如式（15）所示。对组合p而言，其收益如式（16）表示，代入式（11）、式（12）和式（13），可得收益期望如式（17）所示，代入式（14）和式（15），可得方差如式（18）所示。

$ {\mathit{\boldsymbol{r}}}_{N\times 1}={\left[\begin{array}{llll}{r}_{1}& {r}_{2}& \cdots & {r}_{N}\end{array}\right]}^{\mathrm{T}} $

(11)

$ {\mathit{\boldsymbol{w}}}_{N\times 1}={\left[\begin{array}{llll}{w}_{1}& {w}_{2}& \cdots & {w}_{N}\end{array}\right]}^{\mathrm{T}} $

(12)

$ E{\left(\mathit{\boldsymbol{r}}\right)}_{N\times 1}={\left[\begin{array}{cccc}E\left({r}_{1}\right)& E\left({r}_{2}\right)& \cdots & E\left({r}_{N}\right)\end{array}\right]}^{\mathrm{T}} $

(13)

$ {\sigma }_{ij}=\mathrm{c}\mathrm{o}\mathrm{v}({r}_{i}, {r}_{j})=E\left[({r}_{i}-E({r}_{i}\left)\right)({r}_{j}-E({r}_{j}\left)\right)\right] $

(14)

$ \mathit{\boldsymbol{V}}_{N\times N}=\left[\begin{array}{ccc}{\sigma }_{1}^{2}& \cdots & {\sigma }_{1N}\\ ⋮& & ⋮\\ {\sigma }_{N1}& \cdots & {\sigma }_{N}^{2}\end{array}\right] $

(15)

$ {r}_{p}={w}_{1}{r}_{1}+{w}_{2}{r}_{2}+\cdots +{w}_{N}{r}_{N} $

(16)

$ E\left({r}_{p}\right)=E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{w}} $

(17)

$ {\sigma }_{p}={\left[\sum\limits_{i=1}^{N}{w}_{i}^{2}{\sigma }_{i}^{2}+2\sum\limits_{0 < i < j\le N}{w}_{i}{w}_{j}{\sigma }_{i}{\sigma }_{j}\right]}^{\frac{1}{2}} $

(18)

在给定风险下最大化收益，等价于在给定收益期望下最小化风险$ {\sigma }_{p}^{2}={\mathit{\boldsymbol{w}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}\mathit{\boldsymbol{w}} $，如式（19）所示，其中，$ {\mu }_{p} $为给定的收益期望，$ {\bf{e}} $为单位向量。为求解该最优化问题，构造拉格朗日辅助函数$ L(\mathit{\boldsymbol{w}}, {\lambda }_{1}, {\lambda }_{2}) $，使目标函数取得极值，如式（20）所示。求解式（20）得到份额向量最优解，即投资组合p中每个分量的权重，如式（21）所示。

$ \begin{array}{l} \mathrm{m}\mathrm{i}\mathrm{n}\;{\sigma }_{p}^{2}={\mathit{\boldsymbol{w}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}\mathit{\boldsymbol{w}}\\ {\rm{s.t.}}\;E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{w}}={\mu }_{p} \end{array} $

$ {{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{w}}=1 $

(19)

$ L(\mathit{\boldsymbol{w}}, {\lambda }_{1}, {\lambda }_{2})={\mathit{\boldsymbol{w}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}\mathit{\boldsymbol{w}}-{\lambda }_{1}(E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{w}}-{\mu }_{p})-{\lambda }_{2}({{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{w}}-1) $

$ \frac{\partial L}{\partial \mathit{\boldsymbol{w}}}=2{\mathit{\boldsymbol{w}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}-{\lambda }_{1}E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}-{\lambda }_{2}{{\bf{e}}}^{\mathrm{T}}=0 $

$ \frac{\partial L}{\partial {\lambda }_{1}}=-(E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{w}}-{\mu }_{p})=0 $

$ \frac{\partial L}{\partial {\lambda }_{2}}=-({{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{w}}-1)=0 $

(20)

$ {\mathit{\boldsymbol{w}}}^{\mathrm{*}}=\mathit{\boldsymbol{V}}^{-1}\left[E\left(\mathit{\boldsymbol{r}}\right){\bf{e}}\right]{\mathit{\boldsymbol{A}}}^{-1}\left[\begin{array}{c}{\mu }_{p}\\ 1\end{array}\right] $

(21)

其中：

$ \mathit{\boldsymbol{A}}=\left[\begin{array}{cc}E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{V}}^{-1}E\left(\mathit{\boldsymbol{r}}\right)& E{\left(\mathit{\boldsymbol{r}}\right)}^{\mathrm{T}}\mathit{\boldsymbol{V}}^{-1}{\bf{e}}\\ {{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}^{-1}E\left(\mathit{\boldsymbol{r}}\right)& {{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}^{-1}{\bf{e}}\end{array}\right]=\left[\begin{array}{cc}a& b\\ b& c\end{array}\right] $

$ {\mathit{\boldsymbol{A}}}^{-1}=\frac{1}{ac-{b}^{2}}\left[\begin{array}{cc}c& -b\\ -b& a\end{array}\right]=\frac{1}{d}\left[\begin{array}{cc}c& -b\\ -b& a\end{array}\right] $

将式（21）代入目标函数可得风险如式（22）所示。整理得到风险资产组合可能取到的均值-方差前沿，即图 1中的双曲线，如式（23）所示。综合式（10）和式（19），得到寻找Hessian矩阵的主特征方向（如式（24）所示）与CAPM中基于协方差矩阵计算均值方差前沿的过程（如式（25）所示）等价。由于式（24）计算Hessian矩阵的最大主成分，式（25）计算协方差矩阵的最小主成分，因此$ \mathit{\boldsymbol{H}}=\mathit{\boldsymbol{V}}^{-1} $，而互逆矩阵的特征向量相同，对应特征值互为倒数，由此等价关系成立。在问题式（25）的约束条件中加入单位风险下收益最大的约束（限定为夏普比率最大的解），得到资本市场线及对应切点的收益水平，如式（26）所示。将式（26）代入式（21），即为问题式（24）和式（25）的最优解。

$ {\sigma }_{p}^{2}=\left[{\mu }_{p}1\right]{\mathit{\boldsymbol{A}}}^{-1}\left[\begin{array}{c}{\mu }_{p}\\ 1\end{array}\right] $

(22)

$ \frac{{\sigma }_{p}^{2}}{\frac{1}{c}}-\frac{{\left({\mu }_{p}-\frac{b}{c}\right)}^{2}}{\frac{d}{{c}^{2}}}=1 $

(23)

$ \underset{\mathit{\boldsymbol{\mu}}}{\mathrm{m}\mathrm{a}\mathrm{x}}\;{\mathit{\boldsymbol{\mu}}}^{\mathrm{T}}\mathit{\boldsymbol{H}}\mathit{\boldsymbol{\mu}}, \;\;{\rm{s.t}}. \;\; {{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{\mu}}=1 $

(24)

$ \underset{\mathit{\boldsymbol{w}}}{\mathrm{m}\mathrm{i}\mathrm{n}}\;{\mathit{\boldsymbol{w}}}^{\mathrm{T}}\mathit{\boldsymbol{V}}\mathit{\boldsymbol{w}} , \;\; {\rm{s.t}}.\;\; {{\bf{e}}}^{\mathrm{T}}\mathit{\boldsymbol{w}}=1 $

(25)

$ {\mu }_{p}=\frac{{b}^{2}+d-bc{r}_{f}}{bc-{c}^{2}{r}_{f}} $

(26)

以上过程借由资本资产定价模型和夏普比率完成了基于二阶梯度的优化计算过程。

3.2 基于W距离的特征不变性提取与网络结构生成

首先，将多分类问题转化成一类和其他类的单分类问题。对每一个单分类问题而言，优化目标是最大化类间区分，即经过特征提取后，同类样本分布之间距离最小化，非同类样本分布之间距离最大化，同时保证分布的稳定性。基于W距离定义收益函数如式（27）所示。为每类样本取一个标准分布，$ {W}_{\mathrm{b}} $和$ {W}_{\mathrm{i}} $分别是标准分布与其他类样本和同类样本分布W距离的均值。定义基于收益的损失函数如式（28）所示。

$ \mathit{\boldsymbol{r}}=\frac{{W}_{\mathrm{b}}}{{W}_{\mathrm{i}}} $

(27)

$ {l}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=-\mathrm{l}\mathrm{n}\mathit{\boldsymbol{r}} $

(28)

显然，最小化损失等价于最大化收益。对经过稳定性筛选的节点，计算每个节点（即特征空间维度）上收益的期望、协方差和相关系数。显然，在收益期望最大的一部分维度上，不同类的样本距离较远，同类样本趋向聚集，类别间已经有了较好的区分。基于每个这样的维度来构建通往上层的组合，组合的目标是最大化收益和最小化风险，即最大化单位风险下的收益，因此选取收益期望最大的部分组合采样点，加入弱相关的点以增强采样视角多样性，负相关的点以对冲方差，降低不稳定性。

然后，依据式（26）和式（21）对每一个组合计算最优组合权重，获得这一层的优化方向。计算出的权重直接用于生成上层节点，构建在单分类任务下具有类别区分度且较为稳定的特征。

最后，通过Stacking相同操作的方式逐层堆叠，逐步构建区分度更好、稳定更强的单分类特征。在完成对每一类图像的单分类特征构建后，借鉴自注意力机制训练出每一个单分类特征的权重，再将模型接入全连接层，通过监督学习进行分类训练。

基于W距离的网络结构生成具体步骤如下：

1）为每类选取标准分布，计算类内和类间分布的W距离。

2）基于W距离计算收益。

3）计算每个维度上收益的期望、协方差和相关系数，基于收益期望和相关系数选取组合。

4）对每一个组合，由式（26）计算出夏普比率最大时的收益值μ_p，从而由式（21）计算包含每个较优视角上的最优组合权重。

5）利用步骤4中计算出的权重构建上层节点。

6）逐层Stacking，构建对单分类区分度高的稳定特征。

4 实验与结果分析 4.1 实验设置

为验证本文方法的有效性，在AlexNet、ResNet50等传统SOTA预训练模型和ImageNet-2012数据集上进行实验。基于从ImageNet-2012的1 000类图像数据中选取的111类动植物数据，在准确率、召回率、训练数据量等方面对模型进行性能评估。

实验使用的ImageNet数据集类别具体如下：

1）蛇，n01728572/thunder snake、n01728920/ringneck snake、n01729322/hognose snake等共计17个类别。

2）蝴蝶，n02276258/admiral、n02277742/ringlet、n02279972/monarch等共计6个类别。

3）猫，n02123045/tabby cat、n02123159/tiger cat、n02123394/Persian cat等共计7个类别。

4）豹，n02128385/leopard、n02128757/snow leopard、n02128925/jaguar共计3个类别。

5）狗，n02085620/Chihuahua、n02085782/Japanese spaniel、n02085936/Maltese dog等共计10个类别。

6）鱼，n01443537/goldfish、n01484850/white shark、n01491361/tiger shark等共计6个类别。

7）鸟，n02002724/black stork、n02006656/spoonbill、n02007558/flamingo等共计8个类别。

8）蜘蛛，n01773157/black and gold garden spider、n01773549/barn spider、n01773797/garden spider等共计7个类别。

9）猴子，n02483362/gibbon、n02487347/macaque、n02494079/squirrel monkey等共计4个类别。

10）蜥蜴，n01675722/banded gecko、n01677366/common iguana、n01682714/American chameleon等共计11个类别。

11）壁虎，n01629819/European fire salamander、n01630670/common newt、n01631663/eft等共计5个类别。

12）狐狸，n02119022/red fox、n02119789/kit fox、n02120079/Arctic fox等共计4个类别。

13）狸，n02441942/weasel、n02442845/mink、n02443114/polecat等共计7个类别。

14）牛，n02403003/ox、n02408429/water buffalo、n02410509/bison共计3个类别。

15）羊，n02412080/ram、n02415577/bighorn、n02417914/ibex等共计6个类别。

16）菌菇，n12985857/coral fungus、n12998815/agaric、n13037406/Gyromitra等共计7个类别。

4.2 预训练网络结构选择性定向修剪的有效性分析

通过干预调制得到具有多样性的序列数据，分别依据不变性和因果稳定性对卷积结构进行分析。使用W距离来衡量输出序列分布的差异性，利用标准差来衡量W距离序列的稳定性。根据所有采样点上W距离标准差的分布情况，设定剪枝阈值：

$ \sigma > {m}_{\mathrm{m}\mathrm{i}\mathrm{d}}+C{\varepsilon }_{\mathrm{m}\mathrm{i}\mathrm{d}} $

(29)

其中：$ {m}_{\mathrm{m}\mathrm{i}\mathrm{d}} $为W距离序列方差的中位数；ε_mid为中段数据（如1/4至3/4的分位点）的标准差。根据实验中的具体情况，取C为4、5、6。

选取卷积结构的中间输出，在每类类内分布上计算W距离，基于方差筛选节点去噪。图 3反映了在基于各种不变性的序列上计算分布W距离情况，其中，纵轴为类内分布W距离标准差，横轴为采样点序号（按纵坐标升序排列）。由图 3可知，大约有20%的采样点上的输出分布方差较大，依据该方差分布确定阈值常数C，从而确定剪枝的阈值。基于格兰杰因果检验的剪枝与之类似，取阈值为0.01的显著性水平，筛去约20%的采样点。

	Download: JPG larger image
图 3 卷积结构对噪声的响应与去噪效果 Fig. 3 Response of convolutional structure to noise and denoising effect

此时直接接入预训练模型的全连接层能观察到对应类别分类的召回率提升。图 4给出了基于各种不变性去噪剪枝的召回率提升情况，其中，横轴为按原模型召回率升序排列的111类图片，纵轴为召回率。由图 4可以看出，大部分类别的样本经修剪后的模型分类召回率均有所提升，部分类别的提升甚至超过10个百分点，验证了本文方法的有效性。

	Download: JPG larger image
图 4 去噪后的召回率提升情况 Fig. 4 Recall improvement after denoising

表 2给出了模型修剪前后所有类别上的平均召回率变化情况，可以看出本文修剪方法在总体上平均能够带来2~4个百分点的分类召回率提升，表明基于不变性和因果干预的调制方式确实能筛选出模型对噪声敏感的结构，提高模型稳定提取特征的能力。另外，可以观察到基于高斯模糊因果干预和尺度不变性的召回率提升相对平移不变性更大，主要原因为CNN卷积结构本身具有一定程度的平移不变性，基于平移不变性的干预调制对分类性能的提升相对有限。

下载CSV 表 2 去噪前后的召回率比较 Table 2 Comparison of recall rates before and after denoising

4.3 基于因果干预与不变性的预训练模型性能优化比较分析

对经过筛选的点计算W距离、收益和最优组合权重，构建上层节点。对比组合前后，观察到类内类间区分度的提升和波动的降低。图 5是随机选择的某个类别（tabby cat）在经过组合前后类内类间W距离区分度示例，横轴表示该层收益最好的300个（top300）维度，纵轴表示在该维度上样本类内外分布的W距离。由图 5可以看到，在模型经过优化组合后，样本的类间分布距离和类内分布距离的区别更加明显，即样本在一些维度上的表示逐渐能够和其他类别的样本区分开来，波动也有所降低，稳定性提高，表明在这些维度上正在逐步构建单分类的稳定特征。

	Download: JPG larger image
图 5 组合前后的类内类间区分度 Fig. 5 Distinctions between inside class and outside class before and after combination

表 3随机选择一些类别，观察组合前后收益的变化，即类间分布W距离和类内分布W距离的比值。由表 3中可以看出，类别整体收益提升，即样本类内外区分度在组合后有增大的趋势，验证了本文组合方法的有效性。

下载CSV 表 3 组合前后的收益变化 Table 3 Profit changes before and after combination

将按照每个类别优化生成的单分类特征采用自注意力机制训练加权，再通过全连接层进行分类。所有方法在相同的ImageNet 111类验证集上进行测试。表 4反映了去噪剪枝和网络结构优化生成对分类准确率的最终贡献，可以看出相比ResNet50基线预训练模型，本文优化模型（Ours）在ImageNet 111类数据上测试集准确率提升了约5个百分点。表 5从训练集规模方面反映了本文方法的训练效率，可以看出本文优化模型在预训练模型的基础上只需要每类20张图片的小样本用于优化，大幅提升了训练效率。

下载CSV 表 4 测试集准确率比较 Table 4 Comparison of accuracy of test sets

下载CSV 表 5 训练集规模比较 Table 5 Comparison of training set sizes

5 结束语

本文提出一种基于因果干预与不变性的CNN卷积结构图像识别模型优化方法，通过对非序列数据进行基于各种不变性的干预调制，筛选出模型中具有各种不变性和因果稳定性的子结构，改善模型对纯粹统计关联性的依赖，并进一步基于对样本类别间分布的W距离度量，构建组合捕捉特征间长距离相关依赖，生成具有类别区分度的优化网络拓扑结构，构建概念层次的稳定特征。实验结果表明，优化后的深度模型相比ResNet50基线预训练模型准确率约提升了5个百分点，并大幅降低了训练集规模。下一步将融合基于不变性和因果干预的分析结果，引入频域分析等方法，对网络结构做出更精确的筛选判断并设计更高效的优化方法。

参考文献

[1]	BELLO I, ZOPH B, LE Q, et al. Attention augmented convolutional networks[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 3285-3294.
[2]	AZULAY A, WEISS Y. Why do deep convolutional networks generalize so poorly to small image transformations?[EB/OL]. [2021-02-05]. https://arxiv.org/abs/1805.12177.
[3]	PEARL J, MACKENZIE D. The book of why: the new science of cause and effect[M]. Berlin, Germany: Springer, 2018.
[4]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-02-05]. https://arxiv.org/abs/1409.1556.
[5]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[6]	KOSIOREK A R, SABOUR S, TEH Y W, et al. Stacked capsule autoencoders[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2019: 15512-15522.
[7]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1-9.
[8]	IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of International Conference on Machine Learning. Washington D. C., USA: IEEE Press, 2015: 448-456.
[9]	SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2818-2826.
[10]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[11]	SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 3859-3869.
[12]	HINTON G E, SABOUR S, FROSST N. Matrix capsules with EM routing[EB/OL]. [2021-02-05]. http://www.cs.toronto.edu/~hinton/absps/EMcapsules.pdf.
[13]	ARORA S, BHASKARA A, GE R, et al. Provable bounds for learning some deep representations[EB/OL]. [2021-02-05]. http://export.arxiv.org/pdf/1310.6343.
[14]	CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification[C]//Proceedings of 2011 International Joint Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2011: 1237-1242.
[15]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[16]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[17]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
[18]	WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7794-7803.
[19]	JEBARA T, WANG J, CHANG S F. Graph construction and b-matching for semi-supervised learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York, USA: ACM Press, 2009: 441-448.
[20]	LI S, FU Y. Learning balanced and unbalanced graphs via low-rank coding[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(5): 1274-1287. DOI:10.1109/TKDE.2014.2365793
[21]	WANG F, ZHANG C S. Label propagation through linear neighborhoods[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(1): 55-67. DOI:10.1109/TKDE.2007.190672
[22]	王省, 康昭. 基于光滑表示的半监督分类算法[J]. 计算机科学, 2021, 48(3): 124-129. WANG X, KANG Z. Smooth representation-based semi-supervised classification[J]. Computer Science, 2021, 48(3): 124-129. (in Chinese)
[23]	VALLENDER S S. Calculation of the Wasserstein distance between probability distributions on the line[J]. Theory of Probability & Its Applications, 1974, 18(4): 784-786.
[24]	KESKIN Z, ASTE T. Information-theoretic measures for nonlinear causality detection: application to social media sentiment and cryptocurrency prices[J]. Royal Society Open Science, 2020, 7(9): 200863. DOI:10.1098/rsos.200863
[25]	蔡瑞初, 陈薇, 张坤, 等. 基于非时序观察数据的因果关系发现综述[J]. 计算机学报, 2017, 40(6): 1470-1490. CAI R C, CHEN W, ZHANG K, et al. A survey on non-temporal series observational data based causal discovery[J]. Chinese Journal of Computers, 2017, 40(6): 1470-1490. (in Chinese)
[26]	GRANGER C W J. Investigating causal relations by econometric models and cross-spectral methods[J]. Econometrica, 1969, 37(3): 424-438. DOI:10.2307/1912791
[27]	胡宗义. 投资选择及资产定价数学模型研究[D]. 长沙: 湖南大学, 2004. HU Z Y. Research on investment choice and asset pricing mathematical model[D]. Changsha: Hunan University, 2004. (in Chinese)
[28]	SHARPE W F. The Sharpe ratio[J]. The Journal of Portfolio Management, 1994, 21(1): 49-58. DOI:10.3905/jpm.1994.409501
[29]	BAILEY D, LÓPEZ DE PRADO M. The Sharpe ratio efficient frontier[J]. The Journal of Risk, 2012, 15(2): 3-44. DOI:10.21314/JOR.2012.255
[30]	MELLOR J, TURNER J, STORKEY A, et al. Neural architecture search without training[EB/OL]. [2021-02-05]. https://arxiv.org/abs/2006.04647v1.
[31]	QIAN N. On the momentum term in gradient descent learning algorithms[J]. Neural Networks, 1999, 12(1): 145-151. DOI:10.1016/S0893-6080(98)00116-6
[32]	DUCHI J C, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(61): 2121-2159.
[33]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-02-05]. https://arxiv.org/abs/1412.6980
[34]	GUPTA V, KOREN T, SINGER Y. Shampoo: preconditioned stochastic tensor optimization[C]//Proceedings of International Conference on Machine Learning. Washington D. C., USA: IEEE Press, 2018: 1842-1850.