近年来,边缘计算技术发展迅速,而体积普遍庞大且计算复杂的卷积神经网络(Convolution Neural Network,CNN)模型仍难以在实时性要求较高但内存容量受限的边缘设备上部署使用,因此卷积神经网络模型压缩与加速成为了学术界和工业界均重点关注的研究领域。随着卷积神经网络模型压缩与加速研究的不断深入,其中的网络量化方法得到了广泛应用。网络量化的核心思想是使用较少的位(bit)代替原始浮点型(32 bit)参数,进而减少模型存储空间。文献[1]将全精度浮点型参数量化到16 bit固定长度表示,并在训练过程中使用随机约束技术,从而缩减网络存储和浮点计算次数,但压缩程度不高且浮点计算依旧复杂。文献[2]在模型训练过程中直接将全精度权值量化为+1或-1并用1 bit表示,理论上能把模型压缩至原有的1/32,同时将卷积计算中的乘加运算转换为加减运算,达到加速的目的,但因激活值为全精度,无法大幅度加速网络计算。文献[3]提出BNN网络,该网络通过把权值和激活值量化为+1和-1,将原始的卷积计算变成同或和位计数运算,大幅压缩和加速深度网络,但此类简单量化的方式导致了较严重的精度损失。为此,文献[4]提出XNOR-Net和BWN两个网络,对权值和激活值分别引入缩放因子,减少量化误差并提高训练精度,但在训练过程中会出现梯度不匹配问题,影响精度的进一步提升。针对该问题,文献[5]提出HWGQ-Net,有效地解决了训练过程中的梯度不匹配问题,但加速效果不明显。为减少BWN网络的量化误差,文献[6]提出TWN网络,将权值量化到三元网络,即
本文设计一种结合半波高斯量化(Half-Wave Gaussian Quantization,HWGQ)和交替更新的神经网络模型压缩方法,改进2 bit均匀半波高斯量化器,使量化后的值分解为带有缩放因子的+1、0和-1的组合值,当与采用BWN量化的权值进行卷积运算时,可将浮点型卷积运算转化为仅有+1和-1参与的同或和位计数运算(数值0可看作没有参与运算)加速训练过程,并使用交替更新方法[10]对已训练的二值模型进行逐层微调进一步提高模型测试精度。
1 混合压缩方法本文提出的混合压缩框架如图 1所示,首先对模型输入部分进行2 bit均匀半波高斯量化,然后将值输入到带有缩放因子的二值网络中进行训练得到一个初始的二值模型,再使用交替更新方法对模型进行微调,最终得到优化后的二值模型。在图 1中,
![]() |
Download:
|
图 1 混合压缩框架 Fig. 1 Hybrid compression framework |
在BNN和XNOR网络中,在前向传播阶段采用sign作为激活值量化函数,在反向传播阶段采用
![]() |
Download:
|
图 2 |
为解决上述问题,本文在前向传播阶段采用近似ReLU[12]的
$ h\left(x\right)=\mathrm{m}\mathrm{a}\mathrm{x}(0, x) $ | (1) |
其中:当自变量
该方案相比
考虑到ReLU的半波整流性,前向近似ReLU的量化函数
$ Q\left(x\right)=\left\{\begin{array}{l}{q}_{i}, x\in ({t}_{i-1}, {t}_{i}]\\ 0, x\le 0\end{array}\right. $ | (2) |
其中,
$ \begin{array}{l}{Q}^{\mathrm{*}}\left(x\right)=\underset{Q}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{E}_{x}\left[(Q{\left(x\right)-x)}^{2}\right]=\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\underset{Q}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{\int }_{{t}_{0}}^{{t}_{m}}p\left(x\right)(Q{\left(x\right)-x)}^{2}\mathrm{d}x=\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\underset{Q}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{\int }_{{t}_{0}}^{{t}_{m}}p\left(x\right)\left(Q\right(x)-h{\left(x\right))}^{2}\mathrm{d}x=\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\underset{Q}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}{E}_{x}\left[\left(Q\right(x)-h{\left(x\right))}^{2}\right]\end{array} $ | (3) |
本文采用文献[13]中提出的Lloyd算法对
为解决
$ \tilde{Q}\left(x\right)=\left\{\begin{array}{l}{q}_{m}, x>{q}_{m}\\ x, x\in (0, {q}_{m}]\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (4) |
本文选择Clipped ReLU作为ReLU的反向近似,主要原因为:1)避免在尾部出现与
本文采用文献[4]中的BWN方法对网络权重部分进行量化。假设网络有
$ \boldsymbol{X}\mathrm{*}\boldsymbol{W}\stackrel{\mathrm{B}\mathrm{W}\mathrm{N}}{\approx }\boldsymbol{X}\mathrm{*}\left(\alpha \boldsymbol{B}\right)=\alpha \cdot (\boldsymbol{X}\oplus \boldsymbol{B}) $ | (5) |
其中,
$ \begin{array}{l}\frac{\partial C}{\partial {W}_{i}}=\sum \limits_{j=1}^{n}\left(\frac{\partial C}{\partial \widetilde{{W}_{j}}}\mathrm{ }\cdot \frac{\partial \widetilde{{W}_{j}}}{\partial {W}_{i}}\right)=\sum \limits_{j=1}^{n}\left[\frac{\partial C}{\partial \widetilde{{W}_{j}}}\mathrm{ }\cdot \frac{\partial (\alpha \cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}({W}_{j}\left)\right)}{\partial {W}_{i}}\right]=\\ \hspace{1em}\sum \limits_{j=1}^{n}\left[\frac{\partial C}{\partial \widetilde{{W}_{j}}}\mathrm{ }\cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({W}_{j}\right)\mathrm{ }\cdot \frac{\partial \alpha }{\partial {W}_{i}}\right]+\frac{\partial C}{\partial \widetilde{{W}_{i}}}\mathrm{ }\cdot \frac{\partial \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({W}_{i}\right)}{\partial {W}_{i}}\cdot \alpha =\\ \hspace{1em}\frac{1}{n}\mathrm{ }\cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({W}_{i}\right)\mathrm{ }\cdot \sum \limits_{j=1}^{n}\left[\frac{\partial C}{\partial \widetilde{{W}_{j}}}\mathrm{ }\cdot \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({W}_{j}\right)\right]+\\ \frac{\partial C}{\partial \widetilde{{W}_{i}}}\mathrm{ }\cdot \frac{\partial \mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({W}_{i}\right)}{\partial {W}_{i}}\cdot \alpha \end{array} $ | (6) |
对于半波高斯量化器,本文令
![]() |
Download:
|
图 3 具有加速作用的HWGQ+BWN卷积计算过程 Fig. 3 Accelerated HWGQ+BWN convolution calculation process |
本文对第一层和最后一层保留全精度,只对中间层进行量化处理,在前向阶段和反向阶段使用量化的权值,在权值更新阶段使用全精度值。
算法1 基于HWGQ+BWN的二值模型训练算法
输入 批量输入
输出 二值模型、二值模型训练精度和更新后的学习率
1.构建网络时随机初始化
2.{第一层}
3.
4.{中间层}
5.for
6.
7.
8.
9.for
10.
11.
12.{最后一层}
13.
14.
15.
16.
17.
18.
针对输入部分和权重部分同时量化而导致精度损失较大的问题,本文采用文献[10]中的交替更新方法对二值模型进行微调。交替更新方法主要是对已经训练好的模型进行微调,并且考虑了对输入部分和权重部分同时进行量化的情况,而文献[10]仅考虑了对权重部分的量化。
1.4.1 维度变换若要运用交替更新方法,则需对卷积层的输入和输出以及卷积核作维度变换。从文献[16]得到启发,假定卷积层输入
![]() |
Download:
|
图 4 卷积层上的卷积运算转变为矩阵运算的过程 Fig. 4 The process of transforming convolution operation into matrix operation on convolution layer |
由于对输入部分和权重部分同时进行量化会产生一定的误差,该误差会逐层进行积累,因此本文采用交替更新方法对二值模型进行逐层微调解决以上问题。受文献[17]启发,假设一个CNN网络有
$ \begin{array}{l}\mathrm{m}\mathrm{i}\mathrm{n}L(\boldsymbol{A}, \boldsymbol{B})={‖({\boldsymbol{X}}^{l}{)}^{\mathrm{T}}{\boldsymbol{W}}^{l}-({\tilde{\boldsymbol{X}}}^{l}{)}^{\mathrm{T}}{\tilde{\boldsymbol{W}}}^{l}‖}_{\mathrm{F}}^{2}=\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }{‖{\boldsymbol{S}}^{l}-({\tilde{\boldsymbol{X}}}^{l}{)}^{\mathrm{T}}{\boldsymbol{B}}^{l}{\boldsymbol{A}}^{l}‖}_{\mathrm{F}}^{2}\end{array} $ | (7) |
对式(7)进一步展开,目标函数变为:
$ \mathrm{m}\mathrm{i}\mathrm{n}L({\alpha }_{i}^{l}, {\boldsymbol{B}}_{i}^{l})=\sum \limits_{i=1}^{{c}_{\mathrm{o}\mathrm{u}\mathrm{t}}}{‖{\boldsymbol{S}}_{i}^{l}-{\alpha }_{i}^{l}({\tilde{\boldsymbol{X}}}^{l}{)}^{\mathrm{T}}{\boldsymbol{B}}_{i}^{l}‖}_{\mathrm{F}}^{2} $ | (8) |
其中,
式(8)的求解过程具体如下:
1) 初始化
2) 保持
$ {\alpha }_{i}^{l}=\frac{\left({\boldsymbol{S}}_{i}^{l}{)}^{\mathrm{T}}\right({\tilde{\boldsymbol{X}}}^{l}{)}^{\mathrm{T}}{\boldsymbol{B}}_{i}^{l}}{{‖({\tilde{\boldsymbol{X}}}^{l}{)}^{\mathrm{T}}{\boldsymbol{B}}_{i}^{l}‖}_{\mathrm{F}}^{2}} $ | (9) |
3) 保持
$ \mathrm{m}\mathrm{i}\mathrm{n}{L}_{i}\left({\boldsymbol{B}}_{i}^{l}\right)=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{s}\mathrm{t}+{‖({\boldsymbol{Z}}^{l}{)}^{\mathrm{T}}{\boldsymbol{B}}_{i}^{l}‖}_{\mathrm{F}}^{2}-2\mathrm{t}\mathrm{r}\left[\right({\boldsymbol{B}}_{i}^{l}{)}^{\mathrm{T}}{\boldsymbol{q}}^{l}] $ | (10) |
其中:
通过文献[18]中提出的离散循环坐标下降法,式(10)可优化为
$ b=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\mathrm{ }[{q}_{j}^{l}-(\left({\boldsymbol{B}}_{i}^{l}{)}^{\text{'}}{)}^{\mathrm{T}}\right({\boldsymbol{Z}}^{l}{)}^{\mathrm{\text{'}}}{\boldsymbol{v}}_{j}^{l}] $ | (11) |
利用式(11)可迭代求出
算法2 基于交替更新方法的二值模型微调算法
输入 预训练模型
输出 微调后的二值模型
1.for
2.从数据集中抽样得到小批量数据集
3.前向传播得到
4.计算
5.for
6.
7.
8.while
9.使用式(9)更新
10.for
11.使用式(11)更新
12.end
13.end
14.end
15.end
16.得到微调后的二值模型
本文使用CIFAR-10和ImageNet[19]这两种经典数据集验证混合压缩方法的有效性。CIFAR-10数据集对应的网络结构为VGG14,共有10个类的60 000张RGB三通道图片,其中,训练集有50 000张,测试集有10 000张。ImageNet对应的网络结构为AlexNet[20],共有1 000个类的1.25×106张GRB三通道图片,其中,训练集有1.2×106张,验证集有5×104张。
VGG14的网络结构为(2×64C3)-MP2-(2×128C3)-MP2-(3×256C3)-MP2-(3×256C3)-MP2-(3×512C3)-MP2-10FC-Softmax,其中:“64C3”代表 64个大小为3×3的卷积核,步长和填充值都为1;“MP2”代表采样核为2×2,步长为2的最大池化层。AlexNet包括5个卷积层和3个全连接层。VGG14和AlexNet的网络结构如图 5和如图 6所示,其中:C3=3×3 filter,s=p=1,C代表卷积(Convolution)操作,filter代表卷积核(滤波器);MP3=2×2,s=2,MP代表最大池化(Max Pooling);FC代表全卷积(Fully Convolution)。
![]() |
Download:
|
图 5 VGG14网络结构 Fig. 5 VGG14 network structure |
![]() |
Download:
|
图 6 AlexNet网络结构 Fig. 6 AlexNet network structure |
本文实验硬件环境为8核Intel® XeonTM CPU E5-2620 V4@2.10 GHz,磁盘容量为3.7 TB,总内存为31 GB,可用内存为22 GB;GPU型号为GeForce GTX 1080Ti的工作站1个,专用GPU内存为11 GB,共享GPU内存为16 GB。软件环境为64位的Ubuntu 16.04 LTS,CUDA10.0,Pytorch0.3.1,Python 3.5和gcc 5.4。
2.1 数据预处理 2.1.1 半波高斯量化器参数设置本文利用Lloyd算法[13]可以得到半波高斯量化器的参数值,2 bit均匀半波高斯量化器参数设置如表 1所示。
![]() |
下载CSV 表 1 2 bit均匀半波高斯量化器参数设置 Table 1 Parameters setting of 2 bit uniform half-wave Gaussian quantizer |
针对ImageNet数据集大、分辨率高和训练占用内存大的特点,为提高训练速度和方便实验调试,本文对原始的ImageNet数据集进行预处理。在对训练集进行Resize、随机裁剪和随机翻转后,数据规模由原来的167 GB变成13.5 GB;在对验证集进行Resize和中心裁剪之后,数据规模由原来的6.7 GB变成543.8 MB。预处理后每张图片分辨率为227像素×227像素。表 2为ImageNet数据集预处理前后数据规模对比结果,可以看出预处理前后的数据规模压缩比约为12.5,通过预处理加快了训练和测试的速度。
![]() |
下载CSV 表 2 ImageNet数据集预处理前后的数据规模对比 Table 2 Comparison of data scale before and after ImageNet dataset preprocessing |
本文使用HWGQ+BWN方法的压缩效果较明显,表 3为压缩前和压缩后的模型规模对比结果,可以看出,本文提出的混合压缩方法在VGG14和AlexNet网络结构上的压缩比分别为29.5和30.8,接近理论值32。
![]() |
下载CSV 表 3 网络压缩前后模型规模对比 Table 3 Comparison of model scale before and after network compression |
对于小型数据集CIFAR-10以及对应的网络结构VGG14,超参数设置具体如下:L2正则化的权重衰减系数为
对于VGG14网络结构,HWGQ+BWN方法得到的二值模型测试精度为91.3%,如图 7所示,其中Full-Precision表示未使用量化方法的原始网络。在此基础上,对二值模型进行微调(HWGQ+BWN+Fine-tune),微调结果如图 8所示。可以看出,当最大迭代次数为10时,测试精度约稳定于92.1%。
![]() |
Download:
|
图 7 3种压缩方法在VGG14上的测试精度 Fig. 7 Test accuracy of three compression methods on VGG14 |
![]() |
Download:
|
图 8 HWGQ+BWN方法的二值模型在VGG14上的微调结果 Fig. 8 Fine-tune results of binary model of HWGQ+BWN method on VGG14 |
基于CIFAR-10数据集的4种压缩方法在VGG14中的测试精度对比结果如表 4所示,可以看出本文所提的HWGQ+BWN+Fine-tune方法相比HWGQ-Net方法在压缩模型规模保持不变的前提下,测试精度提高了0.8个百分点。
![]() |
下载CSV 表 4 CIFAR-10数据集在VGG14中的测试精度对比 Table 4 Comparison of test accuracy of CIFAR-10 dataset in VGG14 |
对于大型数据集ImageNet以及对应的网络结构AlexNet,超参数设置具体如下:L2正则化的权重衰减系数为
![]() |
Download:
|
图 9 3种压缩方法在AlexNet上的测试精度 Fig. 9 Test accuracy of three compression methods on AlexNet |
![]() |
Download:
|
图 10 HWGQ+BWN方法的二值模型在AlexNet上的Top-1微调结果 Fig. 10 Top-1 fine-tune results of binary model of HWGQ+BWN method on AlexNet |
![]() |
Download:
|
图 11 HWGQ+BWN方法的二值模型在AlexNet上的Top-5微调结果 Fig. 11 Top-5 fine-tune results of binary model of HWGQ+BWN method on AlexNet |
![]() |
下载CSV 表 5 ImageNet数据集在AlexNet中的测试精度对比 Table 5 Comparison of test accuracy of ImageNet dataset in AlexNet |
本文设计了一个具有加速作用的2 bit均匀量化半波高斯量化器,能将浮点型卷积运算转化为简单的位运算和同或运算。如表 6所示,本文所提的HWGQ+BWN方法通过对半波高斯量化器的改进,相比HWGQ-Net方法实现了10倍的训练加速,相比Full-Precision方法实现了30倍的训练加速。
![]() |
下载CSV 表 6 3种压缩方法在训练过程中的加速比对比 Table 6 Comparison of speedup ratio of three compression methods in the training process |
本文提出一种神经网络压缩方法,采用近似ReLU的半波高斯量化器对输入部分进行量化,在反向传播阶段利用ReLU函数解决梯度不匹配问题。在此基础上,通过改进的2 bit均匀半波高斯量化器加速训练过程,并采用交替更新方法对已训练的二值模型进行缩放因子和二元权值微调,进一步提高神经网络模型测试精度。实验结果表明,在神经网络模型规模保持不变的情况下,该方法能明显提高模型测试精度并加快训练速度。下一步将研究不同稀疏度的半波高斯量化器对神经网络模型测试精度和加速效果的影响,并在满足模型压缩规模的条件下,将该半波高斯量化器与三值模型相结合进一步提高测试精度。
[1] |
GUPTA S, AGRAWAL A, GOPALAKRISHNAN K, et al. Deep learning with limited numerical precision[C]//Proceedings of International Conference on Machine Learning. New York, USA: ACM Press, 2015: 1737-1746.
|
[2] |
COURBARIAUX M, BENGIO Y, DAVID J P. BinaryConnect: training deep neural networks with binary weights during propagation[C]//Proceedings of International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2015: 3123-3131.
|
[3] |
COURBARIAUX M, HUBARA I, SOUDRY D, et al. Binarized neural networks: training deep neural networks with weights and activations constrained to +1 or -1[EB/OL]. [2020-02-10]. https://arxiv.org/abs/1602.02830.
|
[4] |
RASTEGARI M, ORDONEZ V, REDMON J, et al. XNOR-Net: ImageNet classification using binary convolutional neural networks[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 525-542.
|
[5] |
CAI Zhaowei, HE Xiaodong, SUN Jian, et al. Deep learning with low precision by half-wave Gaussian quantization[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 5918-5926.
|
[6] |
LI Fengfu, ZHANG Bo, LIU Bin. Ternary weight networks[EB/OL]. [2020-02-10]. https://arxiv.org/abs/1605.04711.
|
[7] |
ZHU Chenzhuo, HAN Song, MAO Huizi, et al. Trained ternary quantization[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1612.01064.pdf.
|
[8] |
ZHOU Shuchang, WU Yuxin, NI Zekun, et al. Dorefa-Net: training low bitwidth convolutional neural networks with low bitwidth gradients[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1606.06160.pdf.
|
[9] |
ZHOU Aojun, YAO Anbang, GUO Yiwen, et al. Incremental network quantization: towards lossless CNNs with low-precision weights[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1702.03044.pdf.
|
[10] |
HU Qinghao, WANG Peisong, CHENG Jian. From hashing to CNNs: training binary weight networks via hashing[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2018: 3247-3254.
|
[11] |
LIN D D, TALATHI S S. Overcoming challenges in fixed point training of deep convolutional networks[EB/OL]. [2020-02-10]. https://arxiv.org/abs/1607.02241.
|
[12] |
GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligences and Statistics. Washington D.C., USA: IEEE Press, 2011: 315-323.
|
[13] |
LLOYD S. Least squares quantization in PCM[J]. IEEE Transactions on Information Theory, 1982, 28(2): 129-137. |
[14] |
IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1502.03167.pdf.
|
[15] |
PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]//Proceedings of International Conference on Machine Learning. Washington D.C., USA: IEEE Press, 2013: 1310-1318.
|
[16] |
LI Zefan, NI Bingbing. Performance guaranteed network acceleration via high-order residual quantization[EB/OL]. [2020-02-10]. https://arxiv.org/abs/1708.08687.
|
[17] |
WU Jiaxiang, LENG Cong, WANG Yuhang, et al. Quantized convolutional neural networks for mobile devices[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 4820-4828.
|
[18] |
SHEN Fumin, SHEN Chunhua, LIU Wei, et al. Supervised discrete hashing[C]//Proceedings of IEEE Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 37-45.
|
[19] |
RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. DOI:10.1007/s11263-015-0816-y |
[20] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386 |
[21] |
KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2020-02-10]. https://arxiv.org/pdf/1412.6980.pdf.
|