«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (11): 268-275  DOI: 10.19678/j.issn.1000-3428.0059815
0

引用本文  

陈鑫华, 钱雪忠, 宋威. 基于轻量级特征融合卷积网络的图像分类算法[J]. 计算机工程, 2021, 47(11), 268-275. DOI: 10.19678/j.issn.1000-3428.0059815.
CHEN Xinhua, QIAN Xuezhong, SONG Wei. Image Classification Algorithm Based on Lightweight Feature Fusion Convolutional Network[J]. Computer Engineering, 2021, 47(11), 268-275. DOI: 10.19678/j.issn.1000-3428.0059815.

基金项目

国家自然科学基金(61673193);中国博士后科学基金(2017M621625);江苏省自然科学基金(BK20181341)

作者简介

陈鑫华(1996-), 男, 硕士研究生, 主研方向为深度学习、图像识别;
钱雪忠, 副教授、硕士;
宋威, 教授、博士

文章历史

收稿日期:2020-10-23
修回日期:2020-12-02
基于轻量级特征融合卷积网络的图像分类算法
陈鑫华1 , 钱雪忠2 , 宋威3     
1. 江南大学 人工智能与计算机学院, 江苏 无锡 214122;
2. 江南大学 物联网技术应用教育部工程研究中心, 江苏 无锡 214122;
3. 江南大学 江苏省模式识别与计算智能工程实验室, 江苏 无锡 214122
摘要:传统卷积神经网络存在卷积核单一、网络结构复杂和参数冗余的问题。提出一种轻量级特征融合卷积神经网络MS-FNet。在融合模块中采用多路结构以增加卷积神经网络的宽度,通过不同尺寸的卷积核对输入特征图进行处理,提高网络在同一层中提取不同特征的能力,并在每次卷积后采用批归一化、ReLU等方法去除冗余特征。此外,使用卷积层代替传统的全连接层,从而加快模型的训练速度,缓解因参数过多造成的过拟合现象。实验结果表明,MS-FNet可在降低错误率的同时,有效减少网络参数量。
关键词深度学习    卷积神经网络    特征提取    特征融合    图像分类    
Image Classification Algorithm Based on Lightweight Feature Fusion Convolutional Network
CHEN Xinhua1 , QIAN Xuezhong2 , SONG Wei3     
1. School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi, Jiangsu 214122, China;
2. Engineering Research Center of Internet of Things Technology Applications of Ministry of Education, Jiangnan University, Wuxi, Jiangsu 214122, China;
3. Jiangsu Provincial Engineering Laboratory of Pattern Recognition and Computer Intelligence, Jiangnan University, Wuxi, Jiangsu 214122, China
Abstract: The traditional Convolutional Neural Networks (CNN) suffer from single convolutional kernels, complex network structure and redundant parameters.To address the problem, a lightweight CNN named MS-FNet is designed for feature fusion.The fusion module employs a multi-branch structure to increase the width of the CNN, and different sizes of convolutional kernels to process the input feature map, which improves the ability of the network to extract different features in the same layer.And the redundant features are removed after each convolution by using BN, ReLU, etc.Convolutional layers are used to replace the traditional fully connected layer, which not only accelerates the training speed of model but also alleviates overfitting problems caused by too many parameters.The experimental results show that MS-FNet greatly reduces the number of network parameters and the error rate.
Key words: Deep Learning(DL)    Convolutional Neural Network(CNN)    feature extraction    feature fusion    image classification    

开放科学(资源服务)标志码(OSID):

0 概述

深度学习是机器学习领域的研究热点之一,卷积神经网络(Convolutional Neural Network,CNN)作为深度学习的代表算法,广泛应用于计算机视觉、自然语言处理、信息检索、图像识别和分类等领域[1]。随着网络规模扩大,网络结构越来越复杂,因此,需要设计更轻量级的网络模型应用于深度学习的各个领域。

卷积网络模型的轻量化改进主要有浅层压缩和深层压缩两个方向。浅层压缩通过网络剪枝、量化、编码等方式对模型进行压缩。文献[2]提出一种通道裁剪方法,通过判断每层通道的灵敏度以逐层裁剪网络模型,在VGG网络上参数压缩了约80%,但通道裁剪是细粒度裁剪,能删除大量通道并降低网络性能。文献[3]提出一种混合裁剪方法,结合核裁剪以及权重裁剪,通过对卷积核低秩分解,增加稀疏性以降低计算消耗,在精度降低很小的情况下,获得较好的压缩倍率,但稀疏网络还没有成熟的框架或硬件来支持,所以只能有限地提升速度。深层压缩通过设计新的网络模块和改变网络模型结构来达到轻量化的效果。IANDOLA等[4]提出SqueezeNet,利用Fire module对输入通道进行压缩和扩张,减少了整个模型的参数量。文献[5]提出ShuffleNet,将输入通道进行分组,并且为了加强各组间信息流通,提出混洗操作,将来自不同组的特征进行重新排列。MEHTA等[6]提出EspNet,将标准卷积分解为1×1逐点卷积和空间金字塔空洞卷积,不仅增大了感受野还减少了计算量。但是过多增加分组卷积会增大内存访问成本,使得网络结构更复杂,导致研究成本和时间成本增大,从而限制轻量级卷积网络应用于移动设备。

本文提出轻量级特征融合卷积神经网络MS-FNet。利用不同大小的卷积核对输入特征图进行处理,加入空洞卷积和瓶颈结构提取不同的特征,同时使用卷积层代替全连接层,以减少参数量并降低计算资源的消耗,提高网络的分类精度和学习能力。

1 相关工作

传统CNN结构通过简单的堆叠卷积层和池化层来实现,然后不断加深网络层数来达到较高的精度。但这样的网络参数量十分庞大,易产生过拟合现象,不利于应用,并且随着网络层数的加深,会发生梯度消失现象,网络结构的优化也变得越来越困难。

Inception模块结构[7]是GoogleMind提出的一类高性能CNN,其特点是将传统的卷积分解,使用不同尺度的卷积核来代替,将同一个输入使用多种不同尺度卷积核来卷积运算,再将运算完成的结果进行合并输出,利用特征融合获得比单一卷积核更丰富的特征,在有限的计算资源下使网络的深度和宽度得到扩充,也使网络模型的分类结果更精确。Inception模块结构如图 1所示。

Download:
图 1 Inception模块结构 Fig. 1 Structure of Inception module

HE、HUANG[8-9]等提出在网络模块中引入1×1卷积层形成瓶颈结构,不仅能降低网络参数量,还能提升网络的计算效率。标准卷积层和瓶颈结构卷积层结构如图 2所示。假设输入输出特征图的数量N均为128,从图 2(a)可以看出,标准卷积层参数量P=128×3×3×128=147 456。从图 2(b)可以看出,瓶颈结构卷积层的参数量P=128×1×1×32+32×3×3×32+32×1×1×128=17 408。

Download:
图 2 标准卷积与瓶颈结构 Fig. 2 Standard convolution and bottleneck structure

通过计算可以看出,使用瓶颈结构计算的参数量约为标准卷积层参数量的1/8。由于瓶颈结构比标准卷积结构更深,网络的非线性表达能力也更强,因此通过瓶颈结构既减少了网络参数,又增加了网络深度,提高了网络的运行效率。

在CNN中卷积层之后一般会对特征图进行下采样,导致信息丢失。针对这一问题,在网络结构中加入空洞卷积[10],使得网络模型参数和计算量不变的同时扩大感受野,提高网络性能。空洞卷积patch尺寸如式(1)所示:

$ F\left(r\right)=({2}^{r+1}-1)\times ({2}^{r+1}-1) $ (1)

其中:超参数r为每个像素之间填充r-1个空格。假设卷积核尺寸为k×k,空洞卷积步长为r,则相当于用于计算卷积的k2个数值分别从特征图中相隔r-1的位置获取,使得感受野从k×k变为k+(r-1)×(k-1)。空洞卷积其实是一种特殊的数据采样方式,使数据采样由密集变为稀疏,并不会改变网络参数,而是改变了输入数据的采样方式。因此,空洞卷积可以在网络模型中无缝使用,不需要改变网络模型的结构,而且也不会增加额外的参数和计算量。

为加深网络深度,SZEGEDY等[11]提出卷积核分解思想,例如,将5×5等大卷积核分解为2个3×3卷积核,将n×n卷积核非对称分解为1×nn×1的2个连续卷积核。通过卷积核分解不仅能提升网络的深度和宽度,而且有效降低了网络的参数量和计算量。卷积核分解示意图如图 3所示。从图 3(a)可以看出,将5×5卷积核分解为2个连续的3×3卷积核,由于5×5卷积核有25个参数,而2个3×3卷积核只有18个参数,在达到相同卷积效果的同时,参数量降低了28%。从图 3(b)可以看出,将3×3卷积核分解为1×3卷积核和3×1卷积核,3×3卷积核有9个参数,而分解后卷积核有6个参数,在达到相同卷积效果的同时,参数量降低了33%。

Download:
图 3 卷积核分解示意图 Fig. 3 Schematic diagram of convolutional kernel factorization
2 图像分类方法改进 2.1 融合模块结构

基于上述网络模型结构,本文网络基于Inception架构的设计思路,采用模块化设计,通过调整网络模块组件来增加卷积分支通道数以形成集成结构。因此,本文提出MS-FNet网络模型,解决了CNN单个卷积核提取特征不丰富、网络结构复杂、参数冗余的问题。融合模块结构如图 4所示。

Download:
图 4 融合模块结构 Fig. 4 Structure of fusion module

在网络设计中,网络尺寸越大,参数越多,容易导致过拟合现象。文献[12]提出如果把CNN看作数据集的概率分布,那么将具有高度相关的输出进行聚类可以构建最优的网络结构。从图 4可以看出,本文网络融合模块利用不同像素的特征来代表提取到不同的细节,然后将这些相关性较高的节点聚类连接到一起,相当于在多个尺度上同时进行卷积,搭建符合上述理论的多分支结构。在本文融合模块中,一部分选取了2个3×3卷积核代替原来的5×5卷积核;另一部分选取了3×3卷积核,并分别用1×3和3×1卷积核进行替代,在每个卷积核前和池化操作后分别加入1×1卷积核降低特征图厚度。改进后模块的每个分支选用不同卷积核进行处理,使提取的图像特征更丰富,同时替代的卷积核在保证性能的同时能有效减少网络参数。由于使用的卷积核尺寸较小,获得感受野也小,因此通过引入空洞卷积来扩大感受野且不增加额外的参数。

本文融合模块的参数量Fin)和计算量Flin)如式(2)、式(3)所示:

$ F(i, n)=\sum\limits _{1}^{5}\sum\limits _{i=1}^{n}(k\times k\times {C}_{\mathrm{i}\mathrm{n}}\times {C}_{\mathrm{o}\mathrm{u}\mathrm{t}}) $ (2)
$ {F}_{\mathrm{l}}(i, n)=\sum\limits _{1}^{5}\sum\limits _{i=1}^{n}(k\times k\times {C}_{\mathrm{i}\mathrm{n}}\times {C}_{\mathrm{o}\mathrm{u}\mathrm{t}}\times {H}_{i}\times {W}_{i}) $ (3)

其中:i为当前卷积核序号;n为卷积核个数;k×k为当前卷积核尺寸;Cin为输入通道数;Cout为输出通道数;HiWi分别为输出特征图的高度和宽度。

2.2 全连接层处理

全连接层一般连接在CNN的最后一个单层卷积层末端,这层的神经元与前一层所有神经元全部连接,其作用是整合网络学习到的特征表达,然后全部输入到分类器中,但会加大网络参数使得网络结构变得冗余,占据网络中绝大多数的计算开销。例如,VGG-16[13]网络模型中全部参数约1.4亿,而全连接层中的参数有1.24亿左右,约占网络所有参数90%,使得网络模型参数冗余,易造成过拟合现象且效率低。

为解决这个问题,研究人员提出利用全局平均池化或卷积操作的方式来代替全连接层。全局平均池化(Global Average Pooling,GAP)由LIN等[14]提出,其原理是对于输出每个通道的特征图中所有像素计算一个平均值,经过GAP后得到一个维度等于输出类别数的特征向量,可以更好地将分类类别与最后一个卷积层的特征图对应起来。虽然通过GAP降低了参数量,缓解了过拟合现象,但是将网络训练的压力转移到了前面的卷积层[15],减缓了网络整体的收敛速度。另一种方法是使用语义分割任务中的全卷积网络[16],该方法使用卷积层取代最后的全连接层,输出一个特征图,将特征图转换为原始输入大小,通过上采样实现分类。如果网络最后是全连接层,输入神经元个数是固定的,可以反推出上层卷积层输出也是固定的,继续反推可知网络的输入分辨率是固定的;如果使用卷积层代替全连接层,网络中只有卷积层,则网络的输出分辨率随着输入分辨率而得出,输出特征图中每个像素点都对应输入图片的一个区域,保留了更多特征。由于卷积是局部连接,需要计算局部信息,全连接是计算全局信息,这样可以减少计算量,使得网络训练更加高效。

经初步实验,网络最后卷积层输出特征图尺寸为14×14×96,假设全连接层隐藏层节点为1 000,则使用全连接层的参数量约为1.8×107;当直接使用14×14的大卷积核对输入特征图进行卷积操作后,参数量约为3.6×106,是全连接层的1/5,分类精度与全连接层相比提高1%左右;若将14×14的大卷积核进行分解,使用3×3和4×4的小卷积核代替,则参数量约为8.8×104,是全连接层的1/200,分类精度与使用14×14卷积核相比只损失0.3%左右,且收敛速度更快,网络模型泛化能力更强。

2.3 MS-FNet网络模型结构

MS-FNet网络模型结构如图 5所示,采用模块化设计方式将各模块按照拓扑结构进行有序连接,最终形成整体结构。从图 5可以看出,s表示步长,k表示卷积核尺寸,p表示池化窗口尺寸。首先,对网络输入进行卷积池化操作,将提取到的特征进行组合,从而增加下一层的输出通道;然后,在每个融合模块前后都使用1×1卷积操作,对特征图进行降维或者升维操作,同时使用很小的计算量增加了一层非线性层,增强了级联操作后特征图的空间信息交流,实现不同感受野特征通道之间的特征融合;最后,使用逐层卷积代替全连接层进行分类输出。

Download:
图 5 MS-FNet网络模型结构 Fig. 5 Structure of MS-FNet network model

评价算法时间性能的主要指标是算法时间复杂度,假设本文MS-FNet网络模型输入特征图维数为n,则MS-FNet模型整体的时间复杂度如式(4)所示:

$ {T}^{i}\sim O\left(\sum\limits _{i=1}^{N}{M}_{i}^{2}\times {K}_{i}^{2}\times {N}_{i-1}\times {N}_{i}\right) $ (4)

其中:N为网络的深度;i为第i层卷积层;M为输出特征图的尺寸;K为卷积核尺寸;Ni-1为前一层特征图的维数;Ni为下一层特征图的维数。

2.4 网络收敛性分析

在每次卷积后都对特征图进行批归一化[16](Batch Normalization,BN)处理,经过BN层的数据均值为0,标准差为1,降低了特征间相关性,使网络输出规范到正态分布,防止出现梯度爆炸或梯度消失现象,加快网络收敛,缓解了网络过拟合现象。批归一化处理如式(5)所示:

$ \left\{\begin{array}{l}{\mu }_{B}=\frac{1}{m}\sum\limits _{i=1}^{m}{x}_{i}\\ {\sigma }_{B}^{2}=\frac{1}{m}\sum\limits _{i=1}^{m}({x}_{i}-{\mu }_{B}{)}^{2}\\ \widehat{{x}_{i}}=\frac{{x}_{i}-{\mu }_{B}}{\sqrt{{\sigma }_{B}^{2}+\epsilon }}\\ {y}_{i}=\gamma \widehat{{x}_{i}}+\beta \equiv {B}_{\gamma \beta }^{\mathrm{N}}\left({x}_{i}\right)\end{array}\right. $ (5)

其中:$ {\mu }_{B} $$ {\sigma }_{B}^{2} $分别为输出特征图的均值和方差;$ {x}_{i} $为特征图的序号;$ {y}_{i} $为经过批归一化处理后的输出;$ \gamma $$ \beta $分别为学习参数。

采用ReLU激活函数来激活卷积层,使网络收敛更快,防止梯度消失,增强特征稀疏性和非线性表达能力,其函数表示如式(6)所示:

$ f\left(x\right)=\left\{\begin{array}{cc}x, x\ge 0& \\ 0, x < 0& \end{array}\right. $ (6)

本文网络模型使用交叉熵损失函数衡量预测值与真实值的误差,首先对网络最后一层输出通过softmax求出属于某类的概率$ {y}_{i} $,然后将$ {y}_{i} $和样本的实际标签$ {y}_{i}\text{'} $做一个交叉熵,如式(7)、式(8)所示:

$ {y}_{i}=s\left({x}_{i}\right)=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({x}_{i}\right)}{\sum\limits _{j}\mathrm{e}\mathrm{x}\mathrm{p}\left({x}_{j}\right)} $ (7)
$ {H}_{y\text{'}}\left(y\right)=-\sum\limits _{i}{y}_{i}\text{'}\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({y}_{i}\right) $ (8)
3 实验与分析

本文实验平台为GTX1080Ti GPU,使用的深度学习框架为TensorFlow[17],分别在MNIST、CIFAR-10和CIFAR-100数据集上进行测试,通过网络的参数量和错误率来验证本文MS-FNet网络模型的性能。

3.1 CIFAR-10数据集实验

CIFAR-10数据集共60 000张RGB三通道图像,尺寸为32像素×32像素,其中50 000张图像用于训练,10 000张图像用于测试,数据集由10类组成,每类均有5 000张训练图像和1 000张测试图像。在模型训练前,先对样本进行预处理,对每张图像进行随机翻转,设置随机亮度变化和对比度变化,并且将图像裁剪成28像素×28像素的尺寸,以提高样本的利用率,使得样本图像既有随机噪声,还有数据增广作用。在CIFAR-10数据集上,采用batch大小为128,使用Adam优化器,学习率设置为0.001。

在CIFAR-10数据集,本文MS-FNet网络模型参数设置如表 1所示。MS-FNet网络模型每层操作产生的总参数量约为370 000。

下载CSV 表 1 MS-FNet网络模型参数设置 Table 1 Parameters setting of MS-FNet network model

在CIFAR-10数据集上MS-FNet网络模型与其他网络模型的实验结果对比如表 2所示。从表 2可以看出,在CIFAR-10数据集上MS-FNet网络模型参数量仅有370 000,是WideResNet的1/23,是SqueezeNet的1/23,是FractalNet的1/100。本文MS-FNet网络模型的参数量远低于传统CNN模型,而MS-FNet网络模型错误率只有6.19%。相对较低于其他模型,虽然WideResNet(宽度×4)和FractalNet的错误率更低,但是它们的参数量大于MS-FNet网络模型。与DSENet(深度为40)和DSENet(深度为100)相比,在错误率相对较低的情况下,MS-FNet网络模型大幅减少了网络深度,简化了网络的复杂度。与经典网络模型和一些最新网络模型相比,MS-FNet模型具有更好的分类精度和泛化能力。

下载CSV 表 2 在CIFAR-10数据集上不同网络模型的实验结果对比 Table 2 Experimental results comparison among different network models on CIFAR-10 data set
3.2 CIFAR-100数据集实验

CIFAR-100数据集包含60 000张RGB三通道图像,尺寸为32像素×32像素,包含100类,这100类由20个超类扩展而成。每类分别包含500张训练图像和100张测试图像。

在CIFAR-100数据集上网络结构参数设置与CIFAR-10数据集一致。采用的batch大小为128,使用Adam优化器,学习率设置为0.001。CIFAR-100数据集上MS-FNet网络模型与其他网络模型的实验结果对比如表 3所示。从表 3可以看出,MS-FNet网络模型的参数量是X-CNNS的1/12,是DSENet(深度为100)的1/4,表明MS-FNet网络模型在达到相对较低错误率的情况下,减少了网络的参数量。

下载CSV 表 3 CIFAR-100数据集上不同网络模型的实验结果对比 Table 3 Experimental results comparison among different models on CIFAR-100 data set
3.3 MNIST数据集实验

MNIST数据集是手写数据库NIST的子集,数据集中包含手写数字0~9,其中每类数字均有6 000张训练图像和1 000张测试图像,每张图像均为28像素×28像素的单通道图像,共70 000张图像。由于MNIST数据集较简单,所以在MS-FNet网络模型的网络参数设置上,减少了卷积层和融合模块的数量,并且将特征图通道数减小为单通道。采用的batch大小为50,使用Adam优化器,学习率设置为0.0001。

MNIST数据集上本文MS-FNet网络模型与其他网络模型的实验结果对比如表 4所示。从表 4可以看出,本文MS-FNet网络模型的错误率仅0.42%,与其他网络模型相比有所降低,说明本文MS-FNet网络模型具有更好的分类能力。

下载CSV 表 4 MNIST数据集不同网络模型的错误率对比 Table 4 Error rate comparison among different network models on MNIST data set
3.4 消融实验

本文MS-FNet网络模型的核心是瓶颈结构和空洞卷积,在MNIST数据集上进行两组消融实验分别对它们进行比较并验证。第一组验证空洞卷积对MS-FNet网络模型性能的提升,第二组验证瓶颈结构对MS-FNet网络模型性能的提升。

有空洞卷积和没有空洞卷积结果对比如表 5所示。从表 5可以看出,在相同的实验环境和迭代次数下,使用空洞卷积比不使用空洞卷积的训练时间少,随着训练迭代次数增多,使用空洞卷积和不使用空洞卷积网络模型的训练时间都有所增加,错误率均下降,但是使用空洞卷积比不使用空洞卷积网络模型的错误率略微下降。因此,在网络模型中适当添加空洞卷积可以加快网络模型的训练速度,使网络模型收敛快,从而提升网络性能。

下载CSV 表 5 有空洞卷积和没有空洞卷积的实验结果对比 Table 5 Experimental results comparison of dilated convolution and without dilated convolution

使用瓶颈结构和不使用瓶颈结构的实验结果如表 6所示。从表 6可以看出,在相同的实验环境和迭代次数下,随着训练次数增多,使用瓶颈结构和不使用瓶颈结构网络模型的训练时间都有所增加,而错误率均下降,但是使用瓶颈结构网络模型的训练时间比未使用瓶颈结构略微减少,错误率也有所下降。因此,在网络模型中适当添加瓶颈结构可以提升网络模型训练速度,并且降低网络模型错误率。

下载CSV 表 6 使用瓶颈结构和不使用瓶颈结构的实验结果对比 Table 6 Experimental results comparison of bottleneck structure and without bottleneck structure
3.5 网络性能分析

在CIFAR-10数据集上不同方法的运行效率如表 7所示。在CIFAR-100数据集上不同方法的运行效率如表 8所示。从表 7表 8可以看出,在网络最后采用卷积层的网络模型每秒训练的样本数量最多,每批次的训练时间最短,同时达到的错误率也最低。说明采用卷积层代替全连接层网络模型的表现能力和学习能力更强。

下载CSV 表 7 在CIFAR-10数据集上不同方法的运行效率对比 Table 7 Running efficiency comparison among different methods on CIFAR-10 data set
下载CSV 表 8 在CIFAR-100数据集上不同方法的运行效率对比 Table 8 Running efficiency comparison among different methods on CIFAR-100 data set

为了更直观分析本文MS-FNet网络模型的网络性能,在MNIST数据集上全连接层、全局平均池化层和卷积层方法的准确率曲线如图 6所示。从图 6可以看出,随着迭代次数增加,3种方法的准确率都呈上升趋势,但使用卷积层的准确率上升最快,最终达到的准确率也最高。全局平均池化层曲线比卷积层上升稍慢,但最终的准确率与卷积层接近。全连接层曲线上升最缓慢,且最终准确率值也最低。因此,使用卷积层代替全连接层的网络模型能加快网络的训练速度,有效提升其准确率。

Download:
图 6 在MNIST数据集上不同方法的准确率曲线 Fig. 6 Accuracy curves of different methods on MNIST data set

在CIFAR-10数据集上用不同方法处理的MS-FNet网络模型交叉熵损失函数曲线如图 7所示。在网络模型的最后分别使用全连接层、全局平均池化层和卷积层3种不同方法。通过这3种方法的损失函数曲线分析MS-FNet网络模型的收敛能力。从图 7可以看出,随着迭代次数的增加,3种方法的损失函数曲线都趋于收敛,然而全连接层曲线收敛于较高位置,而且下降最慢,全局平均池化层曲线比全连接层曲线下降快,收敛数值也更小,卷积层曲线下降最快,比全局平均池化层曲线收敛更小的数值。因此,使用卷积层代替全连接层使MS-FNet网络模型收敛更快,效果更好。

Download:
图 7 在CIFAR-10数据集上不同方法的交叉熵损失曲线 Fig. 7 Cross entropy loss curves of different methods on CIFAR-10 data set
4 结束语

针对CNN参数多和网络结构复杂的特点,本文设计轻量级特征融合卷积神经网络MS-FNet。通过多个分支不同大小的卷积核提取不同尺度的特征,以增加网络宽度并提高鲁棒性,同时使用卷积层代替传统的全连接层,减少网络模型的参数量。实验结果表明,MS-FNet网络模型结构合理,收敛速度快,在参数量远小于对比CNN模型的情况下,错误率较低且具有较强的泛化能力。后续将优化MS-FNet网络模型的参数设置,进一步提升网络模型的学习能力。

参考文献
[1]
ZHANG S, GONG Y H, WANG J J. The development of deep convolution neural network and its application of computer vision[J]. Chinese Journal of Computers, 2019, 42(3): 453-482. (in Chinese)
张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 计算机学报, 2019, 42(3): 453-482.
[2]
HU Y, SUN S, LI J, et al. A novel channel pruning method for deep neural network compression[EB/OL]. [2020-09-15]. http://export.arxiv.org/pdf/1805.11394.
[3]
JIN L L, YANG W Z, WANG S L, et al. Mixed pruning method for convolutional neural network compression[J]. Journal of Chinese Mini-Micro Computer Systems, 2018, 39(12): 2596-2601. (in Chinese)
靳丽蕾, 杨文柱, 王思乐, 等. 一种用于卷积神经网络压缩的混合剪枝方法[J]. 小型微型计算机系统, 2018, 39(12): 2596-2601. DOI:10.3969/j.issn.1000-1220.2018.12.007
[4]
IANDOLA F, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5MB model size[EB/OL]. [2020-09-20]. https://arxiv.org/abs/1602.07360v1.
[5]
ZHANG X, ZHOU X, LIN M, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 6848-6856.
[6]
MEHTA S, RASTEGARI M, CASPI A, et al. ESPNet: efficient spatial pyramid of dilated convolutions for semantic segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 552-568.
[7]
SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 1-9.
[8]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[9]
HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2261-2269.
[10]
ZHANG Z, WANG X, JUNG C. DCSR: dilated convolutions for single image super-resolution[J]. IEEE Transactions on Image Processing, 2019, 28(4): 1625-1635. DOI:10.1109/TIP.2018.2877483
[11]
SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2818-2826.
[12]
ARORA S, BHASKARA A, GE R, et al. Provable bounds for learning some deep representations[EB/OL]. [2020-09-21]. https://arxiv.org/abs/1310.6343v1.
[13]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-09-18]. https://arxiv.org/abs/1409.1556.
[14]
LIN M, CHEN Q, YAN S, et al. Network in network[EB/OL]. [2020-09-22]. https://arxiv.org/abs/1312.4400.
[15]
GAO Y L, WU C, ZHU M. Short text classification model based on improved convolutional neural network[J]. Journal of Jilin University(Science Edition), 2020, 58(4): 923-930. (in Chinese)
高云龙, 吴川, 朱明. 基于改进卷积神经网络的短文本分类模型[J]. 吉林大学学报(理学版), 2020, 58(4): 923-930.
[16]
ROY A G, NAVAB N, WACHINGER C. Recalibrating fully convolutional networks with spatial and channel "squeeze and excitation" blocks[J]. IEEE Transactions on Medical Imaging, 2019, 38(2): 540-549. DOI:10.1109/TMI.2018.2867261
[17]
LI Y, WANG N, SHI J, et al. Adaptive batch normalization for practical domain adaptation[J]. Pattern Recognition, 2018, 80(4): 109-117.
[18]
ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for large-scale machine learning[C]//Proceedings of Symposium on Operating Systems Design and Implementation. New York, USA: ACM Press, 2016: 265-283.
[19]
LEE C, XIE S, GALLAGHER P W, et al. Deeply-supervised nets[C]//Proceedings of International Conference on Artificial Intelligence and Statistics. New York, USA: ACM Press, 2015: 562-570.
[20]
YANG M L, ZHANG W S. Image classification algorithm based on classification activation map enhancement[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(1): 149-158. (in Chinese)
杨萌林, 张文生. 分类激活图增强的图像分类算法[J]. 计算机科学与探索, 2020, 14(1): 149-158.
[21]
ZAGORUYKO S, KOMODAKIS N. Wide residual networks[EB/OL]. [2020-09-20]. https://arxiv.org/abs/1605.07146v4.
[22]
LARSSON G, MAIRE M, SHAKHNAROVICH G, et al. FractalNet: ultra-deep neural networks without residuals[EB/OL]. [2020-09-21]. https://arxiv.org/abs/1605.07648v1.
[23]
WU Y. Deep convolutional neural network based on densely connected squeeze-and-excitation blocks[J]. AIP Advances, 2019, 9(6): 1-10.
[24]
HOU S, LIU X, WANG Z. Dualnet: learn complementary features for image recognition[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 502-510.
[25]
VELICKOVIC P, WANG D, LANEY N D, et al. X-CNN: cross-modal convolutional neural networks for sparse datasets[C]//Proceedings of IEEE Symposium Series on Computational Intelligence. Washington D.C., USA: IEEE Press, 2016: 1-8.
[26]
KILINC O, UYSAL I. GAR: an efficient and scalable graph-based activity regularization for semi-supervised learning[J]. Neurocomputing, 2018, 296(6): 46-54.
[27]
FU X, SHEN Y T, LI H W, et al. A semi-supervised encoder generative adversarial networks model for image classification[J]. Acta Automatica Sinica, 2020, 46(3): 531-539. (in Chinese)
付晓, 沈远彤, 李宏伟, 等. 基于半监督编码生成对抗网络的图像分类模型[J]. 自动化学报, 2020, 46(3): 531-539.