基于多尺度特征提取与特征融合的交通标志检测

引用本文

张永亮, 陆阳, 朱芜强, 等. 基于多尺度特征提取与特征融合的交通标志检测[J]. 计算机工程, 2022, 48(10), 270-278, 287. DOI: 10.19678/j.issn.1000-3428.0062282.

ZHANG Yongliang, LU Yang, ZHU Wuqiang, et al. Traffic Sign Detection Based on Multi-Scale Feature Extraction and Feature Fusion[J]. Computer Engineering, 2022, 48(10), 270-278, 287. DOI: 10.19678/j.issn.1000-3428.0062282.

基金项目

国家重点研发计划专项（2018YFC0604404）；中央高校基本科研业务费专项资金（PA2021GDGP0061）；安徽省重点研发计划项目（202004a05020040）；合肥工业大学智能制造技术研究院智能网联及新能源汽车专项（IMIWL2019003）

通信作者

陆阳（通信作者），教授、博士

作者简介

张永亮（1997—），男，硕士研究生，主研方向为交通图像处理、目标检测、深度学习;
朱芜强，硕士研究生;
卫星，副教授、博士;
魏臻，教授、博士

文章历史

收稿日期：2021-08-07
修回日期：2021-11-03

Contents Abstract Full text Figures/Tables PDF

基于多尺度特征提取与特征融合的交通标志检测

张永亮¹ , 陆阳^1,2,3 , 朱芜强¹ , 卫星^1,3,4 , 魏臻^1,2,3

1. 合肥工业大学计算机与信息学院, 合肥 230009;
2. 矿山物联网与安全监控技术安徽省重点实验室, 合肥 230088;
3. 安全关键工业测控技术教育部工程研究中心, 合肥 230009;
4. 合肥工业大学智能制造研究院, 合肥 230009

收稿日期：2021-08-07；修回日期：2021-11-03

基金项目：国家重点研发计划专项（2018YFC0604404）；中央高校基本科研业务费专项资金（PA2021GDGP0061）；安徽省重点研发计划项目（202004a05020040）；合肥工业大学智能制造技术研究院智能网联及新能源汽车专项（IMIWL2019003）

作者简介：张永亮（1997—），男，硕士研究生，主研方向为交通图像处理、目标检测、深度学习; 朱芜强，硕士研究生; 卫星，副教授、博士; 魏臻，教授、博士.

通信作者：陆阳（通信作者），教授、博士.

E-mail: luyang@hfut.edu.cn

摘要：基于卷积神经网络的交通标志检测算法在对现实中复杂的交通场景图像进行交通标志检测时，难以同时解决定位和分类两项任务，并且目标检测领域相关算法所使用的公开数据集提供的图像和交通标志的种类不能满足现实交通场景中复杂的情况。建立一个新的道路交通标志数据集，在YOLOv4算法的基础上针对现实交通场景图像的复杂性和图像中交通标志尺寸差异较大的特点，设计多尺寸特征提取模块和增强特征融合模块，提高算法同时定位和分类交通标志的能力。在此基础上，对算法中不同的模块设置不同的参数进行对照实验，得到一组表现最优的参数，用于检测现实交通场景图片中的交通标志。在道路交通标志数据集上的实验结果表明，该算法相比基于卷积神经网络的同类型任务目标检测算法具有更高的检测精度，平均精度均值达到83.63%。

Traffic Sign Detection Based on Multi-Scale Feature Extraction and Feature Fusion

ZHANG Yongliang¹ , LU Yang^1,2,3 , ZHU Wuqiang¹ , WEI Xing^1,3,4 , WEI Zhen^1,2,3

1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China;
2. Anhui Mine IoT and Security Monitoring Technology Key Laboratory, Hefei 230088, China;
3. Engineering Research Center of Safety Critical Industrial Measurement and Control Technology, Ministry of Education, Hefei 230009, China;
4. Intelligent Manufacturing Institute, Hefei University of Technology, Hefei 230009, China

Abstract: The traffic sign detection algorithm based on Convolutional Neural Networks (CNN) cannot easily solve localization and classification tasks simultaneously when detecting traffic signs in actual complex traffic scene images. Additionally, the images and types of traffic signs provided by the public dataset used in the related algorithms do not satisfy the situations in actual traffic.Hence, this paper presents a new dataset of road traffic signs. Subsequently, to address the complexity of actual traffic scene images and the significant variation in traffic sign sizes in the images, a multisize feature extraction module and an enhanced feature fusion module are designed based on the YOLOv4 algorithm to improve the algorithm's ability in locating and classifying traffic signs simultaneously. Different parameters are set for the different modules in the algorithm to perform comparative experiments, and a set of parameters with the best performance is obtained, which is then used to detect traffic signs in actual traffic scenes. Experimental results obtained based on the newly created dataset show that the improved algorithm achieves a mean average precision of 83.63%, which is higher than those achieved by several well-established object detection algorithms based on CNN for the same type of task.

开放科学（资源服务）标志码（OSID）：

0 概述

随着智能交通系统以及自动驾驶技术的兴起，道路交通问题日益严峻，交通标志检测作为其主要的组成部分，其可靠性至关重要。传统卷积神经网络的交通标志检测方法主要是利用交通标志的颜色和几何特征对其进行检测，这类方法花费大量的时间为不同的交通标志进行人工制作的特征^[1-2]，受到天气变化和遮挡等外部因素的影响非常大。在将传统方法加入机器学习的研究^[3-4]中，通常将检测分成两个步骤，首先利用传统方法定位图片中交通标志的区域，随后使用支持向量机（Support Vector Machines，SVM）分类器^[5]对这些区域中的交通标志进行分类。SVM分类器能够有效缓解外部因素带来的影响，但是这种方法仍然存在需要为不同的交通标志进行人工制作的特征。随着卷积神经网络（Convolutional Neural Networks，CNN）在图像识别领域的应用，CNN强大的学习能力使其迅速在计算机视觉研究领域占据了主导地位。计算机视觉领域主要研究计算机获得对场景理解的能力，这种能力包括对场景中不同的对象进行准确的定位和分类，目标检测正是对这一重要任务的一种概括。通过CNN不断地改进网络结构，目标检测领域产生了RCNN^[6]、Fast R-CNN^[7]、Faster R-CNN^[8]、SSD^[9]、YOLO^[10]等许多优秀的算法。交通标志检测的目的是让计算机能够定位并识别出场景内的所有交通标志，属于目标检测任务的一部分。因此，基于CNN的研究方法同样适用于交通标志检测领域。基于CNN的方法无需像传统交通标志检测方法那样手工制作的特征，而且对于因光线和天气变化等外部因素造成背景不同的交通标志的检测具有鲁棒性。

为了使CNN在目标检测领域取得的成就迁移到交通标志检测领域，许多研究^[11-13]试图直接使用目标检测领域内优秀的算法来检测交通标志，但未能取得理想的效果。目标检测领域的算法在训练和测试时使用PASCAL VOC^[14]和COCO^[15]数据集，这些数据集提供的图像中目标对象的尺寸较大，导致算法检测小尺寸目标的能力较弱，但是在交通场景的图像中，交通标志的尺寸并不以大尺寸为主，也存在许多小尺寸的交通标志，因此，目标检测领域的算法在交通标志检测领域不能发挥出应有的性能。还有一些研究^[16-18]则是针对图像中的交通标志使用VGGNet^[19]、GoogLeNet^[20]和ResNet^[21]作为基础网络，并且借鉴目标检测领域相关算法的结构构建出检测交通标志的算法，但这些算法在面对真实的交通场景图像时不能同时解决定位和分类这两个任务，主要原因是这些算法没有给出有效的方法来检测具有复杂背景和目标对象尺寸差异较大的交通场景图像，并且这些算法所使用的数据集不能满足现实交通场景中遇到的情况。交通标志检测的难点一方面在于交通场景图像背景的复杂性，现实交通场景图像中不仅有很多交通标志，也有很多在形状和颜色上与交通标志相似的标志，这种现象会在检测时干扰算法；另一方面图像中交通标志的尺寸差异很大，并且以小尺寸的交通标志居多，通常小尺寸的目标要比大尺寸的目标更难检测。因此，若要解决交通标志检测中存在的问题，就必须设计一个在复杂的交通场景下既可以检测出大尺寸交通标志，也可以检测出小尺寸交通标志的算法。

目前有关交通标志检测的研究普遍使用的数据集是GTSRB^[22]和GTSDB^[23]。其中，GTSDB提供的数据可用于研究交通标志的定位和分类，但其只提供三大类常见交通标志的图像和标签信息，远远少于现实中所遇见的交通标志的种类。在GTSRB提供的43类交通标志中，交通标志在图像中占据了很大的比例，以至于有些图像中只有一类交通标志，这些图像只能用于研究交通标志的分类而不能同时用于定位和分类。GTSRB、GTSDB数据集中的交通标志和图像是针对德国的道路交通场景，而国内的交通场景相对较为复杂，并且交通标志的种类要远多于上述数据集中的类别。因此，许多通过GTSRB和GTSDB数据集训练出来的检测算法在对国内的交通场景进行检测时不能获得良好的检测结果。

本文针对中国道路交通场景建立一个新的数据集，包含77类国内常见的交通标志，并对每张图像中交通标志的类别和位置进行标注。在YOLOv4算法的基础上，设计多尺寸特征提取模块（Multi-size Feature Extraction Module，MsFEM）和增强特征融合模块（Enhanced Feature Fusion Module，EFFM），其中MsFEM可使特征提取网络提取来自上层特征图中的特征语义信息，EFFM能够在多尺度预测中有效地保留和增强小尺寸目标的特征语义信息，提高算法对小目标的检测能力。

1 相关研究

由上节内容可知，基于CNN的算法已经成为交通标志检测研究领域的主流方法，上述算法的研究与目标检测领域方法的思路一致。目标检测实质上是定位和分类两个任务，这些目标检测方法可以分为2种：第1种称为两阶段，它将检测分成两个步骤，首先定位出图像中存在目标对象的区域，接着对区域中目标对象的类别进行分类；第2种称为一阶段，它将检测作为一个步骤，直接定位和分类出图像中不同目标对象的位置与类别。

R-CNN算法最先使用两阶段方法，首先采用selective search^[24]生成候选区域，接着对包含目标对象的候选区域进行分类，生成的每个候选区域都要经过分类网络的处理，导致R-CNN算法的效率较低。随后，GIRSHICK提出了Fast R-CNN算法，在网络的最后层使用softmax层替代R-CNN算法中的SVM分类器，但依然没有解决效率低的问题。为此，REN提出了Faster R-CNN算法，该算法使用了区域候选网络（Region Proposal Network，RPN），即有效定位包含目标对象区域的网络结构。RPN基于VGG16或者ResNet101提取到的特征图生成候选区域，通过softmax层判断这些候选区域是属于含有目标对象的区域还是不含有目标对象的区域，对含有目标对象的候选区域进行边界回归得到精确的位置信息，完成对目标区域的有效定位，随后将这些候选区域送入到分类网络中进行分类，并再一次通过边界回归获得最终的精确位置。Faster R-CNN中所有候选区域的生成和判别均在RPN上进行，这种操作加快了网络的检测速度，但依然达不到实时性的要求。

为进一步加快网络的检测速度，YOLOv3^[25]和SSD等采用一阶段方法的算法相继被提出，这些算法在设计上借鉴了FCN^[26]的全卷积和FPN^[27]的多尺度预测的思想。多尺度预测是利用特征提取网络得到的不同尺寸的特征图在进行高低层间的特征融合后分别独立地进行预测操作。全卷积与传统的CNN网络使用全连接层进行分类的方式不同，它在网络的最后使用1×1的卷积核代替全连接层，输出的是与前一层输入大小相同的特征图，该特征图上的每一个点就是网络对原始输入图像的某一块区域进行的预测；全卷积的目的在于对图像进行像素级的定位与分类，最后逐个像素地计算位置和类别的损失，相当于每一个像素对应一个训练样本；通过全卷积操作，网络可以减少计算量，从而加快检测速度，并且只需要将图像输入到网络中就能直接预测结果，实现了单阶段检测。SSD和YOLOv3的检测速度要快于Faster R-CNN，但检测精度没有显著提高。为了提高算法的检测精度以及对小尺寸目标检测的能力，YOLOv4^[28]使用CSPDarknet53作为基础特征提取网络并且在多尺度预测方面使用PANet^[29]，这些方法在PASCAL VOC和COCO数据集上被证明是有效的。

目标检测算法在训练和测试时使用的图像中的目标对象尺寸与交通场景图像中的目标对象尺寸之间存在差异，并且交通场景图像的背景十分复杂，这些原因导致目标检测算法在直接检测交通场景图像中的交通标志时不能发挥出应有的性能，但随着网络的不断改进，这些算法能够提供较为先进的研究思路。因此，本文结合交通场景图像中交通标志的分布特点，对YOLOv4进行改进，提出一个有效检测交通标志的算法。

2 交通标志数据集 2.1 数据来源

本文建立的数据集中的图像是基于中国城市道路交通场景所拍摄的，其中40%的图像是由ZHU^[30]和ZHANG^[31]及其他们的团队所提供的，其余的是由本文通过相机拍摄大量有关城市道路交通场景的图像并将这些照片经过筛选和裁剪后所得。为了保持图像中真实的道路场景和交通标志，本文将这些图像尺寸统一成800×800像素，部分图像如图 1所示。这些图像在不同路况的场景下拍摄，图像的背景和照片中交通标志的尺寸都与现实中遇到的真实情况一致。

	Download: JPG larger image
图 1 交通场景图像 Fig. 1 Traffic scene images

2.2 数据标注

如图 2所示，数据集中包含77种常见的交通标志，图中每种颜色的框代表一个大的类别，从左到右依次为指示类、禁止类、警告类和交通信号灯，每种交通标志下的字符代表其独特的标签（彩图效果见《计算机工程》官网HTML版）。在对图像中的交通标志进行标注时，本文以矩形框的形式标出图像中交通标志的位置并且给每个交通标志加上特定的类别标签。这些标注信息以XML文件格式进行保存并在训练和测试时提供所需要的标签信息。

	Download: JPG larger image
图 2 交通标志类别 Fig. 2 Traffic sign category

2.3 数据统计

通过对120 000张交通图像进行拣选和裁剪，数据集最终由包含15 000个交通标志实例的11 000张图像构成。数据集中交通标志的尺寸（以像素为单位）分布情况如图 3所示。数据集中有些带数字的具有相同属性的交通标志（如pl50和pl60、il50和il60等）在训练和检测时将按照各自的属性分成一类（pl代表限速标志，il代表最低速度标志），每种交通标志的实例数量如图 4所示。

	Download: JPG larger image
图 3 交通标志尺寸分布 Fig. 3 Traffic sign size distribution

	Download: JPG larger image
图 4 交通标志类别分布 Fig. 4 Traffic sign category distribution

3 本文方法

YOLOv4算法在对具有复杂背景和目标对象尺寸差异较大的交通场景图片进行检测时没有表现出良好的效果。为此，本文算法以交通标志检测中所存在的问题为背景，对YOLOv4算法进行改进，改进算法称为ME-YOLOv4。下文将分别介绍YOLOv4和ME-YOLOv4的结构。

3.1 YOLOv4结构

YOLOv4结构由以下4个部分组成：CSPDarknet53作为基础网络；SPP^[32]作为颈部的附加模块；PANet作为颈部的特征融合模块；YOLOv3的Head作为头部结构。

YOLOv4具体结构如图 5所示。作为YOLOv4中的基础网络，CSPDarknet53是在Darknet53的每个大残差块上加上CSP^[33]，最终由一个卷积模块加上5个BLOCK组成；卷积模块是由Conv2D层、BN层和Mish激活函数组成；每个BLOCK包含若干个Resblock和卷积模块。作为颈部中的附加模块，SPP模块对CSPDarknet53提取到的特征图进行不同尺寸的最大池化（MaxPooling）操作，其目的是增加网络的感受野。作为颈部的特征融合模块，PANet在FPN的上采样（UpSampling）操作后又进行了下采样（DownSampling）操作，增加来自低层的位置语义信息。YOLOv4的头部继续沿用YOLOv3的头部结构，在该结构中，首先使用卷积模块对下采样得到的特征图进行特征提取，然后对特征提取过的特征图进行全卷积操作得到最终的预测结果。颈部和头部结构中的卷积模块是由Conv2D层、BN层和Leaky ReLU激活函数组成。

	Download: JPG larger image
图 5 YOLOv4结构 Fig. 5 YOLOv4 structure

在图 5中，concat表示拼接两个输入，add表示将两个输入相加，Resblock表示残差结构，UpSampling表示上采样，DownSampling表示下采样，Head表示YOLOv3的头部结构，Predict表示预测值，BLOCK表示具有多个残差结构的块，Resblock×n中n代表特定BLOCK块中Resblock结构的数量。

3.2 ME-YOLOv4结构

ME-YOLOv4是在YOLOv4的基础上进行的改进，具体如下：

1）由于拍摄角度的不同，交通场景图像中不同交通标志的尺寸存在较大的差异。在构建特征提取网络时，如果网络对每层的特征提取仅使用一个尺寸的卷积核，那么提取到的特征图不能全面有效地包含上层图像中不同尺寸交通标志的特征语义信息。受到Inception^[34]网络的启发，本文设计了多尺寸特征提取模块（Multi-size Feature Extraction Module，MsFEM），并将其应用在特征提取网络中。MsFEM的具体结构如图 6所示，首先使用2个不同尺寸（s，m）的卷积核对上层的图像进行特征提取，然后将提取到的两个特征图拼接在一起。MsFEM采用不同尺寸的卷积核意味着对图像使用不同大小的感受野，这有利于提取不同尺寸交通标志的特征语义信息。为了将图像中不同尺寸交通标志的特征语义信息向特征提取网络的深层进行传递，MsFEM将提取到的特征图拼接在一起。

	Download: JPG larger image
图 6 MsFEM结构 Fig. 6 MsFEM structure

2）交通场景图像背景复杂，除交通标志外，还存在许多在颜色或者形状上与交通标志相似的其他标志。特征提取网络在提取特征时也会提取这些标志的特征语义信息，这些错误的特征语义信息会在训练时干扰网络。如果在网络提取特征时能够有效地去除这些标志，那么提取到的特征图更加具有代表性，这将会使网络获得更好的训练效果。本文中的交通标志可分为警告类、禁止类、指示类、交通信号灯。警告类大多是带有黑色边界的黄色三角形；禁止类大多是带有红色边界的白色圆形；指示类大多是蓝色背景的圆形或者矩形；交通信号灯是带有不同颜色圆圈或箭头的矩形框。根据CNN特征提取不变性的特点，特征提取网络在对交通场景图像进行特征提取时，交通标志的以上特征被完整地提取出来。因此，适当地对提取到的特征图进行一系列过滤器尺寸不同且步长为1的MaxPooling操作，可使得该特征图中除交通标志以外的其他标志的特征语义信息被削减。因此，本文采用上述方式来去除交通场景图像中存在的干扰因素。特征提取网络中特征图的尺寸会随着下采样的过程减小，尺寸越小的特征图代表着越大的感受野。为了适应这种变化，本文对不同尺寸的特征图使用不同尺寸过滤器的MaxPooling操作，每个MaxPooling操作发生在一次下采样的过程中。具体过程如图 7所示，其中MsFEM、MaxPooling（sizen×sizen，s1）和EFFM模块是本文的改进之处。

	Download: JPG larger image
图 7 ME-YOLOv4结构 Fig. 7 ME-YOLOv4 structure

3）在FPN中通过上采样的方式将高层的特征语义信息与低层的特征语义信息进行融合，目的在于使高层的特征语义信息去弥补低层中未提取到的特征语义信息。这种方式虽能够丰富各尺寸特征图的特征语义信息，但是也存在局限性。特征提取网络在下采样的过程中会按照比例缩小特征图的尺寸，导致特征图中一个像素点相当于一个感受野，这个感受野映射原图中的一块区域并且该区域的大小由下采样的倍数决定。当图像中被检测目标的尺寸小于当前下采样倍数时，这个被检测目标的特征语义信息就会随着下采样的过程而被遗失。在这种情况下，UpSampling操作就不能对图像中那些因尺寸小而被遗失的目标实现高低层之间的特征语义信息融合。这种情况导致的结果是网络对小目标检测能力较差。本文提出的数据集中存在一定数量的小尺寸的交通标志，为解决以上问题并提高网络对数据集中交通标志整体的检测能力，本文设计了增强特征融合模块（EFFM），具体结构如图 8所示，其中，3和1分别表示卷积核的尺寸。首先在高层特征图与低层特征图进行特征融合之前，EFFM使用卷积模块对低层特征图进行特征提取，这样做的目的是为了进一步提取该层特征图中有效的特征语义信息尤其是对于尺寸较小目标的特征语义信息。接着EFFM将低层中经过卷积模块提取得到的特征图与来自高层的特征图进行特征融合，对特征融合后的特征图使用一个卷积模块进行特征压缩。最后为了保持低层特征图中的位置语义信息，EFFM将低层中未经过卷积模块的特征图通过残差方式与特征压缩后的特征图拼接在一起。通过EFFM结构，低层最终得到的特征图既丰富了原有的特征语义信息，又能够得到来自高层的特征语义信息。

	Download: JPG larger image
图 8 EFFM结构 Fig. 8 EFFM structure

4 实验 4.1 训练集

本文所有实验均在新建立的数据集上进行并对数据集按照8∶2的比例划分出训练集和测试集。此外，本文使用mosaic^[28]方法对数据集中样本数少的类别进行数据增强，以此来保证每个类别在一次迭代训练中都能够被训练一定的次数。

为验证改进方法的有效性，本文从目标检测领域典型的算法中分别选取SSD、YOLOv3、YOLOv4和Faster R-CNN，将选取的这些算法和ME-YOLOv4设置了一组对照实验；另外，还对ME-YOLOv4中的MsFEM1、MsFEM2和MaxPooling（sizen×sizen）模块设置了几组不同的参数进行实验，目的是确定一组在数据集上表现较好的参数，这些参数是为适应新建立的数据集中交通标志的尺寸来设定，具体每组的参数设置如表 1所示。在训练时，每组算法使用相同的超参数设置：初始学习率设为0.001，使用Adam优化器，衰减系数为0.000 5，动量为0.9，IoU阈值设置为0.5，并且从训练集中按照7∶3的比例划分出验证集来监视整个训练过程。所有实验在1台配备Intel Xeon^® Silver 4210 CPU、128 GB内存和2个NVIDIA TITAN RTX GPUs的Linux服务器上运行，并且使用Tensorflow深度学习框架。

下载CSV 表 1 参数设置 Table 1 Parameter setting

4.2 实验结果与分析

本文运用上述各组算法的训练权重对测试集进行检测，并使用PASCAL VOC测试的评价指标来评估每组算法在测试集上取得的结果。每组算法在数据集上取得的平均精度均值（mean Average Precision，mAP）如表 2所示，其中加粗字体为最优值。

下载CSV 表 2 各组算法的mAP值 Table 2 mAP value of each group algorithms

从表 2可以看出，在数据集上，ME-YOLOv4 I~ME-YOLOv4 IV四组算法取得的mAP值分别为82.55%、82.90%、83.63%、83.48%，SSD、YOLOv3、YOLOv4和Faster R-CNN取得的mAP值分别为76.22%、75.72%、80.37%和77.13%。本文改进的算法取得的最好的mAP值比SSD、YOLOv3、YOLOv4和Faster R-CNN取得的mAP值分别高出7.41、7.91、3.26、6.5个百分点。实验结果表明，本文改进方法提高了YOLOv4算法同时定位和分类交通标志的能力，也表明了ME-YOLOv4 III算法对交通标志检测的能力优于其他的算法。该算法也可被用于检测现实交通场景图片中的交通标志。

在数据集中每个类别上取得的平均精度（Average Precision，AP）值如表 3所示，其中加粗字体为最优值。从表 3可以看出，在所有类别上ME-YOLOv4 I~ ME-YOLOv4 IV四组算法取得的最小AP值分别是0.34、0.36、0.40、0.40，SSD、YOLOv3、YOLOv4和Faster R-CNN取得的最小AP值分别是0.23、0.29、0.35和0.26。此外，在每个类别上，ME-YOLOv4 I~ME-YOLOv4 IV四组算法取得AP值大于0.7的类别数占总类别数的比例分别是82%、83%、85%、90%，SSD、YOLOv3、YOLOv4和Faster R-CNN取得AP值大于0.7的类别数占总类别数的比例分别是73%、74%、77%、73%。

表 3 各组算法在每个类别上的AP值 Table 3 AP value of each group of algorithms on each category

算法	i2	i3	i4	i5	i10	i11	i12	i14	i15	i17	i18	i19	i20	i21
SSD	0.92	0.81	0.92	0.89	0.83	0.37	0.8	0.77	0.43	0.96	0.94	0.54	0.49	0.63
YOLOv3	0.83	0.75	0.96	0.86	0.72	0.4	0.68	0.86	0.30	0.53	0.73	0.79	0.93	0.77
YOLOv4	0.86	0.83	0.94	0.92	0.64	0.35	0.60	0.75	0.37	0.73	1.00	1.00	0.95	0.85
Faster R-CNN	0.89	0.72	0.90	0.91	0.90	0.45	0.78	0.73	0.59	0.95	1.00	0.74	0.57	0.59
ME-YOLOv4 I	0.82	0.75	0.98	0.92	0.87	0.4	0.62	0.62	0.34	0.65	1.00	1.00	0.99	0.98
ME-YOLOv4 II	0.82	0.75	0.96	0.91	0.86	0.4	0.62	0.62	0.36	0.70	1.00	1.00	0.99	0.98
ME-YOLOv4 III	0.85	0.78	0.96	0.91	0.74	0.4	0.61	0.72	0.4	0.62	0.96	0.99	0.91	0.92
ME-YOLOv4 IV	0.82	0.75	0.96	0.89	0.66	0.4	0.69	0.78	0.47	0.68	1.00	0.98	0.96	1.00

算法	i22	i23	i25	il	ip	p1	p3	p5	p6	p9	p10	p11	p12	p19
SSD	0.51	1.0	0.67	0.98	0.85	0.84	0.93	0.92	0.87	0.91	0.90	0.92	0.68	0.90
YOLOv3	0.84	0.72	0.78	0.93	0.70	0.60	0.86	0.81	0.73	0.92	0.76	0.79	0.58	0.89
YOLOv4	0.90	1.00	0.76	0.95	0.81	0.8	0.88	0.82	0.92	0.83	0.85	0.89	0.58	1.00
Faster R-CNN	0.64	1.0	0.78	1.0	0.87	0.89	1.00	0.90	0.90	0.88	0.98	0.90	0.64	0.90
ME-YOLOv4 I	0.95	1.0	0.78	0.98	0.73	0.80	1.00	0.95	0.99	1.00	1.00	0.93	0.7	1.00
ME-YOLOv4 II	0.95	1.0	0.78	0.95	0.73	0.90	1.00	0.95	1.0	1.00	1.00	0.93	0.67	0.96
ME-YOLOv4 III	0.86	1.0	0.78	0.93	0.73	0.90	1.00	0.94	0.92	0.99	0.92	0.95	0.83	0.92
ME-YOLOv4 IV	0.95	1.0	0.78	0.98	0.65	0.90	0.91	1.00	0.90	0.90	0.99	0.97	0.58	1.00

算法	p23	p26	p27	p28	pb	pg	ph4	ph4.5	ph5	pl	pm	pn	pne	pr
SSD	0.95	0.85	0.78	0.73	0.98	0.94	0.92	0.91	0.35	0.95	0.86	0.90	0.87	0.96
YOLOv3	0.90	0.64	0.7	0.89	1.00	0.81	0.78	0.82	0.29	0.91	0.37	0.91	0.81	0.96
YOLOv4	0.85	0.98	0.75	0.78	1.00	1.00	0.90	0.93	0.62	0.98	0.85	0.95	0.81	0.98
Faster R-CNN	0.97	0.87	0.63	0.69	1.00	0.90	0.94	0.50	0.39	0.90	0.70	0.90	0.93	0.99
ME-YOLOv4 I	0.94	0.96	0.80	0.67	1.00	1.00	0.94	0.95	0.71	0.97	0.97	0.94	0.89	1.00
ME-YOLOv4 II	0.94	0.96	0.80	0.65	1.00	1.00	0.88	0.94	0.82	0.96	0.96	0.92	0.85	1.00
ME-YOLOv4 III	0.98	0.95	0.70	0.86	1.00	1.00	0.90	1.00	0.76	0.98	0.89	0.94	0.85	1.00
ME-YOLOv4 IV	0.86	0.93	0.90	0.82	1.00	1.00	0.90	1.00	0.86	0.96	0.94	0.91	0.85	1.00

算法	ps	w10	w13	w18	w21	w22	w30	w31	w32	w41	w42	w43	w45	w47
SSD	0.99	0.73	0.83	0.40	0.23	0.73	0.78	0.81	0.72	0.82	0.51	0.68	0.57	0.66
YOLOv3	1.00	0.80	0.80	0.86	0.48	0.80	0.82	0.80	0.73	0.97	0.57	0.85	0.58	0.60
YOLOv4	0.80	0.75	0.83	0.86	0.67	0.66	0.90	0.69	0.86	0.82	0.71	0.66	0.64	0.58
Faster R-CNN	1.00	0.63	0.85	0.47	0.26	0.71	0.80	0.89	0.72	0.81	0.65	0.72	0.54	0.72
ME-YOLOv4 I	0.60	0.76	0.92	0.86	0.85	0.76	0.99	0.70	0.73	0.85	0.76	0.92	0.58	0.76
ME-YOLOv4 II	0.62	0.76	0.92	0.81	0.85	0.78	0.97	0.72	0.73	0.85	0.76	0.90	0.58	0.76
ME-YOLOv4 III	0.80	0.79	0.99	0.82	0.67	0.76	0.910	0.91	0.73	1.00	0.66	0.83	0.58	0.72
ME-YOLOv4 IV	0.80	0.90	0.81	0.82	0.78	0.89	0.90	0.84	0.67	0.91	0.73	0.85	0.58	0.58

算法	w55	w57	w58	w59	lred	lgreen	strred	strgreen	rred	rgreen	strgreennum	strrednum
SSD	0.86	0.87	0.63	0.84	0.78	0.49	0.46	0.80	0.28	0.70	0.76	0.77
YOLOv3	0.89	0.85	0.8	0.82	0.61	0.67	0.55	0.66	0.86	0.55	0.81	0.95
YOLOv4	0.93	0.97	0.72	0.90	0.77	0.43	0.55	0.79	0.59	0.68	0.78	0.95
Faster R-CNN	0.87	0.89	0.79	0.80	0.81	0.39	0.52	0.8	0.27	0.75	0.65	0.81
ME-YOLOv4 I	0.89	0.80	0.70	0.81	0.76	0.42	0.58	0.71	0.54	0.67	0.77	0.95
ME-YOLOv4 II	0.87	0.93	0.70	0.87	0.74	0.47	0.59	0.71	0.67	0.67	0.77	0.95
ME-YOLOv4 III	0.89	0.98	0.66	0.76	0.72	0.82	0.61	0.81	0.82	0.66	0.78	0.95
ME-YOLOv4 IV	0.87	0.88	0.70	0.74	0.80	0.70	0.58	0.73	0.80	0.76	0.72	0.95

下载CSV 表 3 各组算法在每个类别上的AP值 Table 3 AP value of each group of algorithms on each category

5 结束语

针对交通标志检测领域存在的问题，本文建立一个新的交通标志数据集，并基于YOLOv4算法设计多尺寸特征提取模块和增强特征融合模块最终对改进算法中不同的模块设置多组不同的参数，进行对比实验。实验结果表明，改进算法能够有效地提高YOLOv4算法同时定位和分类交通标志的能力。下一步将继续扩大数据集中交通标志的种类和数量，提高算法在背景复杂的交通图像中检测与识别尺寸差异较大的交通标志的能力。

参考文献

[1]	SAPONARA S. Real-time color/shape-based traffic signs acquisition and recognition system[C]//Proceedings of SPIE'13. Washington D. C., USA: IEEE Press, 2013: 94-99.
[2]	刘洋, 黄大荣. 基于多颜色空间级联分类的交通标志图像颜色标准化[J]. 计算机工程, 2020, 46(9): 233-241. LIU Y, HUANG D R. Color standardization of traffic sign images based on multi-color space cascade classification[J]. Computer Engineering, 2020, 46(9): 233-241. (in Chinese) DOI:10.19678/j.issn.1000-3428.0057802
[3]	FLEYEH H, BISWAS R, DAVAMI E. Traffic sign detection based on AdaBoost color segmentation and SVM classification[C]//Proceedings of EUROCONʼ13. Washington D. C., USA: IEEE Press, 2013: 2005-2010.
[4]	MALDONADO-BASCON S, LAFUENTE-ARROYO S, GIL-JIMENEZ P, et al. Road-sign detection and recognition based on support vector machines[J]. IEEE Transactions on Intelligent Transportation Systems, 2007, 8(2): 264-278. DOI:10.1109/TITS.2007.895311
[5]	王海, 翁晨傲, 李克, 等. 一种面向基站扇区方向角估计的改进SVM算法[J]. 计算机工程, 2021, 47(4): 120-126. WANG H, WENG C A, LI K, et al. An improved SVM algorithm for azimuth estimation of base station sector[J]. Computer Engineering, 2021, 47(4): 120-126. (in Chinese)
[6]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2014: 580-587.
[7]	GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1440-1448.
[8]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[9]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[10]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
[11]	QIAO K, GU H Z, LIU J M, et al. Optimization of traffic sign detection and classification based on faster R-CNN[C]//Proceedings of International Conference on Computer Technology, Electronics and Communication. Dalian, China: [s. n. ], 2017: 608-611.
[12]	LI J, WANG Z F. Real-time traffic sign recognition based on efficient CNNs in the wild[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(3): 975-984. DOI:10.1109/TITS.2018.2843815
[13]	RAJENDRAN S P, SHINE L, PRADEEP R, et al. Real-time traffic sign recognition using YOLOv3 based detector[C]//Proceedings of the 10th International Conference on Computing, Communication and Networking Technologies. Washington D. C., USA: IEEE Press, 2019: 1-7.
[14]	EVERINGHAM M, ESLAMI S M A, GOOL L, et al. The pascal visual object classes challenge: a retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136. DOI:10.1007/s11263-014-0733-5
[15]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 740-755.
[16]	LIU Z G, DU J, TIAN F, et al. MR-CNN: a multi-scale region-based convolutional neural network for small traffic sign recognition[J]. IEEE Access, 2019, 7: 57120-57128. DOI:10.1109/ACCESS.2019.2913882
[17]	TABERNIK D, SKOČAJ D. Deep learning for large-scale traffic-sign detection and recognition[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(4): 1427-1440. DOI:10.1109/TITS.2019.2913588
[18]	LEE H S, KIM K. Simultaneous traffic sign detection and boundary estimation using convolutional neural network[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(5): 1652-1663. DOI:10.1109/TITS.2018.2801560
[19]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-07-01]. https://arxiv.org/abs/1409.1556.
[20]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1-9.
[21]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[22]	STALLKAMP J, SCHLIPSING M, SALMEN J, et al. The German traffic sign recognition benchmark: a multi-class classification competition[C]//Proceedings of International Joint Conference on Neural Networks. Washington D. C., USA: IEEE Press, 2011: 1453-1460.
[23]	STALLKAMP J, SCHLIPSING M, SALMEN J, et al. Man vs. computer: benchmarking machine learning algorithms for traffic sign recognition[J]. Neural Networks, 2012, 32: 323-332. DOI:10.1016/j.neunet.2012.02.016
[24]	UIJLINGS J R R, SANDE K, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. DOI:10.1007/s11263-013-0620-5
[25]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-07-01]. https://arxiv.org/abs/1804.02767.
[26]	SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651. DOI:10.1109/TPAMI.2016.2572683
[27]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[28]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-07-01]. https://arxiv.org/abs/2004.10934.
[29]	LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8759-8768.
[30]	ZHU Z, LIANG D, ZHANG S H, et al. Traffic-sign detection and classification in the wild[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2110-2118.
[31]	ZHANG J M, HUANG M T, JIN X K, et al. A real-time Chinese traffic sign detection algorithm based on modified YOLOv2[J]. Algorithms, 2017, 10(4): 127. DOI:10.3390/a10040127
[32]	HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[33]	WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 1571-1580.
[34]	SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Proceedings of the 31th AAAI Conference on Artificial Intelligence. [S. 1. ]: AAAI Press, 2017: 4278-4284.