«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (9): 55-62  DOI: 10.19678/j.issn.1000-3428.0062843
0

引用本文  

邓天民, 谭思奇, 蒲龙忠. 基于改进YOLOv5s的交通信号灯识别方法[J]. 计算机工程, 2022, 48(9), 55-62. DOI: 10.19678/j.issn.1000-3428.0062843.
DENG Tianmin, TAN Siqi, PU Longzhong. Traffic Light Recognition Method Based on Improved YOLOv5s[J]. Computer Engineering, 2022, 48(9), 55-62. DOI: 10.19678/j.issn.1000-3428.0062843.

基金项目

国家重点研发计划(SQ2020YFF0418521);中央引导地方科技发展专项(CSTC2020JSCX-DXWTB0003);川渝联合实施重点研发项目(CSTC2020JSCX-CYLHX0007)

作者简介

邓天民(1979—),男,副教授、博士,主研方向为交通大数据、自动驾驶、交通控制;
谭思奇,硕士研究生;
蒲龙忠,硕士研究生

文章历史

收稿日期:2021-09-29
修回日期:2021-11-16
基于改进YOLOv5s的交通信号灯识别方法
邓天民 , 谭思奇 , 蒲龙忠     
重庆交通大学 交通运输学院, 重庆 400074
摘要:交通信号灯的检测与识别是提升无人驾驶系统安全性的关键技术,传统基于深度学习的识别方法不能在精度和速度之间达到较好的平衡,难以满足实际环境下的检测要求。YOLOv5具有网络规模小的优势,适合在交通场景下进行交通信号灯检测。对YOLOv5网络进行改进,提出TL-YOLOv5s网络用于交通信号灯识别。通过简化主干网络中卷积层的数量提高特征提取效率,同时对残差组件进行密集连接和多层次跨连接,得到2种新的CSP残差结构替换原网络中的残差结构,增强网络特征融合能力,提高识别精度。考虑到交通信号灯的小目标属性,在网络中保留中小目标检测尺度而去除大目标检测尺度,进一步提升识别速率。在法国巴黎LaRA信号灯数据集上进行实验,结果表明,TL-YOLOv5s网络mAP值达到70.1%,相比于基线网络YOLOv5提升6.3个百分点,且检测速度达到22.4 frame/s,能够满足现实环境下的实时性要求。
关键词交通信号灯    目标检测    深度学习    图像处理    小尺度目标    
Traffic Light Recognition Method Based on Improved YOLOv5s
DENG Tianmin , TAN Siqi , PU Longzhong     
College of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, China
Abstract: The detection and recognition of traffic lights are critical to improving the safety of unmanned driving systems.Existing recognition methods based on deep learning cannot achieve a good balance between accuracy and speed; hence, it is difficult to satisfy the detection requirements in actual environments.YOLOv5 has the advantage of a small network scale and is suitable for traffic signal detection in traffic scenarios.This study proposes the TL-YOLOV5s network for traffic signal light recognition by improving the YOLOv5 network.By simplifying the number of convolutional layers in the backbone network, the efficiency of feature extraction is improved.In addition, the residual components are densely connected and multilevel cross-connected, and two new CSP residual structures are obtained to replace the residual structure in the original network; thus, the feature fusion ability of the network is strengthened, and the recognition accuracy is improved.Based on the small target attribute of traffic lights, the detection scales of small and medium targets are retained in the network, and the detection scale of large targets is removed to further improve the recognition rate.The experiment is conducted for a LaRA dataset of traffic lights in Paris, France.The results show that the mAP value of the TL-YOLOV5s network reaches 70.1%, which is 6.3 percentage points higher than that of baseline network, YOLOv5.Furthermore, the detection speed reaches 22.4 frame/s, which can satisfy the real-time requirements in actual environments.
Key words: traffic light    target detection    deep learning    image processing    small-scale target    

开放科学(资源服务)标志码(OSID):

0 概述

近年来,无人驾驶技术迎来了快速的发展,对无人驾驶场景中行人[1]、交通标志[2]等目标进行检测与识别的研究逐渐增多。交通信号灯在无人驾驶场景中扮演着极其重要的角色,因此,交通信号灯的检测与识别研究具有重要意义。目前基于深度学习的相关研究较少,主要运用两阶段检测和一阶段检测这两类方法。在两阶段检测中,具有代表性的算法有RCNN[3]、Fast-RCNN[4]、Faster R-CNN[5]等。文献[6]设计了一种基于CIFAR-10的多任务卷积神经网络来对复杂环境下的交通信号灯进行检测,但是网络模型的泛化性和鲁棒性不足。两阶段算法需要进行多次的检测和分类流程,检测速度相对较慢,因而研究者提出了一阶段检测方法,其中具有代表性的算法有YOLO[7-9]、SSD[10-11]、SqueezeDet[12]等。一阶段检测方法的特点是候选框的产生和分类同时进行,一步到位,检测速度相对较快。文献[13]提出了Split-CS-Yolo算法对交通信号灯进行快速检测与识别,该方法鲁棒性较好但是对黄色信号灯和数字信号灯的检测精度还有待提高。文献[14]对YOLOv3进行改进,通过在Darknet53的第2个残差块中增加2个残差单元来提高网络对小目标的检测性能,所提出的改进网络能够达到较高的检测精度,但不满足实时性的要求。可见,以上改进方法对交通信号灯的检测效果都不能满足实际需求,在检测速度和检测精度之间难以达到较好的平衡。

本文通过改进YOLOv5s算法,提升对交通信号灯的识别精度和检测速度。设计一种基于密集连接的CSP残差模块来替换原网络模型主干网络中的残差结构,使得主干网络能更准确地对信号灯的特征进行提取,进而提高网络的检测精度。同时,设计一种基于多层次的跨连接CSP残差模块来替换颈部网络中的残差结构,增强网络的特征融合能力。为加快网络模型的检测速度,对检测尺度进行改进,考虑交通信号灯属于小目标的属性,只保留小目标检测尺度。在此基础上,采用巴黎交通信号灯LaRA数据集进行实验,验证本文方法的有效性。

1 YOLOv5s网络模型

YOLOv5网络共有4个版本,分别为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。YOLOv5s是该系列检测网络中深度和特征图宽度最小的网络,其他几个版本的网络都是在此基础上进行加深和加宽的。相比于其他系列的YOLO检测网络,YOLOv5的权重文件相对较小,权重最小的YOLOv5s仅27 MB,权重最大的YOLOv5x也只有170 MB。因此,基于体积小的优势,YOLOv5非常适合部署到嵌入式的设备中。实现对交通信号灯的检测是无人驾驶的重要环节,而YOLOv5非常适合应用在交通场景下对交通信号灯进行检测[15]。基于对权重文件大小、识别精度和检测速度的综合考虑,本文选择检测速度较快、识别精度较高的YOLOv5s进行研究,对其网络结构进行改进。

YOLOv5s网络结构如图 1所示,其中的主干网络对输入的图像进行了5次下采样来提取图像的特征,主干网络包含Focus、CBH、CSP1-x、SPP[16]4种模块。

Download:
图 1 YOLOv5s网络结构 Fig. 1 YOLOv5s network structure

输入YOLOv5s网络的图像通过Focus模块进行自我复制,然后进行切片操作,以此来减少网络的计算量,加快对候选区域特征提取的速度。切片的图像通过CBH模块进行卷积、归一化和激活操作,然后进行特征提取。在特征提取的过程中,CSP1-x残差结构用于优化网络中的梯度信息,减少推理计算量,加快计算速度。最后,SPP模块将不同尺寸的输入转换为相同大小的输出,解决输入图像尺寸不统一的问题。YOLOv5的Neck网络使用了ReLU激活函数,采用FPN[17]+PAN[18]网络结构,其中FPN层通过自顶向下对图像进行上采样,将提取到的特征与主干网络中提取到的特征进行融合。在FPN层之后,还添加了一个自底向上的特征金字塔结构,用于对图像进行降采样,将提取到的特征和FPN层提取到的特征进行融合。通过FPN+PAN网络结构可以对主干网络和检测网络提取的特征进行聚合,增强网络特征融合的能力。此外,Neck网络中还加入了CSP2-x结构对提取的特征进行融合。输出端采用CIoU[19]作为Bounding box的损失函数,并且提供了3种不同的检测尺度(20×20、40×40、80×80)。

2 YOLOv5s网络模型改进 2.1 CSPD-x残差结构改进

YOLOv5s网络中有3处CSP1-x结构,该结构借鉴了CSPNet[20]的思路,把基础层的特征映射为2个部分,然后通过跨阶段层次结构进行合并,从而减少计算量和提高运行速度,同时保证精度。CSP1-x残差结构如图 2所示。

Download:
图 2 CSP1-x残差结构 Fig. 2 CSP1-x residual structure

CSP1-x残差组件的设计借鉴了ResNet[21]网络的设计思想,通过在卷积层之间增加跨连接(Shortcut)方式,减少网络模型的计算量,加快运行效率。跨连接(Shortcut)和CSP1-x残差组件结构分别如图 3图 4所示。

Download:
图 3 Shortcut连接 Fig. 3 Shortcut connection
Download:
图 4 CSP1-x残差组件结构 Fig. 4 CSP1-x residual component structure

为了更好地解决梯度发散的问题,文献[22]提出了DenseNet网络。在DenseNet中,每两个卷积层之间都添加了跨连接,密集跨连接的方式使得各卷积层获取的特征都能向后进行传递并且相互融合,因此,提取到的特征也更丰富和多样化。DenseNet核心表达式如式(1)所示:

$ {x}_{k}={H}_{k}\left(\left[{x}_{0}, {x}_{1}, \cdots , {x}_{k-1}\right]\right) $ (1)

其中:$ {x}_{k} $表示第$ k $层网络的输出;$ \left[{x}_{0}, {x}_{1}, \cdots , {x}_{k-1}\right] $表示将第0层到第$ k-1 $层网络提取的特征进行合并;$ {H}_{k} $表示包括卷积层、归一化层和ReLu激活函数层的组合方式。DenseNet结构如图 5所示。

Download:
图 5 DenseNet网络结构 Fig. 5 DenseNet network structure

基于DenseNet网络结构,本文设计了新的unit组件D-unit(Dense-unit)。D-unit依旧采用1×1和3×3两种大小的卷积核、归一化层和Hardwish激活函数层。通过在原来的基础上对每个CBH模块之间都添加跨连接,使得各个模块紧密连接,从而更好地解决深度网络模型退化问题。D-unit残差组件结构如图 6所示。

Download:
图 6 D-unit残差组件结构 Fig. 6 D-unit residual component structure

首先,输入的特征信息经过第1个CBH模块,该模块含有1×1大小的卷积核;然后,将卷积后得到的特征信息与输入的信息进行融合输出到第2个CBH模块进行卷积,第2个CBH模块采用3×3大小的卷积核,能得到与第1个CBH模块不同的特征信息;最后,将最开始输入到D-unit的特征信息与第1个CBH模块和第2个CBH模块得到的特征信息进行融合,将融合后的特征信息输入到下一个特征提取结构中。

改进后CSPD-x的残差组件以跨连接的方式将各卷积层进行密集连接,主要是为了防止模型的退化,使得模型可以更快地收敛到最优解。密集连接能够对特征进行重利用,使特征相互融合,而对融合后的特征进行提取能够获得更多的目标信息,提高识别的精度。CSPD-x结构如图 7所示。

Download:
图 7 CSPD-x残差结构 Fig. 7 CSPD-x residual structure
2.2 CSPS-x残差结构改进

YOLOv5s网络中还使用了另一种残差结构——CSP2-x。与CSP1-x结构不同,CSP2-x结构主要是对输入的特征图进行卷积,并对所提取到的特征信息进行融合。在CSP2-x结构中,残差组件的作用仅仅是对输入图像的特征信息进行提取。CSP2-x残差结构如图 8所示。

Download:
图 8 CSP2-x残差结构 Fig. 8 CSP2-x residual structure

通过对原残差组件的分析,本文设计了一种新的残差组件S-unit(Shortcut-unit)。该结构由4个CBH模块组成,卷积核的大小分别对应为1×1、3×3、1×1、3×3。各个模块之间通过多个跨连接方式相互连接。分别在第1个和第2个、第3个和第4个CBH模块间加入跨连接,然后再将第2个和第4个CBH模块之间进行跨连接。原始输入的特征信息通过第1个卷积核大小为1×1的CBH模块,提取后的特征信息输入到第2个卷积核大小为3×3的CBH模块,将原始输入的特征信息和第2个CBH模块所提取到的信息进行融合再输入到第3个卷积核大小为1×1的CBH模块,得到的特征信息和第1个CBH模块所提取到的信息融合后输入到第4个卷积核大小为3×3的CBH模块,第4个CBH模块输出的结果和第1个CBH模块所得到的特征信息融合后再输入到后面的卷积网络层。S-unit残差组件与原网络残差组件对比如图 9所示。

Download:
图 9 S-unit残差组件和原网络残差组件结构 Fig. 9 S-unit residual component structure and the original network residual component structure

在原结构中,CSP2-x残差组件的作用主要是对特征图的特征信息进行提取,各卷积层之间的特征信息并没有相互融合,这样会导致随着卷积层层数增加提取到的特征信息部分丢失。此外,原结构直接将各卷积层连接起来,会导致训练时网络模型的退化,且梯度容易发散,难以收敛到最优的结果。CSPS-x残差结构通过跨连接的方式对各层提取到的特征信息进行融合,有效地解决了特征信息丢失的问题,而且还能防止模型的退化,使得对网络的训练更容易进行。CSPS-x残差结构如图 10所示。

Download:
图 10 CSPS-x残差结构 Fig. 10 CSPS-x residual structure
2.3 检测尺度改进

原YOLOv5s网络共有3种规格的检测尺度,分别为20×20、40×40、80×80。20×20检测尺度的感受野为32×32大小的像素区域,主要用于检测大型物体;40×40检测尺度的感受野为16×16大小的像素区域,主要用于检测中等大小的物体;80×80检测尺度的感受野为8×8大小的像素区域,主要用于检测小型物体。

由于交通信号灯在交通场景下属于较小的目标,因此本文对原YOLOv5s的3种检测尺度进行改进,保留40×40和80×80这两种针对中小型目标的检测尺度,去除20×20这一针对大型目标的检测尺度,从而使网络能够更好地处理待检测目标,同时加快网络的运行速度。改进后的网络命名为TL-YOLOv5s,结构如图 11所示。

Download:
图 11 TL-YOLOv5s网络结构 Fig. 11 TL-YOLOv5s network structure
3 实验

法国巴黎LaRA信号灯数据集适用于目标检测研究,且只标注了交通信号灯这一种类别,数据量大,包含的交通场景也非常丰富,因此,本文选用LaRA信号灯数据集对所提出的方法进行评估。对于实验部分使用的硬件平台,CPU采用Intel i7-9750H,GPU采用NVIDAI GTX1660Ti,操作系统为Window10,训练框架采用Pytorch1.6。

3.1 实验数据集

法国巴黎LaRA信号灯数据集包含9 168张图片,图片尺寸为640×480像素,包含green(通行)、orange(警示)、red(停止)、ambiguous(模糊)4种不同类别的标签,数量分别为3 381、58、5 280、449张。其中,模糊的图片是由于在拍摄的过程中车辆出现抖动所导致。各信号灯种类及标签数量如表 1所示。

下载CSV 表 1 LaRA信号灯数据集中各类目标的数量 Table 1 The number of various targets in LaRA signal light dataset

由于数据集中包含的模糊变形的图片会对实验的结果产生较大影响,因此本文对LaRA数据集进行处理,剔除掉449张模糊变形的图片,使用剩余的8 719张图片进行实验。数据集图片样本如图 12所示。

Download:
图 12 LaRA数据集图片样本 Fig. 12 Image samples of LaRA dataset
3.2 模型训练

对原YOLOv5s模型和改进后的YOLOv5s模型分别进行训练。剔除LaRA信号灯数据集中模糊的449张图片和标签,将剩余的图片和标签按8︰1︰1的比例分为训练集、测试集和验证集,训练阶段初始学习率调整为0.01,训练迭代次数epoch设定为200次。在此基础上,通过GPU对原YOLOv5s和改进后的YOLOv5s网络模型进行训练。

3.3 评价指标

本文选取精确率(Precision)、召回率(Recall)、平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)、帧率(Frames Per Second,FPS)等评价指标[23]对模型性能进行评价。

1)准确率Pprecision和召回率Rrecall的计算公式如下:

$ {P}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}}\times 100\mathrm{\%} $ (2)
$ {R}_{\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}}\times 100\mathrm{\%} $ (3)

其中:TP表示正确检测出的目标数量;FP表示被误检的目标数量;FN表示未被检测出的样本数量。

2)平均精度AAP和平均精度均值mmAP的计算公式如下:

$ {A}_{\mathrm{A}\mathrm{P}}={\int }_{0}^{1}P\left(R\right)\mathrm{d}R $ (4)
$ {m}_{\mathrm{m}\mathrm{A}\mathrm{P}}=\frac{\sum {P}_{\mathrm{A}}}{{N}_{\mathrm{c}}} $ (5)

其中:$ {N}_{\mathrm{c}} $表示类别个数;$ {P}_{\mathrm{A}} $表示不同类别的平均精度。实验结束后利用实验数据可以绘制出网络模型的PR曲线,该曲线所围成的面积即被定义为AP,用于评估模型在单个检测类别上的表现。计算出每一类的AP值之后,进行平均即得到mAP。通常来说,mAP值越高,表示网络模型性能越好。

3)检测速度一般用FPS来衡量,表示目标检测网络每秒能处理图片的数量,FPS值越大,表示网络模型处理图像的速度越快。

3.4 实验结果及分析 3.4.1 主干网络残差结构改进实验

原YOLOv5s主干网络中共有3处CSP1-x结构,对其进行替换加入新的结构CSPD-x,然后再对改进后的网络模型和原网络模型分别进行训练,在LaRA数据集上比较2种网络的检测结果。对改进后模型训练200个epoch后损失曲线变化如图 13所示,其中cls_loss、obj_loss和box_loss分别代表分类损失、置信度损失和边界框回归损失,由该图可以看出曲线走势基本趋于平稳。

Download:
图 13 模型改进后的训练损失曲线 Fig. 13 Training loss curve after model improvement

原网络和改进网络(以CSPD-x表示)识别各类别的平均精度和平均精度均值如表 2所示。

下载CSV 表 2 主干网络残差结构改进前后实验结果对比 Table 2 Comparison of experimental results before and after improvement of residual structure in backbone network  

表 2可以看出:改进后的网络相比于原网络对各类目标的识别精度都有提升,其中绿色信号灯的识别精度相比于原网络提升了7.2个百分点,由于数据集中黄色信号灯数量较少且图片较为清楚,因此黄色信号灯的识别精度较高,而红色信号灯的识别精度提升不是特别明显,仅提升了0.3个百分点,但是总体上改进网络mAP值较原网络提升了2.5个百分点。

3.4.2 特征融合网络残差结构改进实验

为验证不同跨连接方式的效果,设计另外2种不同的残差组件来进行对比实验(以CSPS1-x和CSPS2-x表示),验证CSPS-x结构的有效性,各残差组件结构如图 14所示。最后通过比较和分析选择出最优的连接方案对原CSP2-x结构进行替换。

Download:
图 14 3种残差组件结构对比 Fig. 14 Comparison of three residual component structures

根据3种不同的改进方案,分别对原CSP2-x结构进行替换和训练,训练完成后进行测试,实验结果如表 3所示。

下载CSV 表 3 特征融合网络残差结构改进前后实验结果对比 Table 3 Comparison of experimental results before and after improvement of residual structure in feature fusion network  

表 3可以看出:相较于原网络,3种改进网络识别效果都有所提升。在对绿色信号灯的识别上,CSPS-x性能最好(AP为66.8%),相比于原网络提升10.8个百分点;在对黄色信号灯的识别上,由于各网络的识别效果都较好(AP均为99.5%),因此3种改进网络的AP值没有提升;在对红色信号灯的识别上,各网络的效果都较差,3种改进网络的AP只有小幅提升,CSPR1-x相比于原网络提升0.1个百分点(AP为36%),CSPR2-x和CSPS-x都提升0.2个百分点(AP为36.1%)。总体来看,3种改进方案对交通信号灯识别的mAP值都有较大的提升,其中第3种方案提升最大(mAP为67.5%),相较于原网络提升3.7个百分点。由此可见,CSPS-x结构所带来的优化效果优于CSPS1-x和CSPS2-x。因此,选择CSPS-x结构对原网络进行改进,替换原网络中的CSP2-x结构。

3.4.3 检测尺度改进实验

本文对原网络进行了检测尺度的改进。原YOLOv5s共有3种检测尺度,分别为20×20、40×40、80×80。本实验通过增加或减少检测尺度的种类来寻找出最适合交通信号灯检测的尺度种类。

为验证本文对于检测尺度改进的合理性和有效性,在原网络的基础上去除20×20、40×40规格的检测尺度,保留80×80的检测尺度,得到只具有一个检测尺度的网络来增加实验的可对比性。然后再根据之前的改进思路在原网络的基础上去掉20×20的检测尺度,保留40×40、80×80这2个规格检测尺度。最后对原网络和检测尺度改进后的网络模型分别进行训练,得到的检测结果如表 4所示

下载CSV 表 4 检测尺度改进前后实验结果对比 Table 4 Comparison of experimental results before and after improvement of detection scale

表 4可以看出:只有1个80×80检测尺度的网络速度最快(36.5 frame/s),相比于原网络提升27.6个百分点,但mAP值下降1.4个百分点;具有2个检测尺度的改进网络检测速度为32.3 frame/s,相比于原网络提升12.9个百分点,而mAP值只减少0.3个百分点;1个检测尺度的网络相比于2个检测尺度的网络识别精度减少较大,同时相比于原网络,改进后的2个网络都能达到较高的检测速率。综合以上实验结果,本文选择保留40×40、80×80这2种规格的检测尺度来对原网络进行改进。

3.4.4 网络模型消融实验

通过以上实验分析,对原网络的网络结构分步骤依次进行改进,对改进后的网络模型进行训练并测试,消融实验结果如表 5所示。其中:●表示应用此方案;○表示不应用此方案。

下载CSV 表 5 消融实验结果对比 Table 5 Comparison of results in ablation experiment

表 5可以看出:在采用CSPD-x结构和CSPS-x结构分别替换了CSP1-x结构和CSP2-x结构后,各类别识别精度都有较大的提升,mAP值达到70.5%,但是检测速度为19.9 frame/s,相比于原网络下降8.7 frame/s;在去除20×20检测尺度后,各类别的识别精度略微下降,mAP值降低了0.4个百分点,但检测速度较未去除之前提升12.6个百分点,达到22.4 frame/s。由此可见,改进网络能够较好地实现对交通信号灯的检测与识别,并且满足实时性的要求。

实际环境下的检测效果对比如图 15所示,从中可以看出,原网络存在许多信号灯未被检测出的情况,而改进网络对交通信号灯的检测效果更好,识别精度更高。由此可见,改进网络更适用于对交通信号灯的检测与识别。

Download:
图 15 实际环境下的检测效果对比 Fig. 15 Comparison of detection effect in actual environment

在LaRA数据集上将本文方法与使用不同网络的识别方法进行对比,如表 6所示。

下载CSV 表 6 LaRA数据集上不同方法的实验结果对比 Table 6 Comparison of experimental results by different methods in LaRA dataset  

表 6可以看出:TL-YOLOv5s网络在LaRA数据集上相比于其他网络具有更好的识别性能,对黄色和绿色信号灯的识别精度均为最高,对红色信号灯的识别精度略低于Faster R-CNN。总体上,TL-YOLOv5s网络模型的mAP值达到70.1%,相比于RefineDet、Faster R-CNN、R-FCN等方法有较大幅度提升。

4 结束语

针对传统交通信号灯识别方法精度低且难以达到实时检测要求的问题,本文提出一种改进的YOLOv5s网络。设计2种新的残差模块替换YOLOv5s网络中的残差模块,增强主干网络特征提取能力和融合网络特征融合能力,提高检测精度同时防止网络训练时模型退化。在此基础上,对网络的检测尺度进行改进,去除大目标检测尺度而保留中小目标检测尺度,以此来适应交通信号灯的检测,进一步提高网络运行的速度。实验结果表明,TL-YOLOv5s在LaRA数据集上取得了70.10%的平均精度均值和22.38 frame/s的检测速度,相比YOLOv5s、R-FCN等网络具有更高的识别精度且满足实时性的要求。下一步将通过增加数据集中交通信号灯的类别扩大模型的识别范围,提高其在实际环境下的检测性能。

参考文献
[1]
音松, 陈雪云, 贝学宇. 改进Mask RCNN算法及其在行人实例分割中的应用[J]. 计算机工程, 2021, 47(6): 271-276, 283.
YIN S, CHEN X Y, BEI X Y. Improved Mask RCNN algorithm and its application in pedestrian instance segmentation[J]. Computer Engineering, 2021, 47(6): 271-276, 283. (in Chinese)
[2]
喻清挺, 喻维超, 喻国平. 基于改进R-FCN的交通标志检测[J]. 计算机工程, 2021, 47(12): 285-290, 298.
YU Q T, YU W C, YU G P. Traffic sign detection based on improved R-FCN[J]. Computer Engineering, 2021, 47(12): 285-290, 298. (in Chinese)
[3]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2014: 580-587.
[4]
GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press. 2015: 1440-1448.
[5]
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[6]
李昊. 基于深度学习的复杂环境下交通信号灯检测算法研究[D]. 郑州: 郑州大学, 2018.
LI H. Research on traffic signal detection algorithm based on deep learning in complex environment[D]. Zhengzhou: Zhengzhou University, 2018. (in Chinese)
[7]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
[8]
REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-07-28]. https://arxiv.org/abs/1804.02767.
[9]
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2021-07-28]. https://arxiv.org/abs/2004.10934.
[10]
LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[11]
FU C Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector[EB/OL]. [2021-07-28]. https://arxiv.org/abs/1701.06659.
[12]
IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 0.5 MB model size[EB/OL]. [2021-07-28]. https://arxiv.org/pdf/1602.07360.
[13]
钱弘毅, 王丽华, 牟宏磊. 基于深度学习的交通信号灯快速检测与识别[J]. 计算机科学, 2019, 46(12): 272-278.
QIAN H Y, WANG L H, MOU H L. Fast detection and identification of traffic lights based on deep learning[J]. Computer Science, 2019, 46(12): 272-278. (in Chinese)
[14]
鞠默然, 罗海波, 王仲博, 等. 改进的YOLO V3算法及其在小目标检测中的应用[J]. 光学学报, 2019, 39(7): 253-260.
JU M R, LUO H B, WANG Z B, et al. Improved YOLO V3 algorithm and its application in small target detection[J]. Acta Optica Sinica, 2019, 39(7): 253-260. (in Chinese)
[15]
毛涛. 基于YOLO的交通信号灯检测算法[J]. 数字技术及应用, 2021, 39(6): 97-99.
MAO T. Traffic signal detection algorithm based on YOLO[J]. Digital Technology & Application, 2021, 39(6): 97-99. (in Chinese)
[16]
HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[17]
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[18]
LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8759-8768.
[19]
ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]//Proceedings of AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2020: 12993-13000.
[20]
WANG C Y, MARK L H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 1571-1580.
[21]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[22]
HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2261-2269.
[23]
王艺皓, 丁洪伟, 李波, 等. 复杂场景下基于改进YOLOv3的口罩佩戴检测算法[J]. 计算机工程, 2020, 46(11): 12-22.
WANG Y H, DING H W, LI B, et al. Mask wearing detection algorithm based on improved YOLOv3 in complex scenes[J]. Computer Engineering, 2020, 46(11): 12-22. (in Chinese)
[24]
DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 379-387.
[25]
马俊才. 面向跨视角的信号灯检测[D]. 北京: 北京交通大学, 2020.
MA J C. Cross-view-oriented traffic light detection[D]. Beijing: Beijing Jiaotong University, 2020. (in Chinese)