面向视频数据的深度学习目标识别算法综述

引用本文

王振华, 李静, 张鑫月, 等. 面向视频数据的深度学习目标识别算法综述[J]. 计算机工程, 2022, 48(4), 1-15. DOI: 10.19678/j.issn.1000-3428.0062227.

WANG Zhenghua, LI Jing, ZHANG Xinyue, et al. Survey of Target Recognition Algorithms for Video Data Using Deep Learning[J]. Computer Engineering, 2022, 48(4), 1-15. DOI: 10.19678/j.issn.1000-3428.0062227.

基金项目

国家自然科学基金（61972240）；上海市地方院校能力建设项目（19050502100）；上海市海洋局科研项目（沪海科2020-05）

作者简介

王振华（1982―），女，副教授、博士，主研方向为深度学习;
李静，硕士研究生;
张鑫月，硕士研究生;
郑宗生，副教授、博士;
卢鹏，副教授、博士;
栾奎峰，副教授、博士

文章历史

收稿日期：2021-07-30
修回日期：2021-10-23

Contents Abstract Full text Figures/Tables PDF

面向视频数据的深度学习目标识别算法综述

王振华¹ , 李静¹ , 张鑫月¹ , 郑宗生¹ , 卢鹏¹ , 栾奎峰²

1. 上海海洋大学信息学院, 上海 201306;
2. 上海海洋大学海洋科学学院, 上海 201306

收稿日期：2021-07-30；修回日期：2021-10-23

基金项目：国家自然科学基金（61972240）；上海市地方院校能力建设项目（19050502100）；上海市海洋局科研项目（沪海科2020-05）

作者简介：王振华（1982―），女，副教授、博士，主研方向为深度学习; 李静，硕士研究生; 张鑫月，硕士研究生; 郑宗生，副教授、博士; 卢鹏，副教授、博士; 栾奎峰，副教授、博士.

E-mail: kfluan@shou.edu.cn

摘要：目标识别是计算机视觉领域的一大挑战，随着深度学习的发展，目标识别算法被广泛应用于视频数据中目标的识别和监测。对现有目标识别算法进行归纳，根据是否采用锚点机制将主流算法分为Anchor-Based和Anchor-Free两大类。针对R-CNN、SPP-Net、SSD、YOLOv2等Anchor-Based类目标识别算法，从候选框创建、特征提取和结果生成角度分析基于区域和基于回归的目标识别算法的区别和各自优势。针对CornerNet、ExtremeNet、CenterNet、FCOS等Anchor-Free类目标识别算法，从特征提取、关键点选择/层次结构和结果生成角度分析基于关键点和基于特征金字塔的目标识别算法的区别和各自优势。在此基础上，以识别效率和识别精度为评价指标，对Faster R-CNN、Mask R-CNN、SSD等8种代表性目标识别算法进行对比总结。最后，针对目标识别算法中的数据预处理耗时长、多尺度特征同步识别精度低、结构繁杂等问题，对当前研究的不足和未来研究方向进行分析和展望。

Survey of Target Recognition Algorithms for Video Data Using Deep Learning

WANG Zhenghua¹ , LI Jing¹ , ZHANG Xinyue¹ , ZHENG Zongsheng¹ , LU Peng¹ , LUAN Kuifeng²

1. College of Information, Shanghai Ocean University, Shanghai 201306, China;
2. College of Marine Sciences, Shanghai Ocean University, Shanghai 201306, China

Abstract: Target recognition is a big challenge in the field of computer vision.With the development of deep learning, target recognition algorithms are widely used to monitor video data.The existing target recognition algorithms can be summarized based on the existence of the anchor mechanism such that target recognition algorithms are divided into Anchor-Based and Anchor-Free.For Anchor-Based target recognition algorithms, such as R-CNN, SPP Net, SSD and YOLOv2, the differences and respective advantages of region-based and regression-based target recognition algorithms are analyzed from the perspective of creating candidate boxes, feature extraction, and result generation.In contrast, for Anchor-Free target recognition algorithms, such as CornerNet ExtremeNet, CenterNet, and FCOS, the differences and respective advantages of key point-based and feature pyramid-based target recognition algorithms are analyzed from the perspectives of feature extraction, key point selection/hierarchy and result generation.This study compares and summarizes eight representative target recognition algorithms, Fast R-CNN, Mask R-CNN and SSD, to name a few, with recognition efficiency and recognition accuracy as evaluation indices.At last, to address the problems of long computation time in data preprocessing, low accuracy of multi-scale feature synchronous recognition, and the complex structure of target recognition algorithms, which are the shortcomings of the current research, future prospects and research directions in analysis are suggested.

开放科学（资源服务）标志码（OSID）：

0 概述

监测手段的多样化使得数据获取方式从静态的图像拍摄扩展至动态的视频监测，视频数据不再局限于人类娱乐活动，因此，面向动态视频数据的目标识别成为研究热点并被广泛应用于各个领域，如交通领域的车牌识别^[1-2]、车辆违章^[3-5]、无人驾驶^[6-7]等，农业领域的机器采摘^[8-9]、农作物成熟度检测^[10]、病虫害分析^[11-12]等，城市管理领域的智能安防^[13-14]、安全监控^[15-16]等。

深度学习因其多尺度的特征提取能力和超强的泛化能力，成为视频目标识别的技术支撑。目标识别是计算机视觉的一部分，其目的在于从图像或视频中检测出目标、识别目标类别并计算目标所在位置^[17]。视频数据是由连续帧组成的动态数据，相较于静态图像，其包含了目标对象的上下文信息。在深度学习领域，目标识别利用卷积神经网络来完成，即通过卷积神经网络对输入的视频数据进行特征提取，利用提取的特征实现目标的分类与定位^[18]。

本文归纳并分析面向动态视频数据的深度学习目标识别算法，通过实验比较各算法的优缺点，并在现有研究基础上对面向动态数据的目标识别研究进行展望。

1 基于深度学习的视频数据目标识别算法

根据是否采用锚点机制，可将基于深度学习的目标识别算法分为Anchor-Based和Anchor-Free两类，如图 1所示。Anchor-Based类算法根据有无区域建议生成可分为基于区域的目标识别算法（Two-stage）和基于回归的目标识别算法（One-stage）^[19]。Anchor-Free类算法根据算法结构可分为基于关键点的目标识别算法和基于特征金字塔的目标识别算法。

	Download: JPG larger image
图 1 基于深度学习的视频数据目标识别算法分类 Fig. 1 Classification of video data object recognition algorithms based on deep learning

1.1 Anchor-Based目标识别算法

Anchor-Based算法首先预设边界框（Anchor Box）作为目标大小及定位参考。Anchor是边界框的中心点，也是固定点。Anchor Box为锚框，是预测目标边界框的重要参考标准。本文对Anchor-Based两类目标识别算法分别进行分析。

1.1.1 基于区域的目标识别算法

基于区域的目标识别算法（Two-stage）包括识别目标候选区选择、卷积神经网络的特征提取、候选区域分类、目标识别结果优化等步骤^[20]。2013年，GIRSHICK提出Region-CNN（R-CNN）目标识别算法，开启了深度学习用于目标识别的发展之路^[21]。2014年，HE等提出空间金字塔池化算法（Spatial Pyramid Pooling Network，SPPNet），消除了网络对输入图像尺寸的限制，避免了卷积特征的重复计算^[22]。2015年，GIRSHICK提出Fast R-CNN目标识别算法，对R-CNN和SPPNet进行了融合改进^[23]。同年，GIRSHICK等又提出Faster R-CNN目标识别算法，引入了候选区域生成网络（Region Proposal Network，RPN）用于自动生成目标候选区域^[24]。2016年，DAI等提出R-FCN目标识别算法，将全连接应用于Faster R-CNN，增加位置敏感得分图和位置敏感池化操作，解决了分类网络的位置不敏感性与检测网络的位置敏感性之间的矛盾^[25]。2017年，HE等提出Mask R-CNN目标识别算法，解决了原图与特征图的特征位置不匹配问题^[26]。2018年，CAI等提出Cascade R-CNN目标识别算法，通过级联多个检测网络，达到了优化预测结果的目的^[27]。

1）R-CNN目标识别算法

R-CNN算法流程如图 2所示，主要包括以下步骤：

	Download: JPG larger image
图 2 R-CNN算法流程 Fig. 2 Procedure of R-CNN algorithm

（1）创建候选框：利用选择性搜索算法创建候选框。

（2）提取特征并生成特征向量：将创建的候选区域进行固定尺寸的缩放，并将缩放结果输入到AlexNet（去除最后的Softmax层）中提取特征，生成特征向量。

（3）候选区域分类并生成得分：将特征向量输入到SVM分类器对候选区域进行分类并生成得分。

（4）结果生成：通过Canny边缘检测对得分较高的候选框微调得到最终边界框（Bounding boxes）。

R-CNN目标识别算法利用神经网络对底层向上的候选区域分类和定位，通过迁移学习解决了数据集规模小的问题。但该算法参数量较多，并且创建候选区域时存在重叠现象，导致计算量大、耗时严重。此外，R-CNN需要单独开辟空间来存取目标特征，存在空间资源消耗问题。

2）SPP-Net目标识别算法

SSP-Net是HE等在神经网络中引入空间金字塔池化的目标识别算法。空间金字塔池化可接受任意尺寸的图像输入，并产生固定输出，其通过不同尺寸的池化对相应目标进行特征提取。SPP-Net算法的处理流程类似于R-CNN，如图 3所示。该算法相比R-CNN的改进在金字塔池化层，通过金字塔空间池化对特征图中的每个候选区域提取固定长度的特征向量，并输入到全连接层。

	Download: JPG larger image
图 3 SPP-Net算法流程 Fig. 3 Procedure of SPP-Net algorithm

SPP-Net算法解决了网络对输入图像尺寸的要求，避免了图像剪裁后目标变形、识别区域只包含部分物体等问题，其通过候选区域到全局特征映射，直接获取候选区域中的特征向量，避免了通过网络对特征重复计算，缩短了训练时间。但SPP-Net算法采用SVM作为分类处理器，存在空间资源消耗问题，并且该算法采用选择性搜索算法创建候选框，计算量大的不足仍是有待优化的问题。

3）Fast R-CNN目标识别算法

Fast R-CNN是一种基于区域的快速目标识别算法，该算法在提高精度的同时，加快了算法的训练时间和测试速度。Fast R-CNN算法流程如图 4所示，主要包括以下步骤：

	Download: JPG larger image
图 4 Fast R-CNN算法流程 Fig. 4 Procedure of Fast R-CNN algorithm

（1）创建候选框并提取特征：与R-CNN相同，采取选择性搜索算法创建候选框，同时输入图像到VGG-16中进行特征提取并输出特征图。

（2）ROI池化：根据候选框和特征图的映射关系在特征图中找到每个候选框对应的特征框，在ROI池化层中将每个特征框池化到特定尺寸并输出等同候选框个数的特征向量。

（3）整合特征：将相同尺寸的向量输入到全连接层进行特征整合，得到固定大小的特征向量。

（4）输出结果：将所得特征向量由SVD分解输出一个分类得分向量和一个窗口回归向量，对每一类物体进行非极大值抑制，剔除重叠建议框并得到最后目标识别结果。

Fast R-CNN算法采用感兴趣池化层（ROI Pooling Layer）提高了目标识别精度，并且只在ROI层进行特征提取，避免了特征的重复计算，缩减了网络的训练与测试时间。此外，其采用多任务损失函数（Multi-task Loss）将分类和定位统一，避免了特征额外的空间消耗。但是Fast R-CNN算法同样采用选择性搜索算法创建候选框，仍然存在耗时严重的问题。

4）Faster R-CNN目标识别算法

Faster R-CNN是对Fast R-CNN的改进，该算法通过区域候选网络（Region Proposal Network，RPN）代替选择性搜索算法产生候选框，在保证精度的前提下解决耗时问题。Faster R-CNN的处理流程如图 5所示，主要包括以下步骤：

	Download: JPG larger image
图 5 Faster R-CNN算法流程 Fig. 5 Procedure of Faster R-CNN algorithm

（1）特征提取：输入图像到CNN（ZFnet或VGG-16）得到供RPN网络输入的特征图和向前传播的特有特征图。

（2）利用RPN网络创建候选框：将生成的特征图输入到RPN网络得到区域建议和区域得分。

（3）ROI池化：将得分前300名的区域建议^[28]和特有卷积层进行特征提取得到高维特征图输入到ROI层，输出尺寸相同的特征向量。

Faster R-CNN算法中的RPN网络采用锚点机制，以每个锚点为中心生成9个大小、比例不同的锚点框，其结构如图 6所示。

	Download: JPG larger image
图 6 RPN网络结构 Fig. 6 RPN network structure

Faster R-CNN算法将候选框的生成融于网络中，解决了采用选择性搜索算法耗时严重的问题，同时设置不同尺寸的Anchors，解决多尺度问题。但Faster R-CNN算法需要计算每个候选框的分类，计算量较大，并且该算法存在特征图与原图的配准问题，影响了模型的识别精度^[29-31]。

5）R-FCN目标识别算法

R-FCN（Region-based Fully Convolutional Network）算法的处理流程如图 7所示，主要包括以下步骤：

	Download: JPG larger image
图 7 R-FCN算法流程 Fig. 7 Procedure of R-FCN algorithm

（1）特征提取：输入图像到Backbone Network（ResNet-101）进行特征提取输出特征图。

（2）生成候选框和位置敏感信息得分图：将ResNet-101中Conv4的输出特征图输入到RPN网络中，得到区域建议和区域得分，将ResNet-101中Conv5输出的特征图进行位置敏感信息卷积，得到位置敏感信息得分图。

（3）生成类别得分：将区域建议和位置敏感信息得分图进行位置敏感池化操作，使得每个区域建议都生成对应位置的类别得分。

（4）结果生成：通过Softmax函数和计算Offset分别获得对应的类别和位置信息，并生成目标识别结果。

R-FCN算法的优势是提出了采用位置敏感信息得分图（Position-sensitive score maps），解决了目标识别的位置敏感性问题，同时采用全卷积网络减少了总体计算量，加快了识别速度。但R-FCN算法只采用一个尺度特征，不适应目标尺度变化的现象，并且该算法的收敛速度仍需改进^[32-33]。

6）Mask R-CNN目标识别算法

Mask R-CNN是HE等提出的Faster R-CNN的扩展，其处理流程如图 8所示，主要包括以下步骤：

	Download: JPG larger image
图 8 Mask R-CNN算法流程 Fig. 8 Procedure of Mask R-CNN algorithm

（1）特征生成：输入图像到ResNet-FPN网络进行特征提取并输出特征图。

（2）候选框生成：对特征图中的每一点设定预定的感兴趣区域（Region of Interest，ROI），将候选的ROI输入到RPN网络，得到区域建议和区域得分并过滤掉部分候选的ROI。

（3）固定尺寸的特征图生成：将生成的候选框和生成的特征图进行双行线插值操作（ROI Align），将特征聚集并输出特定尺寸的向量。

（4）结果生成：将特征向量分别输入到全连接层和FCN网络中进行分类、回归和Mask分割，并生成结果。

Mask R-CNN目标识别算法利用ROI Align方法解决了Faster R-CNN中的Misalignment的问题，同时通过添加Mask层融合了浅层与深层特征检测图像特征细节。此外，其定义多任务损失函数，即在Fast R-CNN的基础上增加了Mask损失，避免了不同类别之间的相互影响。但Mask R-CNN算法参数较多，计算量大，这影响了算法的速度^[34-35]。

7）Cascade R-CNN目标识别算法

Cascade R-CNN是CAI等提出的一种通过级联多个网络来优化预测结果的多阶段目标识别算法，也是对Faster R-CNN算法的改进，其处理流程如图 9所示，主要包括以下步骤：

	Download: JPG larger image
图 9 Cascade R-CNN算法流程 Fig. 9 Procedure of Cascade R-CNN algorithm

（1）特征生成：输入图像到ResNet101与FPN相结合的网络中进行特征提取，得到继续向前传播和输入到RPN网络中的特征图。

（2）候选框创建：同Faster R-CNN一样，通过RPN网络生成候选框。

（3）结果生成：通过级联不同IoU阈值的检测模型对输入进行逐步分类与定位。

Cascade R-CNN算法是通过级联不同IoU阈值的检测器，其各自专注于相应IoU阈值的目标，避免了因只增加IoU阈值导致正样本数量减少而产生的数据过拟合问题，提高了目标识别精度。但该算法的级联结构增加了训练成本和计算耗时^[36-38]。

1.1.2 基于回归的目标识别算法

基于回归的目标识别算法将目标识别问题转换为回归问题，取消了网络中候选区域（Region Proposal）的产生过程，通过对输入数据集进行训练直接在图像中预测目标的类别概率和位置坐标^[39]。2016年，LIU等引入多尺度识别技术，提出了SSD目标识别算法^[40]。2017年，REDMON等对YOLOv1进行改进，提出YOLOv2（和YOLO9000），提升了目标识别的定位准确率和召回率^[41]。2020年，LIN等提出了RetinaNet算法，解决了正负样本之间不均衡问题^[42]。2017年，FU等在SSD的基础上改进上采样和预测模块，提出了DSSD算法^[43]。此外，在SSD算法基础上改进的目标识别算法还包括DSOD^[44]、FSSD^[45]和RSSD^[46]等。2018年，REDMON等改进基础网络并结合金字塔结构，提出了YOLOv3算法^[47]。2019年，ZHAO等提出M2Det算法解决了目标尺度变化问题^[48]，TAN等设计了一种多维度混合的模型放缩方法——EfficientNet算法^[49]。2020年，TAN等对EfficientNet扩展改进，提出了EfficientDet算法^[50]。此外，在YOLOv3的基础上，BOCHKOVSKIY等提出YOLOv4算法^[51]，ULTRALYTICS等提出了YOLOv5算法。

1）SSD目标识别算法

SSD（Single Shot MultiBox Detector）算法是LIU等于2016年提出的单一神经网络的目标识别算法，由VGG-16卷积神经网络和多尺度特征目标识别网络两部分组成。SSD算法的处理流程如图 10所示，主要包括以下步骤：

	Download: JPG larger image
图 10 SSD算法流程 Fig. 10 Procedure of SSD algorithm

（1）特征获取：输入图像到VGG-16卷积网络进行特征提取并生成特征图。

（2）先验框获取：选取Cov4_3、FC7、Conv6_2、Conv7_2、Conv8_2、Conv9_2这6层特征图并在每个特征层的每个单元格上生成默认框（default box）；所有的默认框（default box）经过极大抑制，筛选出先验框（prior boxes）。

（3）结果生成：将先验框（prior boxes）与真实框（ground truth boxes）进行比较，计算最佳Jaccard重叠（IoU），选择阈值大于0.5的作为候选框并投入训练，生成最终结果。

SSD算法在VGG-16的框架下用卷积层替换全连接层，提高了算法的计算效率，同时通过添加空洞卷积，使模型获得更加密集的得分映射，其结构如图 11所示。此外，该算法采用不同分辨率的特征图自适应目标大小，实现多尺度目标预测，并采用随机剪裁方式进行数据增强，提高了算法的鲁棒性。但SSD算法需人工设置锚定框的大小，无法有效匹配真实目标尺寸，并且该算法不能有效结合全局特征，存在小目标特征提取不充分现象^[52-53]。

	Download: JPG larger image
图 11 空洞卷积示意图 Fig. 11 Schematic diagram of dilated convolution

2）YOLOv2目标识别算法

YOLOv2算法是REDMON等针对YOLOv1中对位不准确等问题进行的一系列改进。

YOLOv2在提高模型精度方面：

（1）采用了Batch Normalization：在YOLO网络中的卷积层后添加Batch Normalization层，Batch Normalization既可代替Dropout层起到正则作用，又可提高模型的识别精度。

（2）添加了High Resolution Classifier：在进行样本识别之前采用高分辨图像对分类网络进行10轮次的预训练，使网络更好地适应高分辨率图像的输入。

（3）采用了Convolutional with Anchor Boxes：借鉴Faster R-CNN的做法，引入先验框思想，去掉全连接层而采用先验框来预测目标的边界框。

（4）采用了Dimension Clusters：通过K-Means聚类的方法设置先验框的尺寸，通过聚类得到的先验框更加贴合真实框的尺寸，提高模型识别精度。

（5）增加了Direct location prediction：调整预测框的计算公式，将中心点的预测值规定在一个网格范围内，避免了采用先验框而导致在模型训练初期目标中心位置预测不稳定的问题。

（6）添加了Fine-Grained Features：添加Passthrough层保存细节信息，便于小目标的更好识别。

（7）采用了Multi-Scale Training：在训练过程中每10个batch就随机更换一种尺寸，使模型可进行多尺度的目标识别。

在提高速度方面：YOLOv2算法提出了一种新的分类网络Darknet-19，其由19个卷积层和5个最大池化层组成。Darknet-19与VGG-16相比减少了计算量和参数数量，提高了模型的收敛速度。同时，YOLOv2使用了WordTree结构，解决了不同数据集之间的互斥问题。

3）RetinaNet目标识别算法

RetinaNet算法是由LIN等提出用来解决目标识别类别不平衡问题的目标识别算法。该算法的处理流程如图 12所示，主要包括以下步骤：

	Download: JPG larger image
图 12 RetinaNet算法流程 Fig. 12 Procedure of RetinaNet algorithm

（1）特征提取：输入图像到CNN（ResNet50或101-FPN）中进行特征提取，输出不同尺度的特征图。

（2）全局特征获取：将不同尺度的特征图融合到图像金字塔中并输出全局特征。

（3）结果生成：将得到的特征图分别输入到分类网络（Class Subnet）和回归网络（Box Subnet）中进行目标分类和预测框调整，并生成最终识别结果。

RetinaNet算法的主要优势是提出了Focal Loss。通过引入Focal Loss来平衡类别权重，解决背景类对前景目标识别的影响，提高目标识别的精度。但RetinaNet算法选择ResNet-101作为特征提取网络，影响了算法的识别速度^[54-56]。

4）YOLOv3目标识别算法

YOLOv3算法是REDMON等对YOLO系列算法的进一步改进。该算法的处理流程如图 13所示，主要包括以下步骤：

	Download: JPG larger image
图 13 YOLOv3算法流程 Fig. 13 Procedure of YOLOv3 algorithm

（1）特征提取：输入图像到Darknet网络进行特征提取，并通过上采样和张量拼接等操作得到3个不同尺寸的特征图。

（2）边界框获取：先对图像进行网格划分，并在网格上根据真实框（Ground Truth Boxes）确定目标中心点，再对中心点所在的单元格对应的边界框（Bounding Box）进行筛选并输出边界框信息。

（3）结果生成：采用多尺度融合的方式融合3个尺寸特征图上的特征信息进行目标预测，并生成结果。

YOLOv3算法中提出Darknet-53网络，提高了目标识别效率，同时该算法借鉴FPS思想，采用多尺度特征进行目标识别，提高了识别精度。此外，其使用Logistic回归替换Softmax进行多标签分类，解决了单个边界框中的多目标识别问题。YOLOv3算法在追求速度的同时亦保证了识别精度，但YOLOv3算法的特征提取网络不够精细，导致识别物体位置精准性差，召回率低^[57-59]。

5）M2Det目标识别算法

M2Det（Multi-Level Feature Pyramid Network）是由ZHAO等提出的解决多尺度问题的目标识别算法，该算法的处理流程如图 14所示，主要包括以下步骤：

	Download: JPG larger image
图 14 M2Det算法流程 Fig. 14 Procedure of M2Det algorithm

（1）特征提取：输入图像到Backbone Network（VGG-16和ResNet-101）进行特征提取并输出特征图。

（2）多级尺度特征获取：将得到的特征图进行细化U型模块（TUM）和特征融合模块（FFM）操作，提取出更有代表性的Multi-level和Multi-scale的特征，通过尺度特征聚合模块（SFAM）融合获取多级尺度特征。

（3）结果生成：将得到的多级尺度特征用于最终的图像目标预测，并生成目标识别结果。

M2Det算法提出了多尺度融合方法MLFPN。MLFPN由特征融合模块（FFM）、细化U形模块（TUM）和尺度特征聚合模块（SFAM）三部分组成，如图 15所示。MLFPN是将FPN框架中不同深度的层替换成一个小的FPN模块，即FPN套FPN，同时引入SE block，对不同深度的特征赋予权重。

	Download: JPG larger image
图 15 MLFPN结构 Fig. 15 Structure of MLFPN

6）YOLOv4目标识别算法

YOLOv4是由BOCHKOVSKIY等于2020年在YOLOv3的基础上进一步改进与优化而来，并且适用于常规GPU进行训练。YOLOv4的体系结构是用Mosaic数据增强方法对输入端进行处理，用CSPDarknet53作为Backbone，SPP附加模块和PANET路径聚合作为Neck，YOLOv3的头部作为Head，该算法处理流程如图 16所示。此外，YOLOv4的优化策略主要分为BoF（Bag of Freebies）和BoS（Bag of Specials）两类。BoF是指在离线状态下，不额外增加算法计算开销的优化策略。BoS是指仅增加一点推理成本但可极大增加算法精度的优化策略。

	Download: JPG larger image
图 16 YOLOv4算法流程 Fig. 16 Procedure of YOLOv4 algorithm

YOLOv4算法在网络结构改进的基础上，提出了Mosaic数据增强、自对抗训练（Self-Adversarial Training）、跨最小批归一化（Cross mini-batch Normal）、修改SAM、修改PAN这5种创新方法，提高了算法的普适性和高效性。但在面向具体场景的动态识别中，该算法对复杂场景中目标识别具有局限性，存在漏检、误检等问题^[60-62]。

7）YOLOv5目标识别算法

YOLOv5是ULTRALYTICS团队于2020年提出的目标识别算法。该算法的网络结构配置与YOLOv4算法类似。YOLOv5算法对输入端进行Mosaic数据增强，以Focus和CSP结构为Backbone，以FPN+PAN结构为Neck，同样Head采用YOLOv3Head。相较于YOLOv4算法，其优势包括：1）自适应锚定框尺寸，通过学习调整锚定框的大小，使其更契合真实目标的尺寸，提高了目标识别精度；2）引入控制因子，灵活控制网络结构以适应不同配置，YOLOv5算法设计4个不同版本以适应不同需求；3）优化损失函数，改变匹配规则，加快算法的收敛速度。YOLOv5在部署和应用中简单灵活，但其性能及稳定性需要做进一步研究^[63-64]。

1.1.3 小结

在Anchor-Based类算法中，基于区域的目标识别算法在面向视频数据的目标识别应用中，识别精度是其优势所在。针对其耗时严重问题，不断有新的算法被提出，但目标识别的时效性仍有待改进。基于回归的目标识别算法有较强的实时性，但其识别的精度有待提高。

1.2 Anchor-Free目标识别算法

随着目标识别技术的不断发展，Anchor-Free思想重新引起关注，DenseBox^[65]和YOLOv1^[66]算法是Anchor Free的早期探索，在2019年达到大爆发状态。Anchor-Free算法无需预先指定Anchor Box尺寸或生成Anchor Box，其通过生成点来生成目标框，完成目标识别^[67]。本文对基于Anchor-Free的两类目标识别算法进行阐述。

1.2.1 基于关键点的目标识别算法

基于关键点的目标识别将目标识别问题转换为关键点预测问题，先进行关键点的预测，再通过关键点确定目标^[68]。2017年，WANG等提出了PLN目标识别算法，其流程是预测中心点和4个角点并判断点之间是否相连，进而实现目标识别^[69]。2018年，LAW团队提出了CornerNet算法，通过预测角点来实现目标识别^[70]。2019年，ZHOU等提出了ExtremeNet算法，通过预测4个极值点（最顶部、最左侧、最底部、最右侧）和中心点来实现目标识别^[71]，同时提出了CenterNet算法，通过估计目标中心点来实现目标识别。此外，LIU等提出了CSP算法，通过中心点和尺度预测实现目标识别^[72]。

1）CornerNet目标识别算法

CornerNet算法由LAW团队于2018年提出，其处理流程如图 17所示，主要包括以下步骤：

	Download: JPG larger image
图 17 CornerNet算法流程 Fig. 17 Procedure of CornerNet algorithm

（1）特征提取：输入图像到Hourglass Network网络进行特征提取，输出特征图。

（2）角点预测和结果生成：将得到的特征图同时输入到2个分支进行左上角预测和右下角预测，每个分支输出对应的Heatmaps、Embeddings和Offsets。Heatmaps包含角的坐标和目标的类别信息。Embeddings是利用衡量指标来判断左上角和右下角是否属于同一目标。Offsets是用于预测框微调的精度丢失信息。

CornerNet算法去除了Anchor，通过左上角和右下角信息生成框提高算法的计算效率，同时通过Corner Pooling来检测Corner的位置信息，提高了算法的识别精度。Corner Pooling结构如图 18所示。

	Download: JPG larger image
图 18 Corner Pooling结构 Fig. 18 Structure of Corner Pooling

CornerNet目标识别算法在进行目标识别时，若检测的Corner信息位于目标之外，其目标识别较困难。同时，该算法参数量较大，计算速度有待进一步提高^[73-74]。

2）ExtremeNet目标识别算法

ExtremeNet算法由ZHOU等于2019年提出，其处理流程与CornerNet算法类似，但该算法的Offset包含对应极值点的精确定位信息，与目标预测类别无关。此外，该算法用几何方法Center Grouping替换了CornerNet中的Embeddings分组过程，无需进行隐含特征学习，具有更好的组合效果。

ExtremeNet算法中的Ghost Box抑制，抑制在中心点分组时出现的假阳性分组，如图 19所示，边缘聚合则对左边和右边的极值点选择垂直方向聚合，而顶部和底部的极值点则选择水平方向聚合，解决了极值点不唯一所导致的弱响应问题。ExtremeNet算法相较于仅估计2个角点的CornerNet算法更加稳定。但ExtremeNet算法的参数量大，影响了处理速度，无法适用于实时性应用。

	Download: JPG larger image
图 19 Ghost Box示意图 Fig. 19 Schematic diagram of Ghost Box

3）CenterNet目标识别算法

CenterNet算法由ZHOU等于2019年提出，亦可用于3D目标检测，其处理流程如图 20所示，主要包括以下步骤：

	Download: JPG larger image
图 20 CenterNet算法流程 Fig. 20 Procedure of CenterNet algorithm

（1）获取热力图：输入图像到卷积神经网络得到热力特征图。

（2）中心点估计：通过热力图的峰值估计目标的中心点。

（3）结果生成：通过中心点回归得到目标尺寸即目标预测框，并生成识别结果。

CenterNet算法预测的中心点、中心点偏置及目标尺寸效果如图 21所示。CenterNet算法实现了完全的Anchor Free，通过估计目标中心点，根据中心点回归得到目标尺寸来进行目标识别。该算法仅有一个目标中心点，通过正向传播算法回归得到目标尺寸，不存在先验框的得分取舍问题，但该算法存在下采样后相同类型的目标中心点重合问题，影响了预测结果的准确性^[75-77]。

	Download: JPG larger image
图 21 CenterNet算法效果图 Fig. 21 Effet diagrams of CenterNet algorithm

1.2.2 基于特征金字塔的目标识别算法

基于特征金字塔的目标识别是在算法中融合特征金字塔网络（Feature Pyramid Network，FPN）结构，并针对算法特点改变FPN层级分配来实现目标识别。TIAN等提出了像素级的目标识别算法FCOS^[78]。KONG等提出了FoveaBox算法，通过学习坐标直接映射转换关系预测目标存在概率，并回归目标所在位置^[79]。CHEN等提出了双尺度融合预测的目标识别算法DuBox。YANG等提出了RepPoints算法，结合可变型卷积，通过点集的方式更细粒度地实现目标的定位与识别^[80]。

FCOS（Fully Convolutional One-Stage Object Detection）算法处理流程如图 22所示，主要包括以下步骤：

	Download: JPG larger image
图 22 FCOS算法流程 Fig. 22 Procedure of FCOS algorithm

1）特征提取：输入图像到Backbone中进行特征提取，并输出不同尺度的特征图。

2）特征融合：将不同尺度的特征图融合到图像金字塔中，并输出相应的特征图。

3）结果生成：将得到的特征进行Classification、Center-ness和Regression计算，并生成结果。

FCOS算法不同于关键点检测，其通过引入金字塔FPN处理不同层次的目标识别。此外，FCOS提出了一种新的策略Center-ness，在分类得分的基础上结合中心度，再通过非极大抑制算法过滤结果，以此抑制偏离中心点的预测框的产生。FCOS算法减少了生成Anchor的计算量，但该算法通过计算3个分支来预测目标，增加了算法的计算耗时^[81-82]。

1.2.3 小结

在去掉Anchor的情况下，识别算法结构简单且容易理解，提高了目标识别的精度。基于关键点的目标识别减少了算法的计算量，但特征信息利用不够充分，忽略了正负样本不平衡问题，影响了算法的识别精度。基于特征金字塔的目标识别算法，结合算法自身特点与FPN融合，提高了算法性能，但一定程度上影响了算法速度。

2 算法性能比较 2.1 数据来源

实验数据是无人机拍摄的上海市金山区、奉贤区和浦东新区的近海海域监测视频数据，并对近海海域监测视频数据进行了截帧提取、小目标复制、旋转等操作，构成实验数据集1 010张图片。识别目标为船（boat）、车（car）和障碍物（rubbish）。训练数据集利用LabelImg和Labelme对3类目标进行标注产生。实验环境为Intel core i7-10700k，Geforce RTX 3080，CUDA 11.0。

2.2 目标识别算法评估指标

以平均检测精度（mean Average Precision，mAP）^[83]、F1-Score^[84]和每秒帧率（Frame Per Second，FPS）^[85]为目标识别算法的性能评价指标。

mAP是所有目标识别的精确度（AP）的平均值，用来评价识别算法的识别精度，其定义如下：

$ {A}^{\mathrm{A}\mathrm{P}}={\int }_{0}^{1}p\left(r\right)\mathrm{d}r $

(1)

$ {m}^{\mathrm{m}\mathrm{A}\mathrm{P}}=\frac{1}{N}\sum _{i=1}^{N}{A}_{i}^{\mathrm{A}\mathrm{P}} $

(2)

其中：$ {A}^{\mathrm{A}\mathrm{P}} $表示每类目标的识别精度；$ p\left(r\right) $表示的是由Precision和Recall组成的曲线，横轴为Precision，纵轴为Recall。

F1-Score是对精确率和召回率的综合考量，用来评价识别算法的识别精度，避免精确率和召回率之间的相互影响，其定义如式（3）所示：

$ {F}_{1}=2\cdot \frac{P\cdot R}{P+R} $

(3)

精确度也称查准率，其定义如式（4）所示，召回率也称查全率，其定义如式（5）所示：

$ P=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}} $

(4)

$ R=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}} $

(5)

其中：$ {T}_{\mathrm{P}} $表示真正例，真实类别为真并预测为真；$ {F}_{\mathrm{N}} $表示假反例，真实类别为真但预测为假；$ {F}_{\mathrm{P}} $表示假正例，真实类别为假但预测为真。

FPS是指每秒处理图片的个数，用来评价算法的运行速度。本文中的FPS评价指标是指在进行视频处理过程中的FPS。

2.3 实验结果与分析

根据算法的应用及引用数量，分别选取Anchor-Based系列算法中的Faster R-CNN、Mask R-CNN、SSD、YOLOv3、M2Det、YOLOv4和Anchor-Free系列算法中的CenterNet、FCOS等8种不同类型的识别算法对实验数据中的boat、car、rubbish进行目标识别。图 23给出了不同识别算法的识别结果，表 1给出了不同识别算法的计算耗时，表 2给出了不同识别算法的AP值比较结果，表 3给出了不同识别算法的性能指标比较结果。在表中，加粗表示当前范围内最优数据。

	Download: JPG larger image
图 23 不同识别算法的识别结果 Fig. 23 Recognition results of different algorithms

下载CSV 表 1 不同识别算法的FPS比较结果 Table 1 FPS comparison results of different recognition algorithms

下载CSV 表 2 不同识别算法的精确度比较结果 Table 2 AP comparison results of different recognition algorithms

下载CSV 表 3 不同识别算法的性能指标比较结果 Table 3 Comparison results of performance indicators of different recognition algorithms

由图 23、表 1~表 3可以看出：

1）Anchor-Based系列算法

（1）在基于区域的目标识别算法中，Faster R-CNN目标识别算法具有更好的识别效果。Faster R-CNN与Mask R-CNN在面向视频的目标识别中，mAP相差小于3%，F1-score相差小于0.06，但是Faster R-CNN的FPS是Mask R-CNN的4倍。

（2）在基于回归的目标识别算法中，YOLOv4算法较M2Det算法而言，识别效果更为明显，与YOLOv3和SSD相比，在FPS增加小于8的情况下，mAP增加了45%左右，F1-Score亦有明显的提高。M2Det与YOLOv3和SSD算法相比较，mAP提高了大约20%，虽然M2Det的F1-Score与FPS不及YOLOv3，但图 23可直观地发现加入多尺度特征融合的M2Det算法在视频目标识别中具有明显优势。

2）Anchor-Free系列算法

（1）在基于关键点的目标识别算法中，CenterNet算法具有最高的精确度，且FPS也具有较好的表现。但其他评价指标不理想。

（2）基于特征金字塔的目标识别算法，FCOS的表现性能较好，除精确度外，每项评价指标均具有最佳值。

3）综合Anchor-Based和Anchor-Free两类算法来看，YOLOv4是Anchor-Based算法中性能最佳者，FCOS是Anchor-Free算法中性能最佳者。YOLOv4的FPS高于FCOS，而FCOS的mAP高于YOLOv4。

3 未来展望

目前，视频数据已成为各领域研究和应用的重要资源，如何提高从数据到信息的时效性和准确性成为制约数据应用的关键所在，而基于深度学习的目标识别算法为解决该问题提供了理论支撑。综合各类目标识别算法，仍有以下需要改进和发展：

1）直接应用于视频数据的目标识别算法仍是研究重点。现有目标识别算法多数需要对视频数据进行截帧处理，影响了目标识别的效率。针对视频数据进行目标识别和提取的算法，通过多帧处理实现上下文信息关联，计算量大，识别速度有待提高。如T-CNN^[86]、Seq-Bbox Matching^[87]等。因此，设计直接应用于动态的视频数据，提升视频数据中目标识别的精度和效率，仍是该领域的待研究问题之一。

2）兼顾多尺度特征提取及多目标跟踪仍是目标识别算法需解决的问题之一。视频数据中的目标具有多尺度的特性，尤其是针对小目标的提取及跟踪。如何同步提取小尺度目标，实现多目标跟踪，提高识别算法的鲁棒性和泛化性，仍是待研究的问题。

3）如何兼顾时效性和准确性，设计结构简单的目标识别算法，仍是面向视频数据目标识别算法需要进一步研究的问题。

4 结束语

本文归纳总结面向视频的深度学习目标识别算法，对各类识别算法的网络结构、处理流程及优化策略进行比较和分析。面向深度学习的视频目标识别在特征的自动提取、上下文信息的有效处理、目标运动特性的挖掘等方面具有一定的优势。然而，如何提升深度学习目标识别算法在视频流处理、多尺度目标提取及多目标跟踪等场景中准确性和时效性，促进深度学习目标识别算法在大场景视频监控和长时间序列目标监测等场景中的应用和发展，仍是该领域近期的研究热点和难点。

参考文献

[1]	LIN C H, LI Y. A license plate recognition system for severe tilt angles using Mask R-CNN[C]//Proceedings of 2019 International Conference on Advanced Mechatronic Systems. Washington D.C., USA: IEEE Press, 2019: 229-234.
[2]	LAROCA R, SEVERO E, ZANLORENSI L A, et al. A robust real-time automatic license plate recognition based on the YOLO detector[C]//Proceedings of 2018 International Joint Conference on Neural Networks. Washington D.C., USA: IEEE Press, 2018: 1-10.
[3]	XU R, CHEN Y, CHEN X, et al. Deep learning based vehicle violation detection system[C]//Proceedings of the 6th International Conference on Intelligent Computing and Signal Processing. Washington D.C., USA: IEEE Press, 2021: 796-799.
[4]	MAMPILAYIL H R, RAHAMATHULLAH K. Deep learning based detection of one way traffic rule violation of three wheeler vehicles[C]//Proceedings of 2019 International Conference on Intelligent Computing and Control Systems. Washington D.C., USA: IEEE Press, 2019: 1453-1457.
[5]	MOHANA F R J, Mohana. Traffic signal violation detection using artificial intelligence and deep learning[C]//Proceedings of the 5th International Conference on Communication and Electronics Systems. Washington D.C., USA: IEEE Press, 2020: 839-844.
[6]	PIAO C Z, LIU C H. Energy-efficient mobile crowdsensing by unmanned vehicles: a sequential deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2020, 7(7): 6312-6324. DOI:10.1109/JIOT.2019.2962545
[7]	ZHANG B, LIU C H, TANG J, et al. Learning-based energy-efficient data collection by unmanned vehicles in smart cities[J]. IEEE Transactions on Industrial Informatics, 2018, 14(4): 1666-1676. DOI:10.1109/TII.2017.2783439
[8]	LI X, LI J, TANG J. A deep learning method for recognizing elevated mature strawberries[C]//Proceedings of the 33rd Youth Academic Annual Conference of Chinese Association of Automation. Washington D.C., USA: IEEE Press, 2018: 1072-1077.
[9]	ZHANG R H, LI X M, ZHU L X, et al. Target detection of banana string and fruit stalk based on YOLOv3 deep learning network[C]//Proceedings of the 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering. Washington D.C., USA: IEEE Press, 2021: 346-349.
[10]	FAISAL M, ALSULAIMAN M, ARAFAH M, et al. IHDS: intelligent harvesting decision system for date fruit based on maturity stage using deep learning and computer vision[J]. IEEE Access, 2020, 8: 167985-167997. DOI:10.1109/ACCESS.2020.3023894
[11]	TETILA E C, MACHADO B B, MENEZES G K, et al. Automatic recognition of soybean leaf diseases using UAV images and deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(5): 903-907. DOI:10.1109/LGRS.2019.2932385
[12]	NOON S K, AMJAD M, QURESHI M A, et al. Overfitting mitigation analysis in deep learning models for plant leaf disease recognition[C]//Proceedings of the 23rd International Multitopic Conference. Washington D.C., USA: IEEE Press, 2020: 1-5.
[13]	YU J Y, KIM Y, KIM Y G. Intelligent video data security: a survey and open challenges[J]. IEEE Access, 2021, 9: 26948-26967. DOI:10.1109/ACCESS.2021.3057605
[14]	杨志虎, 赵家曼. 公共地点人流量统计预警平台[J]. 智能计算机与应用, 2020, 10(10): 112-114. YANG Z H, ZHAO J M. People flow statistics and early warning platform in public places[J]. Intelligent Computer and Application, 2020, 10(10): 112-114. (in Chinese)
[15]	ZHANG L M, YANG B, CHAI P, et al. Intelligent monitoring system for danger sources of infrastructure construction site based on deep learning[C]//Proceedings of the 5th International Conference on Mechanical, Control and Computer Engineering. Washington D.C., USA: IEEE Press, 2020: 1063-1066.
[16]	WANG S. Substation personnel safety detection network based on YOLOv4[C]//Proceeding of the 2nd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering. Washington D.C., USA: IEEE Press, 2021: 877-881.
[17]	符惠桐, 王鹏, 李晓艳, 等. 面向移动目标识别的轻量化网络模型[J]. 西安交通大学学报, 2021, 55(7): 124-131. FU H T, WANG P, LI X Y, et al. Lightweight network model for moving object recognition[J]. Journal of Xi'an Jiaotong University, 2021, 55(7): 124-131. (in Chinese)
[18]	张亚西. 基于视频的目标检测算法研究[D]. 上海: 上海师范大学, 2020. ZHANG Y X. Research on video based target detection algorithm[D]. Shanghai: Shanghai Normal University, 2020. (in Chinese)
[19]	何伟鑫, 邓建球, 逯程, 等. 联合ACF与YOLOv3的目标识别方法研究[J]. 兵器装备工程学报, 2020, 41(11): 147-153. HE W X, DENG J Q, FU C, et al. Research on target recognition method based on ACF and YOLOv3[J]. Journal of Ordnance Equipment Engineering, 2020, 41(11): 147-153. (in Chinese)
[20]	赵永强, 饶元, 董世鹏, 等. 深度学习目标检测方法综述[J]. 中国图象图形学报, 2020, 25(4): 629-654. ZHAO Y Q, RAO Y, DONG S P, et al. Survey on deep learning object detection[J]. Journal of Image and Graphics, 2020, 25(4): 629-654. (in Chinese)
[21]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 580-587.
[22]	HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[23]	GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1440-1448.
[24]	REN S, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[25]	DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 379-387.
[26]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2980-2988.
[27]	CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 6154-6162.
[28]	JIANG H Z, LEARNED-MILLER E. Face detection with the Faster R-CNN[C]//Proceedings of 2017 IEEE International Conference on Automatic Face and Gesture Recognition. Washington D.C., USA: IEEE Press, 2017: 650-657.
[29]	REN Y, ZHU C R, XIAO S P. Small object detection in optical remote sensing images via modified faster R-CNN[J]. Applied Sciences, 2018, 8(5): 813. DOI:10.3390/app8050813
[30]	陈泽, 叶学义, 钱丁炜, 等. 基于改进Faster R-CNN的小尺度行人检测[J]. 计算机工程, 2020, 46(9): 226-232, 241. CHEN Z, YE X Y, QIAN D W, et al. Small-scale pedestrian detection based on improved faster R-CNN[J]. Computer Engineering, 2020, 46(9): 226-232, 241. (in Chinese)
[31]	HUY T N, DUC B H. Traffic flow estimation using deep learning[C]//Proceedings of the 5th International Conference on Green Technology and Sustainable Development. Washington D.C., USA: IEEE Press, 2020: 180-184.
[32]	GUO Y, LI Y, WANG S. CS-R-FCN: cross-supervised learning for large-scale object detection[C]//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2020: 2553-2557.
[33]	MOURI K, LU H, TAN J K, et al. Object detection on video images based on R-FCN and GrowCut algorithm[C]//Proceedings of 2018 International Conference on Information and Communication Technology Robotics. Washington D.C., USA: IEEE Press, 2018: 1-4.
[34]	LOU L, ZHANG Q, LIU C, et al. Detecting and counting the moving vehicles using Mask R-CNN[C]//Proceedings of the 8th Data Driven Control and Learning Systems Conference. Washington D.C., USA: IEEE Press, 2019: 987-992.
[35]	MALHOTRA K R, DAVOUDI A, SIEGEL S, et al. Autonomous detection of disruptions in the intensive care unit using deep Mask R-CNN[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2018: 1944-1946.
[36]	陈科圻, 朱志亮, 邓小明, 等. 多尺度目标检测的深度学习研究综述[J]. 软件学报, 2021, 32(4): 1201-1227. CHEN K Q, ZHU Z L, DENG X M, et al. Deep learning for multi-scale object detection: a survey[J]. Journal of Software, 2021, 32(4): 1201-1227. (in Chinese)
[37]	YUAN L, CHANG S N, HUANG Z Y, et al. A simple baseline for pose tracking in videos of crowed scenes[C]//Proceedings of the 28th ACM International Conference on Multimedia. New York, USA: ACM Press, 2020: 4684-4688.
[38]	LI H H, ZHANG H, LIU L, et al. Integrating deformable convolution and pyramid network in Cascade R-CNN for fabric defect detection[C]//Proceedings of 2020 IEEE International Conference on Systems, Man, and Cybernetics. Washington D.C., USA: IEEE Press, 2020: 3029-3036.
[39]	CHEN L K, YE F Y, RUAN Y D, et al. An algorithm for highway vehicle detection based on convolutional neural network[J]. EURASIP Journal on Image and Video Processing, 2018, 2018: 109. DOI:10.1186/s13640-018-0350-2
[40]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of 2016 European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[41]	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 6517-6525.
[42]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI:10.1109/TPAMI.2018.2858826
[43]	FU C Y, LIU W, RANGA A, et al. DSSD: deconvolutional single shot detector[EB/OL]. (2017-01-23)[2021-06-02]. https://arxiv.org/abs/1701.06659.pdf.
[44]	SHEN Z Q, LIU Z, LI J G, et al. Object detection from scratch with deep supervision[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 398-412. DOI:10.1109/TPAMI.2019.2922181
[45]	LI Z X, ZHOU F Q. FSSD: feature fusion single shot multibox detector[EB/OL]. (2018-05-17)[2021-06-02]. https://arxiv.org/abs/1712.00960.pdf.
[46]	JEONG J, PARK H, KWAK N. Enhancement of SSD by concatenating feature maps for object detection[EB/OL]. (2017-05-26)[2021-06-02]. https://arxiv.org/abs/1705.09587.pdf.
[47]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-08-08)[2021-06-02]. https://arxiv.org/abs/1804.02767.pdf.
[48]	ZHAO Q J, SHENG T, WANG Y T, et al. M2Det: a single-shot object detector based on multi-level feature pyramid network[J]. Proceedings of 2019 AAAI Conference on Artificial Intelligence, 2019, 33: 9259-9266.
[49]	TAN M, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. (2020-09-11)[2021-06-02]. https://arxiv.org/abs/1905.11946.pdf.
[50]	TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 10781-10790.
[51]	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2020-04-23]. https://arxiv.org/abs/2004.10934.pdf.
[52]	HEREDIA A, BARROS-GAVILANES G. Video processing inside embedded devices using SSD-Mobilenet to count mobility actors[C]//Proceedings of 2019 IEEE Colombian Conference on Applications in Computational Intelligence. Washington D.C., USA: IEEE Press, 2019: 1-6.
[53]	张震, 李孟洲, 李浩方, 等. 改进SSD算法及其在地铁安检中的应用[J]. 计算机工程, 2021, 47(7): 314-320. ZHANG Z, LI M Z, LI H F, et al. Improved SSD algorithm and its application in subway security detection[J]. Computer Engineering, 2021, 47(7): 314-320. (in Chinese)
[54]	LI X B, ZHAO H H, ZHANG L Q. Recurrent RetinaNet: a video object detection model based on focal loss[C]//Proceedings of the 25th International Conference on Neural Information Processing. Berlin, Germany: Springer, 2018: 499-508.
[55]	AFIF M, AYACHI R, SAID Y, et al. An evaluation of RetinaNet on indoor object detection for blind and visually impaired persons assistance navigation[J]. Neural Processing Letters, 2020, 51(3): 2265-2279. DOI:10.1007/s11063-020-10197-9
[56]	CONDAT R, ROGOZAN A, BENSRHAIR A. GFD-Retina: gated fusion double RetinaNet for multimodal 2D road object detection[C]//Proceedings of the 23rd International Conference on Intelligent Transportation Systems. Washington D.C., USA: IEEE Press, 2020: 1-6.
[57]	HUANG Y Q, ZHENG J C, SUN S D, et al. Optimized YOLOv3 algorithm and its application in traffic flow detections[J]. Applied Sciences, 2020, 10(9): 3079. DOI:10.3390/app10093079
[58]	施政, 毛力, 孙俊. 基于YOLO的多模态加权融合行人检测算法[J]. 计算机工程, 2021, 47(8): 234-242. SHI Z, MAO L, SUN J. YOLO-based multi-modal weighted fusion pedestrian detection algorithm[J]. Computer Engineering, 2021, 47(8): 234-242. (in Chinese)
[59]	郑秋梅, 王璐璐, 王风华. 基于改进卷积神经网络的交通场景小目标检测[J]. 计算机工程, 2020, 46(6): 26-33. ZHENG Q M, WANG L L, WANG F H. Small object detection in traffic scene based on improved convolutional neural network[J]. Computer Engineering, 2020, 46(6): 26-33. (in Chinese)
[60]	SUNG J Y, YU S B, KOREA S H P. Real-time automatic license plate recognition system using YOLOv4[C]//Proceedings of 2020 IEEE International Conference on Consumer Electronics-Asia. Washington D.C., USA: IEEE Press, 2020: 1-3.
[61]	CAI Y F, LUAN T Y, GAO H B, et al. YOLOv4-5D: an effective and efficient object detector for autonomous driving[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-13.
[62]	TRAN T H P, JEON J W. Accurate real-time traffic light detection using YOLOv4[C]//Proceedings of 2020 IEEE International Conference on Consumer Electronics-Asia. Washington D.C., USA: IEEE Press, 2020: 1-4.
[63]	LI S W, GU X Y, XU X R, et al. Detection of concealed cracks from ground penetrating radar images based on deep learning algorithm[J]. Construction and Building Materials, 2021, 273: 1-5.
[64]	FRANCIES M L, ATA M M, MOHAMED M A. A robust multiclass 3D object recognition based on modern YOLO deep learning algorithms[J]. Concurrency and Computation Practice and Experience, 2021, 34(1): 1-24.
[65]	HUANG L, YANG Y, DENG Y, et al. DenseBox: unifying landmark localization with end to end object detection[EB/OL]. (2015-09-29)[2021-06-02]. http://export.arxiv.org/abs/1509.04874.pdf.
[66]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[67]	ZHANG S F, CHI C, YAO Y Q, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 9756-9765.
[68]	郑婷婷, 杨雪, 戴阳. 基于关键点的Anchor Free目标检测模型综述[J]. 计算机系统应用, 2020, 29(8): 1-8. ZHENG T T, YANG X, DAI Y. Overview of anchor free object detection model based on key points[J]. Computer Systems and Applications, 2020, 29(8): 1-8. (in Chinese)
[69]	WANG X, CHEN K, HUANG Z, et al. Point linking network for object detection[EB/OL]. (2017-06-13)[2021-06-02]. https://arxiv.org/abs/1706.03646v2.pdf.
[70]	LAW H, DENG J. CornerNet: detecting objects as paired keypoints[J]. International Journal of Computer Vision, 2020, 128(3): 642-656. DOI:10.1007/s11263-019-01204-1
[71]	ZHOU X Y, ZHUO J C, KRÄHENBÜHL P. Bottom-up object detection by grouping extreme and center points[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 850-859.
[72]	LIU W, LIAO S C, REN W Q, et al. High-level semantic feature detection: a new perspective for pedestrian detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 5187-5196.
[73]	江洋. 基于深度学习的火灾视频实时智能检测研究[D]. 海口: 海南大学, 2020. JIANG Y. Research on real-time intelligent detection of fire video based on deep learning[D]. Haikou: Hainan University, 2020. (in Chinese)
[74]	JIANG Z R. An improved neural network model based on visual attention mechanism for object detection[C]//Proceedings of 2019 International Conference on Big Data, Electronics and Communication Engineering. Paris, France: Atlantis Press, 2019: 155-158.
[75]	TAO L, HONG T, GUO Y C, et al. Drone identification based on CenterNet-TensorRT[C]//Proceedings of 2020 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. Washington D.C., USA: IEEE Press, 2020: 1-5.
[76]	姜建勇, 吴云, 龙慧云, 等. 基于CenterNet的实时行人检测模型[J]. 计算机工程, 2021, 47(10): 276-282. JIANG J Y, WU Y, LONG H Y, et al. CenterNet-based real-time pedestrian detection model[J]. Computer Engineering, 2021, 47(10): 276-282. (in Chinese)
[77]	AHMED I, AHMAD M, RODRIGUES J J P C, et al. Edge computing-based person detection system for top view surveillance: using CenterNet with transfer learning[J]. Applied Soft Computing, 2021, 107(3): 1-5.
[78]	TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2020: 9626-9635.
[79]	KONG T, SUN F C, LIU H P, et al. FoveaBox: beyound anchor-based object detection[J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398. DOI:10.1109/TIP.2020.3002345
[80]	YANG Z, LIU S H, HU H, et al. RepPoints: point set representation for object detection[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 9656-9665.
[81]	KANNADAGULI P. FCOS based seatbelt detection system using thermal imaging for monitoring traffic rule violations[C]//Proceedings of the 4th International Conference on Electronics, Materials Engineering and Nano-Technology. Washington D.C., USA: IEEE Press, 2020: 1-6.
[82]	ZHANG F, ZENG Y. D-FCOS: traffic signs detection and recognition based on semantic segmentation[C]//Proceedings of 2020 IEEE International Conference on Power, Intelligent Computing and Systems. Washington D.C., USA: IEEE Press, 2020: 287-292.
[83]	EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal Visual Object Classes(VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4
[84]	BOYD K, SANTOS COSTA V, DAVIS J, et al. Unachievable region in precision-recall space and its effect on empirical evaluation[C]//Proceedings of International Conference on Machine Learning. Washington D.C., USA: IEEE Press, 2012: 349-367.
[85]	ZHANG J, SCLAROFF S, LIN Z, et al. Minimum barrier salient object detection at 80 FPS[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 1404-1412.
[86]	KANG K, LI H S, YAN J J, et al. T-CNN: tubelets with convolutional neural networks for object detection from videos[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(10): 2896-2907. DOI:10.1109/TCSVT.2017.2736553
[87]	BELHASSEN H, ZHANG H, FRESSE V, et al. Improving video object detection by Seq-Bbox matching[C]//Proceedings of the 14th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Washington D.C., USA: IEEE Press, 2019: 226-233.