基于局部注意的快速视频目标检测方法

引用本文

史钰祜, 张起贵. 基于局部注意的快速视频目标检测方法[J]. 计算机工程, 2022, 48(5), 314-320. DOI: 10.19678/j.issn.1000-3428.0061362.

SHI Yuhu, ZHANG Qigui. Method for Fast Video Object Detection Based on Local Attention[J]. Computer Engineering, 2022, 48(5), 314-320. DOI: 10.19678/j.issn.1000-3428.0061362.

基金项目

山西省自然科学基金（2013011017-3）；太原理工大学科技创新基金（9002-03011843）

作者简介

史钰祜（1995—），男，硕士研究生，主研方向为图像处理、嵌入式系统;
张起贵，教授

文章历史

收稿日期：2021-04-02
修回日期：2021-05-14

Contents Abstract Full text Figures/Tables PDF

基于局部注意的快速视频目标检测方法

史钰祜 , 张起贵

太原理工大学信息与计算机学院, 山西晋中 030600

收稿日期：2021-04-02；修回日期：2021-05-14

基金项目：山西省自然科学基金（2013011017-3）；太原理工大学科技创新基金（9002-03011843）

作者简介：史钰祜（1995—），男，硕士研究生，主研方向为图像处理、嵌入式系统; 张起贵，教授.

E-mail: shi_yuhu@163.com

摘要：视频目标检测是对视频内的目标进行准确分类与定位。现有基于深度学习的视频目标检测方法通过光流传播特征，不仅存在模型参数量大的问题，而且直接将光流应用于高层特征难以建立准确的空间对应关系。提出一种轻量级的视频目标检测方法。通过设计一种特征传播模型，在不同帧的局部区域内将高层特征从关键帧传播到非关键帧，并将有限的计算资源分配给关键帧，以加快检测速度。构建动态分配关键帧模块，根据目标运动速度动态地调整关键帧选择间隔，以减少计算量并提高检测精度。在此基础上，为进一步降低最大延迟，提出异步检测模式，使得特征传播模型和关键帧选择模块协同工作。实验结果表明，该方法的检测速度和最大延迟分别为31.8 frame/s和31 ms，与基于内存增强的全局-局部聚合方法相比，其在保证检测精度的前提下，具有较快的检测速度，并且实现实时在线的视频目标检测。

Method for Fast Video Object Detection Based on Local Attention

SHI Yuhu , ZHANG Qigui

College of Information and Computer, Taiyuan University of Technology, Jinzhong, Shanxi 030600, China

Abstract: Video object detection is used to classify and locate targets in a video accurately. Existing video object detection methods based on deep learning propagate features through optical flow, which not only has the problem of a large number of model parameters, but also directly applies optical flow to high-level features, making it difficult to establish accurate spatial correspondence. This study proposes a lightweight video object detection method. By designing a feature propagation model that propagates high-level features from key frames to non-key frames in the local areas of different frames, it allocates limited computing resources to key frames to increase the detection speed. Based on the target motion speed, a dynamic allocation of key frame module is constructed to dynamically adjust the key frame selection interval to reduce the number of calculations and improve detection accuracy. On this basis, to further reduce the maximum delay, an asynchronous detection mode is proposed to coordinate the feature propagation and calculation of the key frames. The experimental results show that the detection speed and maximum delay of this method are 31.8 frame/s and 31 ms, respectively. Compared with the global local aggregation method based on memory enhancement, it has a faster detection speed on the premise of ensuring detection accuracy and realizes real-time online video target detection.

开放科学（资源服务）标志码（OSID）：

0 概述

随着深度卷积神经网络（Convolutional Neural Network，CNN）^[1]的发展，基于深度学习的图像目标检测取得显著进展^[2]，同时推动了图像目标检测向视频目标检测的扩展。视频目标检测在交通、医疗、体育等领域都具有广泛的应用价值。近年来，对视频进行快速且准确的检测成为计算机视觉领域的研究热点。

基于深度学习的图像目标检测主要分为两阶段检测方法（如R-CNN^[3]、Faster R-CNN^[2]、R-FCN^[4]）和单阶段检测方法（SSD^[5]、YOLO^[6]）。相比单张图像，视频包含更丰富的时间和运动信息，同时也产生信息冗余。在图像目标检测的基础上，通过聚合时间和运动信息来提高逐帧检测的性能是视频目标检测的研究重点。DFF^[7]和Towards方法^[8]利用FlowNet^[9]预测的光流在帧之间传播特征^[10-11]，实现在线的视频目标检测。文献[12]将关联特征加入到DFF架构中，并对目标进行修正。然而光流网络存在自身的局限性，FlowNet通过增加模型的参数量，提高对硬件资源的要求。例如，ResNet101+RFCN的检测模型参数为59.6×10⁶，使用FlowNet时需要额外增加37×10⁶。在KITTI数据集上，FlowNet的运行速度仅为10 frame/s，在一定程度上阻碍了视频目标检测的实际应用。光流难以准确表示高层特征之间的对应关系。由于网络感受野的增大，因此高层特征中一个像素的偏移可以对应于图像中几十个像素。基于关系网络^[13]的RDN^[14]可以直接学习局部范围内不同帧候选框之间的关系，以增强物体特征，从而实现离线的视频目标检测。文献[15]利用关系网络，在深度特征基础上引入关联特征。文献[16]提出基于内存增强的全局-局部聚合方法（MEGA），基于递归机制^[17]，利用对位置不敏感的关系模块^[13]聚合全局和局部视频帧中的候选框特征，从而增强当前帧的图像特征。但是该方法在逐帧执行完整的模型结构时，其计算量较大且速度较慢。

本文提出基于局部注意的视频目标检测方法。通过构建一种特征传播模型，其在不同帧的局部区域内通过逐渐稀疏的步幅确定空间对应关系，设计动态分配关键帧模块，动态地按需分配关键帧。在此基础上，提出异步检测模式，协调特征传播模型和动态分配关键帧模块，在保证检测精度的前提下，加快模型对视频序列的处理速度，从而实现实时在线的视频目标检测。

1 轻量级的快速视频目标检测模型

本文提出基于局部注意的快速视频目标检测方法，其模型结构如图 1所示。基于文献[16]，本文扩展了一个基于局部注意的快速检测分支，以提取非关键帧的特征。在图 1中，$ {I}_{t} $表示视频序列$ \{{I}_{t}{\}}_{t=1}^{T} $在t时刻输入的视频帧。

	Download: JPG larger image
图 1 本文模型结构 Fig. 1 Structure of the proposed model

一段视频序列在t时刻输入的视频帧通过轻量级特征提取网络N_L获得低层图像特征F_L，并将其与上一关键帧的低层图像特征一起送入到关键帧选择模块，若判断为关键帧I ^k，则将关键帧的低层图像特征$ {F}_{L}^{k} $继续送入到高层图像特征提取网络N_H，从而获得最终的图像特征$ {F}_{H}^{k} $。该部分采用MEGA方法选择全局和位于当前关键帧局部范围内不同帧产生的候选框，并通过关系模块将选取的候选框聚合到当前关键帧，得到增强的图像特征，同时更新长时记忆（Long-Rang Memory，LRM）模块，并在下一关键帧的检测中使用该特征来辅助检测，实现在线的目标检测。LRM使得关键帧能够聚合不同视频帧的范围扩大，以获得更多的全局和局部信息。由于关键帧包含更丰富的特征信息，本文将全局和局部候选区域的范围从已检测的所有视频帧改为已检测的所有关键帧。

若视频序列在t时刻输入的视频帧被判断为非关键帧I ⁱ，由于非关键帧的低层图像特征$ {F}_{L}^{i} $仅使用轻量级的特征提取网络N_L，得到$ {F}_{L}^{i} $所包含的信息对于最终分类与回归任务不够丰富。因此，本文将$ {F}_{L}^{i} $送入特征传播模型，经过特征转换模块生成与高层图像特征相匹配的特征，并将其送入基于局部注意的特征对齐模块。同时，从LRM中获取邻近关键帧的图像特征$ {F}_{H}^{k} $，并送入特征对齐模块，对$ {F}_{L}^{i} $进行特征对齐和增强，得到非关键帧最终的图像特征$ {F}_{H}^{i} $。为进一步减少运算量，LRM只在关键帧特征提取完成后进行更新，非关键帧特征提取时仅通过LRM提取特征信息，不对其进行更新。

2 算法设计 2.1 特征传播模型

特征传播模型由基于局部注意的特征对齐模块、特征转换模块和质量增强模块构成，如图 2所示。由于非关键帧的特征提取能力较弱，因此本文构建特征传播模型。

	Download: JPG larger image
图 2 特征传播模型结构 Fig. 2 Structure of feature propagation model

非关键帧的低层图像特征$ {F}_{L}^{i} $通过特征转换模块后与邻近关键帧增强后的特征$ {F}_{H}^{k} $一起送入基于局部注意的特征对齐模块，进而引入到质量增强模块，以得到非关键帧最终的图像特征$ {F}_{H}^{i} $。其中，邻近关键帧增强后的特征从LRM中获得。

2.1.1 基于局部注意的特征对齐模块

假设$ {F}_{}^{k} $和$ {F}_{}^{i} $分别为帧$ {I}_{}^{k} $和$ {I}_{}^{i} $的特征图，将它们的嵌入特征记为$ f\left({F}_{}^{k}\right)\in {\mathbb{R}}^{c\times h\times w} $和$ g\left({F}^{i}\right)\in {\mathbb{R}}^{c\times h\times w} $，其中c、h、w分别表示通道数、嵌入特征图的高度和宽度。嵌入函数$ f(\mathrm{ }\cdot \mathrm{ }) $和$ g(\mathrm{ }\cdot \mathrm{ }) $是为了减少$ {F}_{}^{k} $和$ {F}_{}^{i} $的通道数。在实验中，该函数通过1×1卷积实现。受注意力机制^[18]的启发，基于局部注意的特征对齐模块利用2个特征单元之间的特征相似度计算对应的稀疏关联权重值，并将其与原特征图相融合，以得到经过对齐的图像特征。这2个特征单元分别来自2个高层图像特征的嵌入特征图$ f\left({F}_{}^{k}\right) $和$ g\left({F}^{i}\right) $，在特征图上以逐渐稀疏的步幅分布。基于局部注意的特征对齐模块如图 3所示，不同的斜线数量表示不同的步幅。

	Download: JPG larger image
图 3 基于局部注意的特征对齐模块 Fig. 3 Feature alignment module based on local attention

特征对齐模块是利用FlowNet提取随机选取100段视频的光流，在水平和竖直方向上分别对光流值进行统计，光流分布如图 4所示。在竖直和水平方向上，光流都集中分布在零附近。分布结果表明，关联权重的特征单元的计算可以采用渐进稀疏的步幅从较小的邻域内选择。渐进稀疏的步幅使特征传播模块更多关注邻域内具有小光流值的运动信息。

	Download: JPG larger image
图 4 竖直和水平方向的光流分布 Fig. 4 Optical flow distribution in vertical and horizontal directions

局部注意模块通过对$ g\left({F}^{i}\right) $中每个特征单元和各自对应$ f\left({F}^{k}\right) $中的局部稀疏位置进行比较，以得到相应的特征相似度，并将其进行归一化，从而得到用于对$ {F}^{k} $进行特征对齐的权重。在对应的局部稀疏位置中采用相似性较高的特征单元进行表示，相似性较高的特征单元对$ g\left({F}^{i}\right) $中的特征单元影响较大，得到更高的关联权重值。将信息传播到新的特征单元时，获得更大占比的信息。最后，通过稀疏关联权重值得到经过特征对齐的特征图。

局部注意模块的计算过程可以分为2个步骤：

1）通过两个特征单元的特征相似度生成稀疏关联权重值。定义$ {F}^{i} $和$ {F}^{k} $中位置$ {n}_{1} $和$ {n}_{2} $的两个特征单元之间特征相似度$ {c}_{({n}_{1}, {n}_{2})} $，如式（1）所示：

$ {c}_{({n}_{1}, {n}_{2})}=〈g\left({F}_{({x}_{1}, {y}_{1})}^{i}\right), f\left({F}_{({x}_{2}, {y}_{2})}^{k}\right)〉 $

(1)

其中：$ ({x}_{1}, {y}_{1}) $和$ ({x}_{2}, {y}_{2}) $分别为$ {n}_{1} $、$ {n}_{2} $的坐标；$ g\left({F}_{({x}_{1}, {y}_{1})}^{i}\right)\in {\mathbb{R}}^{c\times 1\times 1} $；$ f\left({F}_{({x}_{2}, {y}_{2})}^{k}\right)\in {\mathbb{R}}^{c\times 1\times 1} $；$ 〈\cdot 〉 $为内积运算。对于$ f\left({F}_{}^{k}\right) $中特征单元（x，y），本文仅考虑位于$ f\left({F}_{}^{k}\right) $中局部稀疏范围D（x，y）内对应的特征单元。D（x，y）是由逐渐稀疏的步幅和最大位移d定义的邻域。D（x，y）可以划分为一系列子区域，如式（2）和式（3）所示：

$ D(x, y)=\left\{{D}_{0}\right(x, y), {D}_{1}(x, y), \cdots , {D}_{d}(x, y\left)\right\} $

(2)

$ \begin{array}{l}{D}_{0}(x, y)=\left\{\right(x, y\left)\right\}\\ {D}_{l}(x, y)=\left\{\right(x+a, x+b), \forall a, b\in \{l, 0, -l\left\}\right\}\end{array} $

(3)

其中：$ l $为$ 1\le l\le d $；$ {D}_{l}(x, y) $为子区域中步幅为l的特征单元。D（x，y）在$ f\left({F}^{k}\right) $中的空间排列如图 3所示。这些区域从中心到外部逐渐稀疏，通过softmax对特征相似度进行归一化，得到关联权重值$ {\widehat{c}}_{({n}_{1}, {n}_{2})} $，如式（4）所示：

$ {\widehat{c}}_{({n}_{1}, {n}_{2})}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{({n}_{1}, {n}_{2})}\right)}{\sum \limits_{{n}_{2}\in D({x}_{1}, {y}_{1})}\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{({n}_{1}, {n}_{2})}\right)} $

(4)

基于局部注意的特征对齐模块可以获取$ {F}^{k} $所对应的局部稀疏范围内最相似和最关键的特征，类似于注意力机制^[19]，从而建立两个特征图之间的空间对应关系。

2）通过聚合$ {F}^{k} $中局部范围的特征单元和相应的权重$ \widehat{C} $，得到经过对齐后的图像特征$ {\widehat{F}}^{i} $，如式（5）所示：

$ {\widehat{F}}_{({x}_{1}, {y}_{1})}^{i}=\sum \limits_{{n}_{2}：（{x}_{2}, {y}_{2}）\in D({x}_{1}, {y}_{1})}{\widehat{c}}_{({n}_{1}, {n}_{2})}{F}_{({x}_{2}, {y}_{2})}^{k} $

(5)

2.1.2 特征转换模块

低层图像特征经过基于局部注意的特征对齐模块，与邻近关键帧增强后的特征进行特征对齐，以得到非关键帧的图像特征。但是这些低层特征不包含足够的图像特征与高层图像特征对应，直接将其引入到对齐模块中，导致生成的图像特征不包含关键信息。为此，本文采用一个轻量级的特征转换模块^[20]对提取的低层特征进行编码，以达到高层图像特征的水平，从而丰富低层图像特征的信息。将对齐后的图像特征与低层图像特征共同送入到质量增强网络，进一步补充细节信息。质量增强网络的加入是因为特征对齐时的加权聚合可能会导致混叠效应，造成对齐后的特征丢失一些细节信息，从而影响候选框的检测。将经过质量增强网络的图像特征送入后续的检测网络，执行分类和回归的任务。特征转换模块和质量增强网络的结构相同，如图 2所示。受MobileNet^[21]的启发，本文引入深度可分离卷积，将一个标准卷积分解为逐通道卷积和逐点卷积^[22]。其中逐通道卷积是指每个输入通道分别采用一个卷积，各个通道分开计算，逐点卷积是$ 1\times 1 $的标准卷积核。深度可分离卷积示意图如图 5所示，将网络中两层标准卷积替换为相应的深度可分离卷积，深度可分离卷积的引入可以大幅减少模型的参数量，降低对硬件资源的要求。若模型采用标准卷积，则参数量为295×10⁴，若采用深度可分离卷积，则参数量仅为33×10⁴，参数量仅为标准卷积的11%。

	Download: JPG larger image
图 5 深度可分离卷积示意图 Fig. 5 Schematic diagram of depthwise separable convolution

2.2 动态分配关键帧模块

关键帧选择策略是实现高效检测的关键，文献[8]通过计算当前帧与上一关键帧之间的光流，并与设定的阈值矩阵相比来判断是否选择为关键帧。该方法在一定程度上适应目标的不同变化速率，但光流不能准确表示高层特征之间的对应关系，且计算量较大。

本文方法使用当前帧位置框和前一关键帧中位置框的交集和并集的比值，并将其作为反映目标速率变化的依据。该比值越小，表示当前帧与上一关键帧的距离越大。当比值小于设定的阈值时，则选择当前帧为新的关键帧，但是获取位置框的代价较高，且难以实现。本文设计一个轻量级的比值预测网络。网络的输入为上一关键帧和当前帧的低层特征，分别记为$ {F}_{L}^{k} $和$ {F}_{L}^{i} $，首先通过第1层3×3、通道数为256的卷积，使得特征图通道数降低为256，进而计算它们的差值，再将差值送入到第2层3×3、通道数为256的卷积。为减少计算量，此处卷积层采用深度可分离卷积。最后连接一个最大池化层和一个全连接层，输出比值预测值，其中最大池化层用于降低特征图的维数，从而减少计算量。动态分配关键帧示意图如图 6所示，经过该网络预测得到的比值随着当前帧与上一关键帧距离的增加而减小，直至小于提前设定的阈值，将其设定为新的关键帧。

	Download: JPG larger image
图 6 动态分配关键帧示意图 Fig. 6 Schematic diagram of dynamic allocation of key frame

2.3 异步检测模式

现有的基于关键帧的目标检测方法仅考虑每帧的平均运行时间^[23]。但是，在关键帧和非关键帧上运行不同的特征提取网络，会造成在不同帧上计算量的差别较大。在提取关键帧特征时运行更多的时间，相比非关键帧，其存在延时较大的问题。

基于文献[24]，本文提出一种异步运行的模式，以大幅降低最大延迟。该模式将目标检测分为快速和慢速2种通道，快速通道采用基于局部注意的特征对齐模块对当前图像特征进行对齐，慢速通道采用关键帧的特征提取网络，即内存增强的全局-局部聚合方法。关键帧的大延时是由于运行高层特征提取网络造成的。为此，当某一帧被确定为关键帧后，首先通过快速通道从LRM中获取上一关键帧的图像特征，再利用该图像特征对当前关键帧进行特征对齐，并将对齐后的图像特征临时选择为当前关键帧的高层图像特征$ {\widehat{F}}_{H}^{k} $，并放入缓存中。同时在不阻塞主程序的情况下启动后台进程，通过慢速通道对当前关键帧进行特征提取，得到$ {F}_{H}^{k} $并更新内存，以替换缓存中临时高层图像特征$ {\widehat{F}}_{H}^{k} $。实验结果表明，异步检测模式可以大幅降低最大延迟（从114 ms降至31 ms），而准确率只有小幅度降低（从81.9%降至80.7%）。因此，在视频监控和自动驾驶实际应用中，对延迟有严格约束，采用本文提出的异步检测模式是一种非常有效的方法。

3 实验与结果分析 3.1 数据集选择和评估

本文数据集选用ImageNet VID，该数据集包括30种目标类别。其中训练集包含3 862个视频片段，验证集包含555个视频片段。根据文献[7-8]中广泛采用的协议，在验证集上评估本文提出的方法，并使用平均精度（mAP）作为检测精度的评价指标，每秒检测帧数和最大延迟作为检测速度的评价指标。

3.2 训练与测试

本文使用ResNet-101作为特征提取网络，选取低于Conv4_3的卷积层构造低层特征提取网络N_L。模型选取层数较多的低层特征提取网络，以获得较高的精度，但是会提升计算成本，从而降低运行速度。本文选择低于Conv4_3的卷积层，其原因为通过实验发现，该选择在验证集的准确性和速度之间能够实现较优的平衡。检测网络使用R-FCN^[4]，将Conv5的步幅从2修改为1，以增大特征图的分辨率。在区域建议网络RPN产生候选框后，使用MEGA提出的内存增强全局-局部聚合方法对候选框的特征进行增强，同时对特征传播模型和动态分配关键帧模块进行微调。这两个模块将选取间隔为l的一对视频帧作为输入（在文献[25]中l是随机选取的）。该对视频帧的选择标准为：第一帧作为关键帧，第二帧必须为带有标签的视频帧。通过特征传播模型对关键帧特征进行提取和传播，并将其作为每对视频帧中的第二帧，以生成检测结果图。该模型经过训练后，尽可能减少生成的检测结果和标签之间的损失，从而得到最优解。经过实验验证，当超参数逐步稀疏范围的最大步幅d=4、动态分配关键帧的阈值threshold=0.75时，该模型能够在速度和精度方面实现较优的平衡。本文选择回归模型训练动态分配关键帧模块，其中真实值为关键帧边框和当前帧边框的交集与并集的比值。整个网络使用随机梯度下降算法（Stochastic Gradient Descent，SGD）在GPU上进行训练，并且采用dropout策略。训练时，本文对输入视频帧进行预处理，调整短边为600像素，区域建议网络RPN采用9个锚点和300个建议区域，在4块RTX 2080Ti GPU执行1.2×10⁵迭代。前8×10⁴迭代的学习率为2.5×10^-4，后4×10⁴迭代的学习率为2.5×10^-5。

3.3 结果分析 3.3.1 检测精度与速度分析

本文方法与现有视频目标检测方法检测精度和检测速度的对比如表 1所示。当本文方法的检测精度为80.7%时，检测速度达到31.8 frame/s。与MEGA方法^[16]相比，本文方法的检测精度略有下降，但检测速度提高了3.6倍，达到了实时检测的要求。本文设计的模型是一种在线检测的模型。与基于光流的方法（如DFF^[7]和Towards^[8]）相比，本文方法能够实现更快的检测速度和更高的检测精度。在没有外部光流网络的情况下，本文所提的模型明显简化整个检测架构，并且能够精确地学习连续视频帧之间的特征对应关系。

下载CSV 表 1 不同方法的检测精度和检测速度对比 Table 1 Detection accuracy and detection speed comparison among different methods

3.3.2 模型分解实验

本文在ImageNet VID数据集上进行模型分解实验，以验证特征传播模型、动态分配关键帧模块和异步检测模式的有效性，分解实验的详细设置如表 2所示。

下载CSV 表 2 模型分解实验的配置 Table 2 Configuration of model decomposition experiment

本文首先将特征传播模型与现有的非光流特征传播模型进行对比，然后比较特征传播模型和光流传播模型。MatchTrans^[20]和Nonlocal^[29]是两种非光流特征传播模型，MatchTrans通过计算局部区域内所有特征单元的相似度，以得到特征传播的权值。Nonlocal考虑所有特征单元的相似性，其mAP为72.8%，检测速度为41.12 frame/s。本文提出的特征传播模型使用渐进稀疏的局部区域。为验证渐进稀疏局部区域的有效性，本文构建一个密集版本的特征传播模型。与MatchTrans相似，该模型使用局部区域内的所有特征单元，通过式（4）计算每个特征单元的传播权值。不同非光流特征传播方法的性能对比如表 3所示。本文仅将上一关键帧的特征传播到非关键帧，实现简单的目标检测框架，从而验证不同特征传播方法的性能。从表 3可以看出，在所有最大位移设置下，本文方法具有较高的检测精度和较快的检测速度，当最大位移为4时，检测精度达到了最高。

下载CSV 表 3 不同非光流特征传播方法的性能指标对比 Table 3 Performance indexs comparison among different feature propagation with non-optical flow methods

光流可以预测连续帧之间的运动场，DFF通过FlowNet将关键帧的特征传播到非关键帧。为验证局部注意在图像特征之间空间对应的有效性，本文将局部注意和DFF进行对比，结果如表 4所示。表 4仅将上一个关键帧的特征传播到非关键帧，构建一个简单的目标检测架构。从表 4可以看出，在关键帧间隔分别为10 frame和15 frame的情况下，本文方法的性能更优。

下载CSV 表 4 不同光流特征传播方法的性能指标对比 Table 4 Performance indexs comparison among different feature propagation with optical flow methods

为验证动态分配关键帧模块的有效性，本文对方法1和方法2进行对比。在选择关键帧时，本文方法1和本文方法2分别采用固定间隔选择和动态分配方法。不同关键帧选择方法的性能对比如图 7所示。在不同的检测速度下，本文的动态分配关键帧选取方法性能总是优于固定间隔的选取方法。其中，关键帧选取间隔l=2，4，…，24，动态分配关键帧的阈值threshold=0.95，0.90，…，0.40。从图 7可以看出，随着阈值的减小，检测精度在阈值较大的阶段（threshold > 0.8）会随着检测速度的加快而增加，当阈值减小到一定程度后（threshold < 0.8），检测精度会随着检测速度的加快而下降。阈值较大（threshold > 0.8）导致两个连续关键帧之间存在信息冗余的问题，导致精度降低，如图 7中threshold由0.95降低至0.8，检测精度反而提高。过小的阈值导致两个关键帧之间存在较大差异，在这种情况下建立空间对应面临一定的挑战，造成检测精度急剧下降，如图 7中threshold小于0.6，检测精度随着检测速度的增加而急剧下降。因此，当阈值设置太小或者太大时，精度就会降低。从图 7可以看出，当阈值threshold=0.75时，检测精度为81.2%，检测速度为18.5 frame/s，在两者之间实现较优的平衡。

	Download: JPG larger image
图 7 不同关键帧选择方法的性能指标对比 Fig. 7 Performance indexs comparison among different key frame selection methods

为验证异步检测模式的有效性，本文所提架构的整体延迟和每个模块各自的延迟对比如表 5所示。其中，MEGA方法是逐帧检测的方法。方法1采用特征传播模型和固定间隔关键帧选取方法，以加快检测速度，每帧运行时间从114 ms缩短到46 ms，同时检测精度下降了2.8个百分点。方法2采用动态分配关键帧模块，相比方法1，其运行时间增加了8 ms，检测精度提高了2.1个百分点。虽然方法1和方法2缩短了模型的整体检测时间，但是关键帧的计算量较大，并不能减少最大延迟。本文方法在方法2的基础上采用异步检测模式，将最大延迟大幅减少到31 ms（约为基础网络延迟的27%），并具有较高的精度。异步检测模式不仅在平均意义上降低整体成本，而且大幅度降低了最大延迟。

下载CSV 表 5 不同方法的性能指标对比 Table 5 Performance indexs comparison among different methods

在ImageNet VID数据集上本文方法的可视化检测结果如图 8所示，本文在实现加快检测速度的同时，具有较高的检测精确度。

	Download: JPG larger image
图 8 在ImageNet VID数据集上本文方法的可视化结果 Fig. 8 Visualization results of the proposed method on ImageNet VID dataset

4 结束语

本文提出基于局部注意的视频目标检测方法。通过构建特征传播模型将关键帧的高层特征传播至非关键帧，设计基于精度预测的动态分配关键帧模块，加快检测速度。在此基础上，提出异步检测模式，协调关键帧的特征传播和计算。在ImageNet VID数据集上的实验结果表明，本文方法的检测精度为80.7%，检测速度和最大延迟分别为31.8 frame/s和31 ms，在保证检测精度的前提下，获得低延迟的在线检测结果。后续将采用知识蒸馏的方法对模型进一步压缩，以降低系统的整体计算成本。

参考文献

[1]	HE K M, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
[2]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.
[3]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision And Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 580-587.
[4]	DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 379-387.
[5]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[6]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[7]	ZHU X, XIONG Y, DAI J, et al. Deep feature flow for video recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2349-2358.
[8]	ZHU X, DAI J, YUAN L, et al. Towards high performance video object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7210-7218.
[9]	DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 2758-2766.
[10]	朱锡洲. 基于特征光流的视频中物体检测[D]. 合肥: 中国科学技术大学, 2020. ZHU X Z. Flow-based video object detection[D]. Hefei: University of Science and Technology of China, 2020. (in Chinese)
[11]	董潇潇. 光流引导的多关键帧特征传播与聚合视频目标检测[D]. 北京: 北京邮电大学, 2019. DONG X X. Optical-flow-guided multi-keyframes feature propagation and aggregation for video object detection[D]. Beijing: Beijing University of Posts and Telecommunications, 2019. (in Chinese)
[12]	刘玉杰, 曹先知, 李宗民, 等. 结合关联特征和卷积神经网络的视频目标检测[J]. 华南理工大学学报(自然科学版), 2018, 46(12): 26-33. LIU Y J, CAO X Z, LI Z M, et al. Video object detection based on correlation feature and convolutional neural network[J]. Journal of South China University of Technology(Natural Science Edition), 2018, 46(12): 26-33. (in Chinese)
[13]	HU H, GU J, ZHANG Z, et al. Relation networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 3588-3597.
[14]	DENG J, PAN Y, YAO T, et al. Relation distillation networks for video object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 7023-7032.
[15]	汪常建, 丁勇, 卢盼成. 融合改进FPN与关联网络的Faster R-CNN目标检测[J]. 计算机工程, 2022, 48(2): 173-179. WAMG C J, DING Y, LU P C. Object detection using Faster R-CNN combining improved FPN and relation network[J]. Computer Engineering, 2022, 48(2): 173-179. (in Chinese)
[16]	CHEN Y, CAO Y, HU H, et al. Memory enhanced global-local aggregation for video object detection[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 10337-10346.
[17]	DAI Z, YANG Z, YANG Y, et al. Transformer-XL: attentive language models beyond a fixed-length con-text[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1901.02860.pdf.
[18]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 6000-6010.
[19]	BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1409.0473.pdf.
[20]	XIAO F, LEE Y J. Video object detection with an aligned spatial-temporal memory[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1712.06317v2.pdf.
[21]	HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1704.04861.pdf.
[22]	曹渝昆, 桂丽嫒. 基于深度可分离卷积的轻量级时间卷积网络设计[J]. 计算机工程, 2020, 46(9): 95-100, 109. CAO Y K, GUI L A. Design of lightweight temporal convolutional network based on depthwise separable convolution[J]. Computer Engineering, 2020, 46(9): 95-100, 109. (in Chinese)
[23]	SHELHAMER E, RAKELLY K, HOFFMAN J, et al. Clockwork convnets for video semantic segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 852-868.
[24]	LIU M S, ZHU M L, WHITE M, et al. Looking fast and slow: memory-guided mobile video object detection[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1903.10172.pdf.
[25]	GADDE R, JAMPANI V, GEHLER P V. Semantic video CNNs through representation warping[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 4453-4462.
[26]	CHEN K, WANG J, YANG S, et al. Optimizing video object detection via a scale-time lattice[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7814-7823.
[27]	SHVETS M, LIU W, BERG A C. Leveraging long-range temporal relationships between proposals for video object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 9756-9764.
[28]	JIANG Z, LIU Y, YANG C, et al. Learning where to focus for efficient video object detection[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 18-34.
[29]	WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7794-7803.