开放科学(资源服务)标志码(OSID):
随着深度卷积神经网络(Convolutional Neural Network,CNN)[1]的发展,基于深度学习的图像目标检测取得显著进展[2],同时推动了图像目标检测向视频目标检测的扩展。视频目标检测在交通、医疗、体育等领域都具有广泛的应用价值。近年来,对视频进行快速且准确的检测成为计算机视觉领域的研究热点。
基于深度学习的图像目标检测主要分为两阶段检测方法(如R-CNN[3]、Faster R-CNN[2]、R-FCN[4])和单阶段检测方法(SSD[5]、YOLO[6])。相比单张图像,视频包含更丰富的时间和运动信息,同时也产生信息冗余。在图像目标检测的基础上,通过聚合时间和运动信息来提高逐帧检测的性能是视频目标检测的研究重点。DFF[7]和Towards方法[8]利用FlowNet[9]预测的光流在帧之间传播特征[10-11],实现在线的视频目标检测。文献[12]将关联特征加入到DFF架构中,并对目标进行修正。然而光流网络存在自身的局限性,FlowNet通过增加模型的参数量,提高对硬件资源的要求。例如,ResNet101+RFCN的检测模型参数为59.6×106,使用FlowNet时需要额外增加37×106。在KITTI数据集上,FlowNet的运行速度仅为10 frame/s,在一定程度上阻碍了视频目标检测的实际应用。光流难以准确表示高层特征之间的对应关系。由于网络感受野的增大,因此高层特征中一个像素的偏移可以对应于图像中几十个像素。基于关系网络[13]的RDN[14]可以直接学习局部范围内不同帧候选框之间的关系,以增强物体特征,从而实现离线的视频目标检测。文献[15]利用关系网络,在深度特征基础上引入关联特征。文献[16]提出基于内存增强的全局-局部聚合方法(MEGA),基于递归机制[17],利用对位置不敏感的关系模块[13]聚合全局和局部视频帧中的候选框特征,从而增强当前帧的图像特征。但是该方法在逐帧执行完整的模型结构时,其计算量较大且速度较慢。
本文提出基于局部注意的视频目标检测方法。通过构建一种特征传播模型,其在不同帧的局部区域内通过逐渐稀疏的步幅确定空间对应关系,设计动态分配关键帧模块,动态地按需分配关键帧。在此基础上,提出异步检测模式,协调特征传播模型和动态分配关键帧模块,在保证检测精度的前提下,加快模型对视频序列的处理速度,从而实现实时在线的视频目标检测。
1 轻量级的快速视频目标检测模型本文提出基于局部注意的快速视频目标检测方法,其模型结构如图 1所示。基于文献[16],本文扩展了一个基于局部注意的快速检测分支,以提取非关键帧的特征。在图 1中,
![]() |
Download:
|
图 1 本文模型结构 Fig. 1 Structure of the proposed model |
一段视频序列在t时刻输入的视频帧通过轻量级特征提取网络NL获得低层图像特征FL,并将其与上一关键帧的低层图像特征一起送入到关键帧选择模块,若判断为关键帧I k,则将关键帧的低层图像特征
若视频序列在t时刻输入的视频帧被判断为非关键帧I i,由于非关键帧的低层图像特征
特征传播模型由基于局部注意的特征对齐模块、特征转换模块和质量增强模块构成,如图 2所示。由于非关键帧的特征提取能力较弱,因此本文构建特征传播模型。
![]() |
Download:
|
图 2 特征传播模型结构 Fig. 2 Structure of feature propagation model |
非关键帧的低层图像特征
假设
![]() |
Download:
|
图 3 基于局部注意的特征对齐模块 Fig. 3 Feature alignment module based on local attention |
特征对齐模块是利用FlowNet提取随机选取100段视频的光流,在水平和竖直方向上分别对光流值进行统计,光流分布如图 4所示。在竖直和水平方向上,光流都集中分布在零附近。分布结果表明,关联权重的特征单元的计算可以采用渐进稀疏的步幅从较小的邻域内选择。渐进稀疏的步幅使特征传播模块更多关注邻域内具有小光流值的运动信息。
![]() |
Download:
|
图 4 竖直和水平方向的光流分布 Fig. 4 Optical flow distribution in vertical and horizontal directions |
局部注意模块通过对
局部注意模块的计算过程可以分为2个步骤:
1)通过两个特征单元的特征相似度生成稀疏关联权重值。定义
$ {c}_{({n}_{1}, {n}_{2})}=〈g\left({F}_{({x}_{1}, {y}_{1})}^{i}\right), f\left({F}_{({x}_{2}, {y}_{2})}^{k}\right)〉 $ | (1) |
其中:
$ D(x, y)=\left\{{D}_{0}\right(x, y), {D}_{1}(x, y), \cdots , {D}_{d}(x, y\left)\right\} $ | (2) |
$ \begin{array}{l}{D}_{0}(x, y)=\left\{\right(x, y\left)\right\}\\ {D}_{l}(x, y)=\left\{\right(x+a, x+b), \forall a, b\in \{l, 0, -l\left\}\right\}\end{array} $ | (3) |
其中:
$ {\widehat{c}}_{({n}_{1}, {n}_{2})}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{({n}_{1}, {n}_{2})}\right)}{\sum \limits_{{n}_{2}\in D({x}_{1}, {y}_{1})}\mathrm{e}\mathrm{x}\mathrm{p}\left({c}_{({n}_{1}, {n}_{2})}\right)} $ | (4) |
基于局部注意的特征对齐模块可以获取
2)通过聚合
$ {\widehat{F}}_{({x}_{1}, {y}_{1})}^{i}=\sum \limits_{{n}_{2}:({x}_{2}, {y}_{2})\in D({x}_{1}, {y}_{1})}{\widehat{c}}_{({n}_{1}, {n}_{2})}{F}_{({x}_{2}, {y}_{2})}^{k} $ | (5) |
低层图像特征经过基于局部注意的特征对齐模块,与邻近关键帧增强后的特征进行特征对齐,以得到非关键帧的图像特征。但是这些低层特征不包含足够的图像特征与高层图像特征对应,直接将其引入到对齐模块中,导致生成的图像特征不包含关键信息。为此,本文采用一个轻量级的特征转换模块[20]对提取的低层特征进行编码,以达到高层图像特征的水平,从而丰富低层图像特征的信息。将对齐后的图像特征与低层图像特征共同送入到质量增强网络,进一步补充细节信息。质量增强网络的加入是因为特征对齐时的加权聚合可能会导致混叠效应,造成对齐后的特征丢失一些细节信息,从而影响候选框的检测。将经过质量增强网络的图像特征送入后续的检测网络,执行分类和回归的任务。特征转换模块和质量增强网络的结构相同,如图 2所示。受MobileNet[21]的启发,本文引入深度可分离卷积,将一个标准卷积分解为逐通道卷积和逐点卷积[22]。其中逐通道卷积是指每个输入通道分别采用一个卷积,各个通道分开计算,逐点卷积是
![]() |
Download:
|
图 5 深度可分离卷积示意图 Fig. 5 Schematic diagram of depthwise separable convolution |
关键帧选择策略是实现高效检测的关键,文献[8]通过计算当前帧与上一关键帧之间的光流,并与设定的阈值矩阵相比来判断是否选择为关键帧。该方法在一定程度上适应目标的不同变化速率,但光流不能准确表示高层特征之间的对应关系,且计算量较大。
本文方法使用当前帧位置框和前一关键帧中位置框的交集和并集的比值,并将其作为反映目标速率变化的依据。该比值越小,表示当前帧与上一关键帧的距离越大。当比值小于设定的阈值时,则选择当前帧为新的关键帧,但是获取位置框的代价较高,且难以实现。本文设计一个轻量级的比值预测网络。网络的输入为上一关键帧和当前帧的低层特征,分别记为
![]() |
Download:
|
图 6 动态分配关键帧示意图 Fig. 6 Schematic diagram of dynamic allocation of key frame |
现有的基于关键帧的目标检测方法仅考虑每帧的平均运行时间[23]。但是,在关键帧和非关键帧上运行不同的特征提取网络,会造成在不同帧上计算量的差别较大。在提取关键帧特征时运行更多的时间,相比非关键帧,其存在延时较大的问题。
基于文献[24],本文提出一种异步运行的模式,以大幅降低最大延迟。该模式将目标检测分为快速和慢速2种通道,快速通道采用基于局部注意的特征对齐模块对当前图像特征进行对齐,慢速通道采用关键帧的特征提取网络,即内存增强的全局-局部聚合方法。关键帧的大延时是由于运行高层特征提取网络造成的。为此,当某一帧被确定为关键帧后,首先通过快速通道从LRM中获取上一关键帧的图像特征,再利用该图像特征对当前关键帧进行特征对齐,并将对齐后的图像特征临时选择为当前关键帧的高层图像特征
本文数据集选用ImageNet VID,该数据集包括30种目标类别。其中训练集包含3 862个视频片段,验证集包含555个视频片段。根据文献[7-8]中广泛采用的协议,在验证集上评估本文提出的方法,并使用平均精度(mAP)作为检测精度的评价指标,每秒检测帧数和最大延迟作为检测速度的评价指标。
3.2 训练与测试本文使用ResNet-101作为特征提取网络,选取低于Conv4_3的卷积层构造低层特征提取网络NL。模型选取层数较多的低层特征提取网络,以获得较高的精度,但是会提升计算成本,从而降低运行速度。本文选择低于Conv4_3的卷积层,其原因为通过实验发现,该选择在验证集的准确性和速度之间能够实现较优的平衡。检测网络使用R-FCN[4],将Conv5的步幅从2修改为1,以增大特征图的分辨率。在区域建议网络RPN产生候选框后,使用MEGA提出的内存增强全局-局部聚合方法对候选框的特征进行增强,同时对特征传播模型和动态分配关键帧模块进行微调。这两个模块将选取间隔为l的一对视频帧作为输入(在文献[25]中l是随机选取的)。该对视频帧的选择标准为:第一帧作为关键帧,第二帧必须为带有标签的视频帧。通过特征传播模型对关键帧特征进行提取和传播,并将其作为每对视频帧中的第二帧,以生成检测结果图。该模型经过训练后,尽可能减少生成的检测结果和标签之间的损失,从而得到最优解。经过实验验证,当超参数逐步稀疏范围的最大步幅d=4、动态分配关键帧的阈值threshold=0.75时,该模型能够在速度和精度方面实现较优的平衡。本文选择回归模型训练动态分配关键帧模块,其中真实值为关键帧边框和当前帧边框的交集与并集的比值。整个网络使用随机梯度下降算法(Stochastic Gradient Descent,SGD)在GPU上进行训练,并且采用dropout策略。训练时,本文对输入视频帧进行预处理,调整短边为600像素,区域建议网络RPN采用9个锚点和300个建议区域,在4块RTX 2080Ti GPU执行1.2×105迭代。前8×104迭代的学习率为2.5×10-4,后4×104迭代的学习率为2.5×10-5。
3.3 结果分析 3.3.1 检测精度与速度分析本文方法与现有视频目标检测方法检测精度和检测速度的对比如表 1所示。当本文方法的检测精度为80.7%时,检测速度达到31.8 frame/s。与MEGA方法[16]相比,本文方法的检测精度略有下降,但检测速度提高了3.6倍,达到了实时检测的要求。本文设计的模型是一种在线检测的模型。与基于光流的方法(如DFF[7]和Towards[8])相比,本文方法能够实现更快的检测速度和更高的检测精度。在没有外部光流网络的情况下,本文所提的模型明显简化整个检测架构,并且能够精确地学习连续视频帧之间的特征对应关系。
![]() |
下载CSV 表 1 不同方法的检测精度和检测速度对比 Table 1 Detection accuracy and detection speed comparison among different methods |
本文在ImageNet VID数据集上进行模型分解实验,以验证特征传播模型、动态分配关键帧模块和异步检测模式的有效性,分解实验的详细设置如表 2所示。
![]() |
下载CSV 表 2 模型分解实验的配置 Table 2 Configuration of model decomposition experiment |
本文首先将特征传播模型与现有的非光流特征传播模型进行对比,然后比较特征传播模型和光流传播模型。MatchTrans[20]和Nonlocal[29]是两种非光流特征传播模型,MatchTrans通过计算局部区域内所有特征单元的相似度,以得到特征传播的权值。Nonlocal考虑所有特征单元的相似性,其mAP为72.8%,检测速度为41.12 frame/s。本文提出的特征传播模型使用渐进稀疏的局部区域。为验证渐进稀疏局部区域的有效性,本文构建一个密集版本的特征传播模型。与MatchTrans相似,该模型使用局部区域内的所有特征单元,通过式(4)计算每个特征单元的传播权值。不同非光流特征传播方法的性能对比如表 3所示。本文仅将上一关键帧的特征传播到非关键帧,实现简单的目标检测框架,从而验证不同特征传播方法的性能。从表 3可以看出,在所有最大位移设置下,本文方法具有较高的检测精度和较快的检测速度,当最大位移为4时,检测精度达到了最高。
![]() |
下载CSV 表 3 不同非光流特征传播方法的性能指标对比 Table 3 Performance indexs comparison among different feature propagation with non-optical flow methods |
光流可以预测连续帧之间的运动场,DFF通过FlowNet将关键帧的特征传播到非关键帧。为验证局部注意在图像特征之间空间对应的有效性,本文将局部注意和DFF进行对比,结果如表 4所示。表 4仅将上一个关键帧的特征传播到非关键帧,构建一个简单的目标检测架构。从表 4可以看出,在关键帧间隔分别为10 frame和15 frame的情况下,本文方法的性能更优。
![]() |
下载CSV 表 4 不同光流特征传播方法的性能指标对比 Table 4 Performance indexs comparison among different feature propagation with optical flow methods |
为验证动态分配关键帧模块的有效性,本文对方法1和方法2进行对比。在选择关键帧时,本文方法1和本文方法2分别采用固定间隔选择和动态分配方法。不同关键帧选择方法的性能对比如图 7所示。在不同的检测速度下,本文的动态分配关键帧选取方法性能总是优于固定间隔的选取方法。其中,关键帧选取间隔l=2,4,…,24,动态分配关键帧的阈值threshold=0.95,0.90,…,0.40。从图 7可以看出,随着阈值的减小,检测精度在阈值较大的阶段(threshold > 0.8)会随着检测速度的加快而增加,当阈值减小到一定程度后(threshold < 0.8),检测精度会随着检测速度的加快而下降。阈值较大(threshold > 0.8)导致两个连续关键帧之间存在信息冗余的问题,导致精度降低,如图 7中threshold由0.95降低至0.8,检测精度反而提高。过小的阈值导致两个关键帧之间存在较大差异,在这种情况下建立空间对应面临一定的挑战,造成检测精度急剧下降,如图 7中threshold小于0.6,检测精度随着检测速度的增加而急剧下降。因此,当阈值设置太小或者太大时,精度就会降低。从图 7可以看出,当阈值threshold=0.75时,检测精度为81.2%,检测速度为18.5 frame/s,在两者之间实现较优的平衡。
![]() |
Download:
|
图 7 不同关键帧选择方法的性能指标对比 Fig. 7 Performance indexs comparison among different key frame selection methods |
为验证异步检测模式的有效性,本文所提架构的整体延迟和每个模块各自的延迟对比如表 5所示。其中,MEGA方法是逐帧检测的方法。方法1采用特征传播模型和固定间隔关键帧选取方法,以加快检测速度,每帧运行时间从114 ms缩短到46 ms,同时检测精度下降了2.8个百分点。方法2采用动态分配关键帧模块,相比方法1,其运行时间增加了8 ms,检测精度提高了2.1个百分点。虽然方法1和方法2缩短了模型的整体检测时间,但是关键帧的计算量较大,并不能减少最大延迟。本文方法在方法2的基础上采用异步检测模式,将最大延迟大幅减少到31 ms(约为基础网络延迟的27%),并具有较高的精度。异步检测模式不仅在平均意义上降低整体成本,而且大幅度降低了最大延迟。
![]() |
下载CSV 表 5 不同方法的性能指标对比 Table 5 Performance indexs comparison among different methods |
在ImageNet VID数据集上本文方法的可视化检测结果如图 8所示,本文在实现加快检测速度的同时,具有较高的检测精确度。
![]() |
Download:
|
图 8 在ImageNet VID数据集上本文方法的可视化结果 Fig. 8 Visualization results of the proposed method on ImageNet VID dataset |
本文提出基于局部注意的视频目标检测方法。通过构建特征传播模型将关键帧的高层特征传播至非关键帧,设计基于精度预测的动态分配关键帧模块,加快检测速度。在此基础上,提出异步检测模式,协调关键帧的特征传播和计算。在ImageNet VID数据集上的实验结果表明,本文方法的检测精度为80.7%,检测速度和最大延迟分别为31.8 frame/s和31 ms,在保证检测精度的前提下,获得低延迟的在线检测结果。后续将采用知识蒸馏的方法对模型进一步压缩,以降低系统的整体计算成本。
[1] |
HE K M, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 770-778.
|
[2] |
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149. |
[3] |
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision And Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 580-587.
|
[4] |
DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 379-387.
|
[5] |
LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
|
[6] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
|
[7] |
ZHU X, XIONG Y, DAI J, et al. Deep feature flow for video recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2349-2358.
|
[8] |
ZHU X, DAI J, YUAN L, et al. Towards high performance video object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7210-7218.
|
[9] |
DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2015: 2758-2766.
|
[10] |
朱锡洲. 基于特征光流的视频中物体检测[D]. 合肥: 中国科学技术大学, 2020. ZHU X Z. Flow-based video object detection[D]. Hefei: University of Science and Technology of China, 2020. (in Chinese) |
[11] |
董潇潇. 光流引导的多关键帧特征传播与聚合视频目标检测[D]. 北京: 北京邮电大学, 2019. DONG X X. Optical-flow-guided multi-keyframes feature propagation and aggregation for video object detection[D]. Beijing: Beijing University of Posts and Telecommunications, 2019. (in Chinese) |
[12] |
刘玉杰, 曹先知, 李宗民, 等. 结合关联特征和卷积神经网络的视频目标检测[J]. 华南理工大学学报(自然科学版), 2018, 46(12): 26-33. LIU Y J, CAO X Z, LI Z M, et al. Video object detection based on correlation feature and convolutional neural network[J]. Journal of South China University of Technology(Natural Science Edition), 2018, 46(12): 26-33. (in Chinese) |
[13] |
HU H, GU J, ZHANG Z, et al. Relation networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 3588-3597.
|
[14] |
DENG J, PAN Y, YAO T, et al. Relation distillation networks for video object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 7023-7032.
|
[15] |
汪常建, 丁勇, 卢盼成. 融合改进FPN与关联网络的Faster R-CNN目标检测[J]. 计算机工程, 2022, 48(2): 173-179. WAMG C J, DING Y, LU P C. Object detection using Faster R-CNN combining improved FPN and relation network[J]. Computer Engineering, 2022, 48(2): 173-179. (in Chinese) |
[16] |
CHEN Y, CAO Y, HU H, et al. Memory enhanced global-local aggregation for video object detection[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 10337-10346.
|
[17] |
DAI Z, YANG Z, YANG Y, et al. Transformer-XL: attentive language models beyond a fixed-length con-text[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1901.02860.pdf.
|
[18] |
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 6000-6010.
|
[19] |
BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1409.0473.pdf.
|
[20] |
XIAO F, LEE Y J. Video object detection with an aligned spatial-temporal memory[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1712.06317v2.pdf.
|
[21] |
HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1704.04861.pdf.
|
[22] |
曹渝昆, 桂丽嫒. 基于深度可分离卷积的轻量级时间卷积网络设计[J]. 计算机工程, 2020, 46(9): 95-100, 109. CAO Y K, GUI L A. Design of lightweight temporal convolutional network based on depthwise separable convolution[J]. Computer Engineering, 2020, 46(9): 95-100, 109. (in Chinese) |
[23] |
SHELHAMER E, RAKELLY K, HOFFMAN J, et al. Clockwork convnets for video semantic segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 852-868.
|
[24] |
LIU M S, ZHU M L, WHITE M, et al. Looking fast and slow: memory-guided mobile video object detection[EB/OL]. [2021-03-01]. https://arxiv.org/pdf/1903.10172.pdf.
|
[25] |
GADDE R, JAMPANI V, GEHLER P V. Semantic video CNNs through representation warping[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 4453-4462.
|
[26] |
CHEN K, WANG J, YANG S, et al. Optimizing video object detection via a scale-time lattice[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7814-7823.
|
[27] |
SHVETS M, LIU W, BERG A C. Leveraging long-range temporal relationships between proposals for video object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2019: 9756-9764.
|
[28] |
JIANG Z, LIU Y, YANG C, et al. Learning where to focus for efficient video object detection[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2020: 18-34.
|
[29] |
WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7794-7803.
|