2. 江西科技学院 协同创新中心, 南昌 330098
2. Center of Collaboration and Innovation, Jiangxi University of Technology, Nanchang 330098, China
近年来, 随着共享单车的普及, 其给人们带来便利的同时, 单车随意停放问题也日益严重, 此类不文明行为对社会环境造成了不利的影响, 而单靠人力检测无法实现全天候的管理[1]。尽管已出台一系列政策, 但共享单车随意停放的问题还是没有得到缓解[2]。
计算机视觉是人工智能的重要研究内容之一[3-4]。在利用计算机视觉技术判断共享单车是否停放在不适当的区域时, 需要完成2个主要任务, 其中一个主要任务是物体检测和定位。最初的基于模板的Hausdorff匹配方法[5-6], 通过斑点提取和跟踪来确定移动的点是否为自行车。文献[7-8]提出MSC-HOG(Multiple-Size Cell HOG)方法, 改进HOG的块特征并用Adaboost方法替代SVM分类器, 然后选择集成弱分类器的Real Adaboost算法来进行检测, 目标检测的平均准确率(Mean Average Precision, mAP)从30%提高至53.3%。文献[9-10]提出Fast R-CNN和Faster R-CNN算法, 其精度和检测率得到提高, 且帧速率可以达到5 frame/s。文献[11]提出YOLO算法, 其检测视频的速度达到45 frame/s。文献[12-13]在YOLO算法的基础上提出YOLOv2和YOLOv3算法, 进一步提高了其泛化能力和检测速度。另一个主要任务是根据目标跟踪解决方案判断共享单车是否处于停放状态[14]。基于静态角点匹配的跟踪检测算法[15-16]的基本思想是, 根据车的棱角选取Harris角点, 并对每一帧视频图像进行角点检测, 然后根据角点的运动状态提取静态角点。但是, 该方法需要事先对大量训练集进行学习, 以去除图像中固有静态角点的干扰, 其计算量过大。基于前景模型的静止目标跟踪检测算法[17-18]的核心思想是建立一个前景模型, 模型中某一个像素点保持为前景的时间由图像的亮度决定, 时间越长表明当前像素点在模型中的位置越亮, 该方法计算量小, 效率高, 但是准确率不高。文献[19]提出应用图像投影1-D Transformation来进行实时检测, 由于图像数据的维数降低, 因此图像分割和计算的复杂性也随之降低。文献[20]利用SSD+RoI(Region of Interest)方法检测输入图像中的车辆, RoI中的车辆一旦停止移动就会被跟踪和计数。然而, 上述方法的计算复杂度较高, 实时性较差。
本文采用YOLOv3网络对共享单车进行检测, 将图像定位的核心问题转化为目标检测问题, 然后提出一种获取共享单车运动信息的方法, 将图片转化为特征矩阵, 并根据特征矩阵得到当前场景中共享单车的运动信息, 判断其静止或者运行状态。
1 共享单车停放检测算法 1.1 YOLOv3网络体系结构YOLO使用单个神经网络在一次推断中直接利用完整图像预测边界框和类别概率。它将输入图像分成若干个网格, 每个网格单元预测k个边界框和置信度分数, 并计算C类别的条件概率。每个边界框由五元组(x, y, w, h, cfd)表示, 坐标(x, y)表示边界框与网格单元的边界之间的中心偏移, w和h分别表示边界框相对于整个图像的宽度和高度。置信度cfd定义为Pr(object)×IOUpredtruth, 当网格单元包含真实基准框的一部分时, Pr(object)的值为1, 否则为0, IOUpredtruth是预测边界框与真实基准框之间的交集。通过上述预测过程可以获得每个边界框的特定类别置信度分数, 并最终选择每个网格单元中具有高分数的边界框来进行全局预测。YOLOv3在YOLO的基础上有较大的改进, 例如, 将Faster R-CNN的锚点概念引入原始框架, 以提高网络性能。锚点代表参数化的提议, 每个锚与从训练集中手工挑选出的先验尺度和纵横比相关联, YOLOv3利用先前的锚来预测边界框并提高其中心位置的精度。
本文基于端到端检测算法构建一个改进的YOLOv3网络, 以实现共享单车的实时停放检测, 具体过程如图 1所示。
![]() |
Download:
|
图 1 共享单车的停放检测过程 |
每个网格根据先前的锚框生成k个边界框, 考虑到边界框坐标预测的损失, YOLO在边界框覆盖对象时引入参数λcoord, 最佳边界框由IOU的值决定。此外, 参数λcoord可以减少给定框不包含的对象的置信度预测损失。
对于回归方法, 其损失函数的计算过程如下:
$ \begin{array}{*{20}{l}} {F({\rm{ loss }}) = {\lambda _{{\rm{coord }}}}\sum\limits_{i = 1}^{{S^2}} {\sum\limits_{j = 1}^k {l_{ij}^{{\rm{obi }}}} } \left( {{{\left( {{x_i} - {{\hat x}_i}} \right)}^2} + {{\left( {{y_i} - {{\hat y}_i}} \right)}^2}} \right) + }\\ {\quad {\lambda _{{\rm{coord }}}}\sum\limits_{i = 1}^{{S^2}} {\sum\limits_{j = 1}^{{k}} {l{{_{ij}^{{\rm{obj}}}}^{\rm{ }}}} } \left( {{{(\sqrt {{\omega _i}} - \sqrt {{{\hat \omega }_i}} )}^2} + } \right.}\\ {{{(\sqrt {{h_i}} - \sqrt {{{\hat h}_i}} )}^2}) + \sum\limits_{i = 1}^{{S^2}} {\sum\limits_{i = 1}^k {l_{ij}^{{\rm{obj }}}} } {{(\sqrt {{C_i}} - \sqrt {{{\hat C}_i}} )}^2} + }\\ {{\lambda _{{\rm{noobj }}_{i = 1}^s}}\sum\limits_{i = 1}^{{S^2}} {\sum\limits_{j = 1}^k {l_{ij}^{{\rm{noobj }}}} } {{(\sqrt {{C_i}} - \sqrt {{{\hat C}_i}} )}^2} + }\\ {\sum\limits_{i = 1}^{{S^2}} {l_i^{{\rm{obj }}}} \sum\limits_{c \in {\rm{ }}classes{\rm{ }}}^{\rm{ }} {{{\left( {{p_i}(c) - {{\hat p}_i}(c)} \right)}^2}} } \end{array} $ | (1) |
其中, liobj表示网格单元i包含共享单车的一部分, lijobj表示网格单元i中的第j个边界框, lijnoobj表示网格单元i中的第j个边界框中不包含共享单车的部分。式(1)的时间复杂度是O((k+c)×S2), 它是针对一张图像计算的。
1.2 分类网络的预训练和多尺度检测训练分类网络的预训练是目标检测的重要组成部分。提取分类网络特征的能力和速度直接影响目标检测的效果。检测框架的管道选择ImageNet作为特征提取的初步训练网络。但是, 由于最后全连接层的限制, 输入数据必须统一调整为固定的大小, 因此本文需对多尺度检测进行改进。首先, 使用VOC[21]的20类数据集和COCO[22]的80类数据集对Darknet-53进行预训练。然后, 应用低分辨率(224像素×224像素)共享单车图像分类数据集来微调Darknet-53, 使网络适应共享单车的图像特征。最后, 微调后的Darknet-53再次在448像素×448像素的高像素图像数据集上训练10轮, 利用网络调整每层的重量以适应高分辨率输入的要求。在预训练阶段进行微调可以提高网络的分辨率, 使分类网络从分类算法切换到检测算法。同时, 网络可以更好地适应图像特征和多尺度检测的需求。
由于YOLOv3仅包含卷积层和池化层, 因此可以随时更改输入图像的尺寸。在训练过程中, 模型的输入尺寸每10轮更改一次, 因此其对不同大小的图像都具有鲁棒性。因为模型的下采样因子为64, 所以输入图像的大小都是64的倍数。这种多尺度训练规则迫使模型适应不同的输入分辨率。与固定分辨率模型相比, 低分辨率输入图像的多尺度检测训练速度更快, 而高分辨率输入图像的精度较高。
1.3 共享单车边界框预测为了用目标边界框的纵横比有效预测不同尺度的输入图像, Faster R-CNN建议使用锚框作为选择目标边缘参照系, 而未采用传统的图像金字塔方法, 这样可以降低模型训练的复杂性, 提高运行速度。随后, SSD、YOLOv2和YOLOv3都采用锚点机制, 取得了良好的效果。因此, 本文利用YOLOv3中的锚点机制来预测车辆边界框, 将用于预测图形的特征分割为N×N网格, 每个网格预测3个锚框。
SSD和Faster R-CNN均通过人工方式获取锚点尺寸, 然后在模型训练的时候进行微调, 其过程相对繁琐。本文采用k-means聚类方法得到聚类边界框, 并通过先验选择得到最合适的边界框, 从而较好地预测聚类方法的距离, 具体定义如式(2)所示。
$ d = 1 - IOU\left[ {\left( {{x_j},{y_j},{w_j},{h_j}} \right),\left( {{x_j},{y_j},{w_i},{h_i}} \right)} \right] $ | (2) |
其中, j∈{1, 2, …, N}, i∈{1, 2, …, k}, (xj, yj)是框的中心点, (wj, hj)是框的宽和高, N是所有标注框的个数。每个边界框预测ox、oy、ow和oh这4个坐标, 其定义如下:
$ {p_x} = \sigma \left( {{o_x}} \right) + {q_x} $ | (3) |
$ {p_y} = \sigma \left( {{o_y}} \right) + {q_y} $ | (4) |
$ {p_w} = {m_w} + {{\rm{e}}^{{o_w}}} $ | (5) |
$ {p_h} = {m_h} + {{\rm{e}}^{{o_h}}} $ | (6) |
其中, qx和qy表示一个网格与图像左上角的横纵距离, mw和mh表示边界框的宽和高。
2 共享单车停放状态统计由于得到的图片信息复杂, 需要进行特征抽取形成特征矩阵, 因此根据帧图片的宽和高以及目标图形的宽和高得出特征矩阵的大小, 然后把所有检测目标映射到特征矩阵中的相应位置。最常用的特征抽取方法就是HOG[23], 但是其计算量较大, 因此, 本文提出一种更简单的计算方法。为了最大程度地减小周边环境对目标特征值计算的影响, 本文采取目标中心点的像素值, 其三个颜色通道的值记为R、G、B, 目标图形面积记为S, 特征值记为V, 则计算公式如下:
$ V = (R + G + B)/255 + S/50 $ | (7) |
然后计算特征值在特征矩阵中的位置, 记当前特征矩阵有N行M列, 当前目标在帧图像中的位置是X行Y列, 则其特征值在特征矩阵中的位置Xm行Ym列, 计算过程如下:
$ \begin{array}{*{20}{l}} {{X_m} = X/BIK{E_ - }WIDTH}\\ {{Y_m} = Y/BIK{E_ - }HEIGHT} \end{array} $ | (8) |
假设帧图片的大小是500像素×250像素, 目标图像的大小是50像素×50像素, 那么图片对应的特征矩阵就是10行5列。
得到每一帧的特征矩阵后需要进行状态计算, 相邻特征矩阵的特征距离(Characteristic Distance, CD)计算公式如下:
$ CD = \frac{{\sum\limits_{i = 0}^{row} {\sum\limits_{j = 0}^{column} {\left| {{\mathit{\boldsymbol{M}}_1}[i][j] - {\mathit{\boldsymbol{M}}_2}[i][j]} \right|} } \times \left( {1 - \frac{E}{N}} \right)}}{N} $ | (9) |
其中, M1表示当前帧的特征矩阵, M2表示上一相邻帧的特征矩阵, E代表两帧之间可做特征差值的坐标个数(即两帧在相同坐标中都不为0的坐标个数), N代表当前特征矩阵中的目标个数。
在得到CD值之后, 根据其值大小判断共享单车的运动状态, 计算公式如下:
$ S(x) = \left\{ {\begin{array}{*{20}{l}} {0,x < 0.2}\\ {1,0.2 \le x \le 4}\\ {2,x > 4} \end{array}} \right. $ | (10) |
其中, S状态为0代表帧图像中有共享单车停留或者不存在共享单车, S状态为1代表帧图像中有共享单车在中低速行驶, S状态为2代表帧图像中有共享单车在快速行驶。
上述过程只进行了相邻帧之间的状态统计, 共享单车停留是一段时间的行为, 因此, 要实现共享单车的停留检测必须要进行状态统计。本文根据状态增量来计算各个状态持续的时间。算法过程如下:将当前图像帧的状态分为S1、S2、S3, 分别对应状态分数S1_SCORE、S2_SCORE和S3_SCORE。通过当前帧的S_CUR与上两帧计算的状态S_LAST、S_PRE计算bonus, 具体公式如下:
$ {{\rm{ }}bonus{\rm{ }} = \left\{ {\begin{array}{*{20}{l}} \begin{array}{l} 3,{S_ - }CUR = {S_ - }LAST = {S_ - }PRE\\ 2,{S_ - }CUR = {S_ - }LAST \ne {S_ - }PRE \end{array}\\ {1,{S_ - }CUR \ne {S_ - }LAST \ne {S_ - }PRE} \end{array}} \right.} $ | (11) |
如果当前图像帧的状态Si和前两帧相同, 则说明状态正在大幅加强, 如果当前图像帧的状态Si和前两帧都不相同, 则说明状态混乱, 有待进一步观察。当状态Si增强时, 则对应着其他状态的减弱, 如果状态Si的分数值超过预设值MAX_SCORE, 则说明当前场景正式进入Si状态。假设当前状态Si进行了加强, 则道路上共享单车状态的计算过程如下:
$ \left\{ {\begin{array}{*{20}{l}} {{S_{1 - }}SCORE + = {\rm{ }}bouns{\rm{ }}}\\ {{S_{2 - }}SCORE + = {\rm{ }}bouns{\rm{ }}}\\ {{S_{3 - }}SCORE + = {\rm{ }}bouns{\rm{ }}} \end{array}} \right. $ | (12) |
本文提出的共享单车停放检测方法一般可分为3个步骤, 第1步通过目标检测得到特征矩阵, 第2步进行状态计算, 第3步进行状态统计并判断是否有共享单车停留, 具体流程如图 2所示。
![]() |
Download:
|
图 2 共享单车停放检测方法流程 |
本文实验配置如下:显卡为NVIDIA GTX1070, CPU为Intel Core i7-6700, 主频为3.40 GHz, 内存为8 GB, 操作系统为ubuntu 16.04。在训练过程中, 网络参数如下:学习率为0.000 1, 衰减系数为0.000 5。
本文在以下2个数据集上进行实验:
1) 第1个数据集用于训练YOLOv3的共享单车数据集, 其包含一些常见的共享自行车, 如ofo、Mobike、Hellobike和Yonon等。该数据集分为预训练所需数据集和网络训练所需数据集。预训练所需的分类数据根据分辨率分为两组, 分别为224像素×224像素和448像素×448像素。网络训练所需的测试数据可根据不同的分辨率分为5组, 获得的分类样本总数为1 300, 不同分辨率的样本数量几乎相同, 从而实现自行车的目标区域识别和定位。
2) 第2个数据集从交通监控视频、社区监控视频和一些街景视频中剪辑, 其中包含5个共享单车静止视频和70个不同帧率的共享单车移动视频。视频时长范围是30 s到5 min, 累计时长约5 h。图 3为网络训练过程中反应损失值的收敛曲线, 可以看出, 当网络迭代超过5 000次时, 各参数变化基本稳定, 且网络最后损失值下降到0.17左右。由该参数的收敛情况来看, 网络训练结果较理想。
![]() |
Download:
|
图 3 损失值函数曲线 |
对于低分辨率输入图像, 多尺度检测的训练速度较快, 而对于高分辨率输入图像, 其检测结果的精度较高。图 4和图 5给出不同分辨率图像的检测结果比较。可以看出, 随着检测数据集规模的增大, 两种网络的检测精度和速度都得到提高。与单尺度网络相比, 当检测数据规模较小时, 多尺度网络的检测速度较快, 检测数据集的规模越大, 多尺度网络的mAP值越高。当数据集图片大小为608像素×608像素时, 多尺度网络检测的mAP值达到92.77%, 检测精度明显提高。
![]() |
Download:
|
图 4 多尺度网络和单尺度网络mAP比较 |
![]() |
Download:
|
图 5 多尺度网络和单尺度网络检测时间比较 |
在获取共享单车的视频后, 制作状态时间持续表, 便于之后的准确度分析。以随机抽取的4个时长为1 min的视频为例, 其状态时间持续表如表 1所示。其中, S表示状态, T表示持续时间, 状态0代表共享单车静止停留, 状态1代表共享单车中低速行驶, 状态2代表共享单车快速行驶。以第3段视频为例, 共享单车最开始的状态为0, 持续时间为15 s, 第2个状态是1, 持续时间是8 s, 第3个状态是2, 持续时间是20 s, 第4个状态是1, 持续时间为17 s, 空白处代表视频播放结束。
![]() |
下载CSV 表 1 共享单车状态持续时间 |
从所有收集到的视频中抽取一段监控视频, 并从中截取一帧, 如图 6所示, 则方框选中的区域是检测出来的共享单车, V代表目标的特征值, 其下一帧的图像如图 7所示。
![]() |
Download:
|
图 6 当前帧检测效果 |
![]() |
Download:
|
图 7 下一帧检测效果 |
式(13)和式(14)分别为图 6、图 7所对应的特征矩阵。
$ \left[ {\begin{array}{*{20}{c}} 0&0&0&0&0&0&0\\ 0&0&0&0&0&0&0\\ 0&0&0&0&{0.32}&0&0\\ 0&0&0&0&0&{0.95}&0 \end{array}} \right] $ | (13) |
$ \left[ {\begin{array}{*{20}{c}} 0&0&0&0&0&0&0\\ 0&0&0&0&{0.79}&0&0\\ 0&0&0&0&0&0&0\\ 0&0&0&0&0&{0.98}&0 \end{array}} \right] $ | (14) |
将模型分析得到的共享单车状态持续时间表和实际状态表进行对比, 表 2给出其中2段视频的对比结果。
![]() |
下载CSV 表 2 检测结果与实际情况持续时间对比 |
准确率的计算方式如下:
$ P = \frac{{\sum\limits_{i = 0}^m e xS}}{{(k + 1)\sum\limits_{j = 0}^n r ealS}} $ | (15) |
其中, exS代表S状态持续的时间, realS代表实际状态持续的时间, m、n分别代表exS、realS状态的数量, k代表该道路上总共出现过的状态个数, 本文设置为2。
使用4种方法对所有视频进行实验, 收集到的视频可以分为3类, 分别是低分辨率、中等分辨率、高分辨力, 实验结果如表 3所示。
![]() |
下载CSV 表 3 4种方法对不同帧率视频的检测准确率 |
可以看出, 在低帧率的视频检测中, 本文算法和其他算法相差不大, 准确率基本在90%以上, 在中等帧率的视频中, 本文方法的准确率比1-D Transformation方法高10%。所有方法在高帧率视频上的检测效果均不理想, 但是本文方法只在中等视频的检测准确率上略有下降, 可以满足实时检测的需求。
4 结束语本文提出一种基于YOLOv3的实时共享单车违规停放检测算法。采用端到端检测模型进行快速目标检测, 以实现复杂场景下的共享单车定位。通过分类网络的预训练、多尺度检测和k-means维度聚类对YOLOv3网络进行改进, 以准确发现不同尺寸的目标。利用特征矩阵进行一系列状态计算, 结果表明, 该方法可实现快速检测且检测改进结果具有鲁棒性, 检测准确率较高。下一步将使用高分辨率的待检测图像和视频进行实验, 同时改进网络结构, 解决高分辨率图像中相似目标和小群体检测准确率较低的问题。
[1] |
GUO Peng, LING Xiangzhi, HUANG Yi, et al. Shared bicycles:collaborative governance in internet technology and public services[J]. Journal of Public Management, 2017, 14(3): 1-10. (in Chinese) 郭鹏, 林祥枝, 黄艺, 等. 共享单车:互联网技术与公共服务中的协同治理[J]. 公共管理学报, 2017, 14(3): 1-10. |
[2] |
CHENG Rong, ZHANG Mengmeng, YU Xuemei, et al. Research and analysis on the parking situation of shared bikes in Beijing[J]. Technology Wind, 2018(23): 205-206. (in Chinese) 程荣, 张萌萌, 于雪梅, 等. 北京市共享单车停放现状调研分析[J]. 科技风, 2018(23): 205-206. |
[3] |
GRANLUND G H, KNUTSSON H. Signal processing for computer vision[M]. Berlin, Germany: Springer, 2013: 20-35.
|
[4] |
LAGANIŌRE R. OpenCV computer vision application programming cookbook[M]. Birmingham, UK: Packt Publishing, 2014: 15-35.
|
[5] |
QUI Zhijun, YAO Danya, ZHANG Yi, et al. The study of the detection of pedestrian and bicycle using image processing[C]//Proceedings of 2003 IEEE International Conference on Intelligent Transportation Systems. Washington D. C., USA: IEEE Press, 2003: 340-345.
|
[6] |
ZHANG Jun, ZHU Zhiqiang, LIU Ping, et al. Detection of contours of wheels based on improved codebook[C]//Proceedings of International Conference on Machine Learning and Cybernetics. Washington D. C., USA: IEEE Press, 2014: 510-515.
|
[7] |
LEE Y, KIM T, LEE S, et al. Spatial regions periodicity based detection of two-wheelers using histogram of oriented gradients[J]. International Journal of Multimedia and Ubiquitous Engineering, 2015, 10(4): 325-336. DOI:10.14257/ijmue.2015.10.4.31 |
[8] |
JUNG H, EHARA Y, TAN J K, et al. Detection of a bicycle in video images using MSC-HOG feature[J]. International Journal of Innovative Computing, Information and Control, 2014, 10(2): 521-533. |
[9] |
GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1440-1448.
|
[10] |
REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 91-99. |
[11] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
|
[12] |
REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 7263-7271.
|
[13] |
REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL].[2019-05-01].https://arxiv.org/pdf/1804.02767.pdf.
|
[14] |
ZHANG Guoping, ZHOU Gaiyun, MA Li. Multi-target tracking based on key-point modeling and weakly supervised appearance updating[J]. Computer Engineering, 2016, 42(8): 261-265. (in Chinese) 张国平, 周改云, 马丽. 基于关键点建模与弱监督外观更新的多目标跟踪[J]. 计算机工程, 2016, 42(8): 261-265. |
[15] |
HASSAN W, BIRCH P, YOUNG R, et al. Real-time occlusion tolerant detection of illegally parked vehicles[J]. International Journal of Control, Automation and Systems, 2012, 10(5): 972-981. DOI:10.1007/s12555-012-0514-2 |
[16] |
BOCK F, LIU J, SESTER M. Learning on street parking maps from position information of parked vehicles[M]. Berlin, Germany: Springer, 2016: 20-50.
|
[17] |
HUANG Kaiqi, CHEN Xiaotang, KANG Yunfeng, et al. Intelligent visual surveillance:a review[J]. Chinese Journal of Computers, 2015, 20(6): 1093-1118. (in Chinese) 黄凯奇, 陈晓棠, 康运锋, 等. 智能视频监控技术综述[J]. 计算机学报, 2015, 20(6): 1093-1118. |
[18] |
MADDALENA L, PETROSINO A. Stopped object detection by learning foreground model in videos[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(5): 723-735. DOI:10.1109/TNNLS.2013.2242092 |
[19] |
LEE J T, RYOO M S, RILEY M, et al. Real-time detection of illegally parked vehicles using 1-D transformation[C]//Proceedings of 2007 IEEE Conference on Advanced Video and Signal Based Surveillance. Washington D. C., USA: IEEE Press, 2007: 254-259.
|
[20] |
XIE Xuemei, WANG Chenye, CHEN Shu, et al. Real-time illegal parking detection system based on deep learning[C]//Proceedings of 2017 International Conference on Deep Learning Technologies. New York, USA: ACM Press, 2017: 23-27.
|
[21] |
EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (2007) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. |
[22] |
PONT-TUSET J, VAN GOOL L. Boosting object proposals: from pascal to COCO[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1546-1554.
|
[23] |
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2005: 886-893.
|