开放科学(资源服务)标志码(OSID):
视频目标跟踪是当前计算机视觉领域的热门研究课题,在民用和军事的众多场景中有着广泛的应用[1-3],而对目标特征点的提取和匹配是视频跟踪中的一项重要步骤[4-5]。视频跟踪中存在诸多影响因素,如尺寸变化、角度变化、光照变化、背景物杂乱、噪声、遮挡干扰等,这增加了特征点错误匹配对准的概率,极大地影响了后续视频跟踪的效果。因此,如何快速有效地剔除误匹配特征点以提高匹配精度,成为一项值得研究的问题。
当前对于误匹配特征点的剔除方法研究在点云配准[6]、三维对象识别[7-8]等方面应用较为广泛。文献[9]利用基于迭代最近点(Iterative Closest Point,ICP)的精确配准技术对前期误匹配结果进行后期校准,但是该算法过于依赖较为准确的初始姿态估计,且存在计算量大、耗时较长、收敛慢等问题。文献[10]在尺度不变特征转换(Scale Invariant Feature Transform,SIFT)算法的基础上增加了区域重叠核加权Hu矩,将相似度较小的匹配点剔除掉,然而SIFT算法[11]需要建立高维度复杂的描述子,占用了大量的内存,运行时间较长。文献[12]采用随机抽样一致性(Random Sample Consensus,RANSAC)匹配点提纯算法剔除错误的关键点匹配对,提高了识别的精度,然而该算法在抽样时需要对所有的特征点进行迭代以得到最大化的局内点,导致效率较低,在一定程度上牺牲了算法的实时性。
针对特征点提取和匹配过程中速度慢、效率低的问题,文献[13]提出一种加速鲁棒特征(Speeded up Robust Feature,SURF)算法,对DoH中的高斯二阶微分进行近似简化,加速了特征的提取和描述。然而,SURF算法在计算主方向时过于依赖局部图像的梯度方向,导致匹配成功率降低。文献[14]提出一种二进制特征描述算法(ORB),有效地解决了计算和收敛速度慢的问题,提高了匹配的实时性,并且在图像识别的精度上有了进一步提高[15-16],然而ORB在匹配过程中容易受到目标外未知因素的干扰,导致匹配结果中存在大量的误匹配点。
文献[17]在邻域一致性约束的基础上,提出一种融合ORB与网格统计的视频跟踪方法GMS,通过在特征点邻域范围内选择支持特征点集进行约束检验,以较小的时间代价增加了ORB算法稳健匹配的数量。文献[18]提出一种基于稀疏表示的跟踪方法,但是该方法仅考虑整体而非局部外观来区分目标和背景区域,因此,当目标和背景区域相差不明显时,跟踪效果较差。文献[19]采用了深层卷积神经网络模型,但是在应对简易跟踪环境时,其跟踪速度很慢。文献[20]方法利用基于相关滤波的跟踪方法,在计算效率上有着优异的性能,然而该方法会因为匹配跟踪误差的累积而导致模型逐渐退化。
针对上述方法特征点匹配精度与匹配速度存在矛盾的问题,本文在视频目标跟踪方法GMS的框架下,对ORB特征匹配阶段产生的错误匹配对进行“粗-精”两阶段剔除,提出一种新的视频目标跟踪方法ME-GMS(Mismatch Elimination GMS)。利用K-means算法快速粗略地剔除误差较大的匹配关系,提高正确匹配对所占比例。在此基础上,依据分裂法的思想,参考匹配点到聚类中心的偏离程度,根据误差设定合适的阈值,从而对误匹配对进行精确剔除。
1 GMS特征匹配方法 1.1 特征点提取GMS算法在特征匹配阶段采用ORB算法进行特征点的检测与匹配。ORB是一种基于FAST特征点检测和Brief描述子改良而成的图像特征匹配算法,其在应用于视频跟踪时具有极为优异的速度表现力,并具有尺度不变性和旋转不变性。ORB算法主要通过以下步骤来完成特征点的检测:
1)采用FAST算法粗提取大量的特征点。当以候选点
2)为消除图像边缘处存在的较强响应,利用Harris算法的响应函数对步骤1)中提取的FAST特征点执行排序,并保留前
3)为对提取的特征点赋予尺度信息,采用多尺度图像金字塔对图像分层提取FAST特征点。
4)为对提取的特征点赋予方向信息,采用灰度质心法来计算FAST特征点的主方向。当特征点邻域范围内的质心位置不与中心重合时,可通过质心与中心的位置坐标计算特征点的主方向。
特征点邻域范围内的质心可定义为:
$ C=\left(\frac{{m}_{10}}{{m}_{00}}, \frac{{m}_{01}}{{m}_{00}}\right) $ | (1) |
特征点的邻域矩可定义为:
$ {m}_{pq}=\sum\limits_{x, y\in r}{x}^{p}{y}^{q}I(x, y) $ | (2) |
其中,
特征点的主方向为:
$ \theta =\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{t}\mathrm{a}\mathrm{n}\left(\frac{{m}_{01}}{{m}_{10}}\right)=\mathrm{a}\mathrm{r}\mathrm{c}\mathrm{t}\mathrm{a}\mathrm{n}\left(\frac{\sum\limits_{x, y\in r}yI(x, y)}{\sum\limits_{x, y\in r}xI(x, y)}\right) $ | (3) |
ORB算法采用Brief描述子对每个特征点进行特征描述。Brief描述子通过比较特征点邻域范围内像素点对的灰度差值,形成一个二进制码串,并采用汉明距离作为特征点匹配的相似性度量准则。ORB算法主要通过以下步骤来完成特征点的匹配:
1)在特征点
$ {f}_{n}\left({\mathit{\boldsymbol{p}}}\right)=\sum\limits_{1\le i\le n}{2}^{i-1}\tau ({\mathit{\boldsymbol{p}}};{{\mathit{\boldsymbol{a}}}}_{i}, {{\mathit{\boldsymbol{b}}}}_{i}) $ | (4) |
$ \tau \left({\mathit{\boldsymbol{p}}};{\mathit{\boldsymbol{a}}}, {\mathit{\boldsymbol{b}}}\right)=\left\{\begin{array}{c}1, I\left({\mathit{\boldsymbol{a}}}\right)<I\left({\mathit{\boldsymbol{b}}}\right)\\ 0, I\left({\mathit{\boldsymbol{a}}}\right)\ge I\left({\mathit{\boldsymbol{b}}}\right)\end{array}\right. $ | (5) |
其中,
2)为使Brief算法生成的特征描述子具有旋转不变性,将式(3)得到的特征点主方向
首先在特征点邻域范围内选择
$ {\mathit{\boldsymbol{Q}}}=\left(\begin{array}{c}{x}_{1}, {x}_{2}, \cdots , {x}_{n}\\ {y}_{1}, {y}_{2}, \cdots , {y}_{n}\end{array}\right) $ | (6) |
$ {g}_{n}({\mathit{\boldsymbol{p}}}, \theta )={f}_{n}\left({\mathit{\boldsymbol{p}}}\right)\left|\right({x}_{i}, {y}_{i})\in {{\mathit{\boldsymbol{R}}}}_{\theta }{\mathit{\boldsymbol{Q}}} $ | (7) |
3)利用贪婪搜索的方法找出相关系数小于设定阈值的邻域点对,构建包含256个向量的最终特征描述子。
4)利用汉明距离计算特征描述子间的相似度进行特征匹配。假设步骤3)中的描述子
$ D({K}_{1}, {K}_{2})=\sum\limits_{i=0}^{255}{a}_{i}\oplus {b}_{i} $ | (8) |
至此,获得前后两帧图像的特征点点集分别为
在进行前后两帧图像的特征点匹配时,得到的匹配关系中均含有一定数量的误匹配对,这会对视频跟踪产生一定程度的干扰,经累计会降低视频跟踪的准确性。为剔除这些误匹配对,本文采用由粗到精的方法,逐步对误匹配对进行剔除。首先利用K-means算法的思想对匹配关系进行聚类划分,仅保留匹配对数量最多的那一类,从而剔除掉大部分误匹配对;然后在获得较多正确匹配对的基础上,以标准差和欧氏距离为准则,利用分裂法进一步剔除误匹配对。
2.1 基于K-means的误匹配粗剔除方法在进行特征点匹配后,可以得到初始匹配关系集合
因此,对于集合
$ ({{\mathit{\boldsymbol{R}}}}_{i}, {{\mathit{\boldsymbol{t}}}}_{i})=\underset{{{\mathit{\boldsymbol{R}}}}_{i}, {{\mathit{\boldsymbol{t}}}}_{i}}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}\left(\sum\limits_{k=1}^{m}{‖{{\mathit{\boldsymbol{R}}}}_{i}{{\mathit{\boldsymbol{p}}}}_{k}^{\text{'}}+{{\mathit{\boldsymbol{t}}}}_{i}-{{\mathit{\boldsymbol{q}}}}_{k}^{\text{'}}‖}_{2}^{2}\right) $ | (9) |
在此基础上,将旋转矩阵Ri和平移向量ti中的元素按顺序排列,得到1个6维向量。将集合
利用K-means算法对
1)创建
2)将
3)更新每一类的聚类中心:
$ {{\mathit{\boldsymbol{g}}}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}}^{i}=\frac{1}{{M}_{i}}\sum\limits_{j=1}^{{M}_{i}}{{\mathit{\boldsymbol{v}}}}_{j}^{i}, \left\{{{\mathit{\boldsymbol{v}}}}_{j}^{i}\right|{{\mathit{\boldsymbol{v}}}}_{j}^{i}\in {{\mathit{\boldsymbol{G}}}}_{\mathrm{c}\mathrm{l}\mathrm{u}\mathrm{s}}^{i}\} $ | (10) |
其中,
4)遍历
$ i=\underset{i}{\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{i}\mathrm{n}}‖{{\mathit{\boldsymbol{v}}}}_{j}-{{\mathit{\boldsymbol{g}}}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}}^{i}‖ $ | (11) |
5)循环执行步骤3)和步骤4),当Vtrans中的所有向量在每一类中都不再变化时,聚类划分过程结束。
最后,选择聚类数量最多的那一类作为输出结果
由于集合
1)将标准差的阈值设置为
2)计算
$ {{\mathit{\boldsymbol{g}}}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}}^{\text{'}}=\frac{1}{M}\sum\limits_{j=1}^{M}{{\mathit{\boldsymbol{v}}}}_{j}^{\text{'}}, \left\{{{\mathit{\boldsymbol{v}}}}_{j}^{\text{'}}\right|{{\mathit{\boldsymbol{v}}}}_{j}^{\text{'}}\in {{\mathit{\boldsymbol{V}}}}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}}^{\text{'}}\} $ | (12) |
$ {{\mathit{\boldsymbol{S}}}}_{\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}}=\sqrt{\frac{1}{M}\sum\limits_{j=1}^{M}({{\mathit{\boldsymbol{v}}}}_{j}^{\text{'}}-{{\mathit{\boldsymbol{g}}}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}}^{\text{'}}{)}^{2}} $ | (13) |
3)遍历
$ {d}_{j}=‖{{\mathit{\boldsymbol{v}}}}_{j}^{\text{'}}-{{\mathit{\boldsymbol{g}}}}_{\mathrm{c}\mathrm{e}\mathrm{n}\mathrm{t}}^{\text{'}}‖ $ | (14) |
4)循环执行步骤2)和步骤3),直到满足这2个步骤中任意一个停止条件,结束剔除。
经过上述过程,可以得到视频序列前后两帧图像特征点集间的正确匹配关系,消除视频跟踪中因误匹配对而造成的累计误差,进而利用这些正确的匹配关系进行快速稳健的视频跟踪。
3 实验仿真为验证本文提出的ME-GMS方法在处理特征点错误匹配时的有效性和高效性,下文分两部分进行配准跟踪实验。第一部分选择OTB-100[21]数据集中Rubik、Dog和Skater视频序列进行特征点的跨帧匹配实验,并将SIFT[11]、SURF[13]、ORB[14]和GMS[17]作为对比算法;第二部分选择OTB-100、VGG[22]和Strecha[23]数据集进行视频序列的连续跟踪实验,并选择主流的跟踪算法GMS、ASLA[18]、HDT[19]和DCFCA[20]作为对比算法。本文算法均利用Python代码实现,并运行在配置为Core i7-7700k和16 GB RAM的PC机上。
3.1 视频序列的跨帧匹配实验选择OTB-100数据集中的Rubik、Dog和Skater视频序列进行特征点的跨帧匹配实验,统计SIFT[11]、SURF[13]、ORB[14]、GMS[17]和ME-GMS算法的正确匹配数量和错误匹配数量,以计算匹配精度,同时比较各算法的运行速度,实验结果如图 1和表 1所示。
![]() |
Download:
|
图 1 不同算法对Rubik、Dog和Skater视频序列的跨帧匹配结果 Fig. 1 Cross-frame matching results of different algorithms for Rubik, Dog and Skater video sequences |
![]() |
下载CSV 表 1 不同算法对Rubik、Dog和Skater视频序列的跨帧匹配性能 Table 1 Cross-frame matching performance of different algorithms for Rubik, Dog and Skater video sequences |
从图 1和表 1可以明显看出:SIFT算法与SURF算法的匹配精度较差,匹配结果中存在大量的错误匹配;ORB算法的匹配精度略高于SIFT算法和SURF算法,但是仍有一定数量的错误匹配,并且容易出现匹配对簇集于一点的情况;相比于ORB算法,GMS算法错误匹配的数量有所减少,匹配精度进一步提高;而ME-GMS算法借助ORB算法高效的匹配效率,匹配速度仅仅稍低于ORB算法,但大量地剔除了错误的匹配点,保留下正确的部分,因此匹配精度得以提高,且即使在处理难度较大的跨帧匹配时,也没有出现错误匹配现象。对比实验结果证明了ME-GMS算法在视频序列的跨帧匹配时仍具有较好的匹配效果。
由表 1还可以看出,ORB算法的平均匹配精度为73.88%,ME-GMS算法的平均匹配精度为98.15%,匹配精度提高了约33个百分点,并且高于GMS算法的平均匹配精度94.20%,这证明ME-GMS算法在进行视频序列的跨帧匹配时比传统的特征点匹配算法适应能力更强,匹配效果更好。
3.2 视频序列的连续跟踪实验选择OTB-100,VGG和Strecha数据集进行视频序列的连续跟踪实验。采用中心位置误差(Center Location Error,CLE)、距离精度(Distance Precision,DP)和重叠精度(Overlap Precision,OP)[21]作为评价指标,中心位置误差阈值设置为10像素,重叠率阈值设置为0.7。本文算法与当前主流跟踪算法GMS[17]、ASLA[18]、HDT[19]和DCFCA[20]的性能对比如表 2所示。
![]() |
下载CSV 表 2 ME-GMS算法与当前主流跟踪算法的性能对比 Table 2 Comparison of performance between ME-GMS and current mainstream tracking algorithms |
从表 2可以看出,ME-GMS算法在3个视频数据集上的平均跟踪结果均优于其他4种主流跟踪算法,其中:平均CLE达到4.13像素,相比于其他4种跟踪算法平均提高了18%;平均DP达到92.1%,相比于其他4种跟踪算法平均提高了9%;平均OP达到90.1%,相比于其他4种跟踪算法平均提高了8%。ASLA算法在目标与背景相似的情况下,出现了较多的误匹配;HDL算法由于其复杂结构,导致处理速度最低;DCFCA算法的计算效率极高,但是随着误差的积累导致其他指标效果较差。实验结果表明,ME-GMS算法通过引入由粗到精的误匹配对剔除策略,可以大幅减少不必要特征点的生成与匹配工作,对视频序列实现更加稳定的跟踪效果。在平均运行速度上,ME-GMS算法排第二,略微低于DCFCA算法,这也反映了ME-GMS算法以较小的时间代价换取了跟踪性能的较大提升。
图 2是ME-GMS算法与其他4种主流跟踪算法在3个视频数据集上测试的距离精度曲线对比。可以看出,ME-GMS算法的距离精度曲线位置最高,说明该算法的跟踪定位能力最强。图 3是ME-GMS算法与其他4种主流跟踪算法在3个视频数据集上测试的重叠精度曲线对比。重叠精度曲线可有效反映目标跟踪算法的跟踪精度,它与坐标轴围成区域的面积越大,说明对应目标跟踪算法的跟踪性能越好。
![]() |
Download:
|
图 2 ME-GMS算法与主流跟踪算法的距离精度曲线对比 Fig. 2 Comparison of distance accuracy curves between ME-GMS and mainstream tracking algorithms |
![]() |
Download:
|
图 3 ME-GMS算法与主流跟踪算法的重叠精度曲线对比 Fig. 3 Comparison of overlapping accuracy curves between ME-GMS and mainstream tracking algorithm |
综合图 2和图 3可知,与其他4种对比算法相比,ME-GMS算法的距离精度曲线和重叠精度曲线位置都最高,说明ME-GMS算法的跟踪性能优于所对比的其他跟踪算法,进一步验证了基于K-means的误匹配粗剔除方法和基于分裂法的误匹配精剔除方法的有效性。
4 结束语本文提出一种新的视频目标跟踪方法ME-GMS。在GMS方法框架下,对ORB算法特征匹配阶段产生的错误匹配对进行“粗-精”两阶段剔除,借助ORB算法高效的计算速度,在保证视频序列跟踪时效性的同时提高匹配精度。视频序列的跨帧匹配和连续跟踪实验验证了本文方法稳健高效的匹配性能。但是该方法在进行特征点误匹配剔除时易受特征点提取质量的影响,即视频目标在复杂环境下,如受到光照、遮挡等因素的干扰,会导致特征点本身提取效果较差,从而影响剔除的效果,使视频跟踪的整体性能下降。下一步将优化特征点提取方法,以实现更好的跟踪效果。
[1] |
SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442-1468. DOI:10.1109/TPAMI.2013.230 |
[2] |
LI X, HU W M, SHEN C H, et al. A survey of appearance models in visual object tracking[J]. ACM Transactions on Intelligent Systems and Technology, 2013, 4(4): 1-5. |
[3] |
HU X H, GUO L, LI H H. Object tracking algorithm using objectness detection[J]. Journal of Xidian University, 2017, 44(4): 86-94, 111. (in Chinese) 胡秀华, 郭雷, 李晖晖. 一种利用物体性检测的目标跟踪算法[J]. 西安电子科技大学学报, 2017, 44(4): 86-94, 111. DOI:10.3969/j.issn.1001-2400.2017.04.016 |
[4] |
RYU J B, PARK H H, PARK J. Corner classification using Harris algorithm[J]. IEEE Transactions on Electronics Letters, 2011, 47(9): 536-538. DOI:10.1049/el.2011.0594 |
[5] |
WANG X, SHEN S Q, CHEN N, et al. Multi-class remote sensing object recognition based on discriminative sparse presentation[J]. Applied Optics, 2016, 55(6): 1381-1394. DOI:10.1364/AO.55.001381 |
[6] |
XIONG F G, HUO W, HAN X, et al. Removal method of mismatching keypoints in 3D point cloud[J]. Acta Optica Sinica, 2018, 38(2): 121-131. 熊风光, 霍旺, 韩燮, 等. 三维点云中关键点误匹配剔除方法[J]. 光学学报, 2018, 38(2): 121-131. |
[7] |
PAPAZOV C, HADDADIN S, PARUSEL S, et al. Rigid 3D geometry matching for grasping of known objects in cluttered scenes[J]. International Journal of Robotics Research, 2012, 31(4): 538-553. DOI:10.1177/0278364911436019 |
[8] |
CHEN J Z, PENG H N, WU N, et al. Automatic error point removal method for reconstructed cultural relic models[J]. Journal of Chinese Computer Systems, 2019, 40(9): 1926-1931. (in Chinese) 陈佳舟, 彭鹤年, 吴宁, 等. 文物三维重建误差点的自动剔除方法[J]. 小型微型计算机系统, 2019, 40(9): 1926-1931. DOI:10.3969/j.issn.1000-1220.2019.09.022 |
[9] |
YANG B S, ZANG Y F. Automated registration of dense terrestrial laser-scanning point clouds using curves[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 95(3): 109-121. |
[10] |
SONG D, TANG L B, ZHAO B J. SIFT mismatching points eliminating algorithm based on region overlapping kernel weighted Hu moment[J]. Journal of Systems Engineering and Electronics, 2013, 35(4): 870-875. (in Chinese) 宋丹, 唐林波, 赵保军. 基于区域重叠核加权Hu矩的SIFT误匹配点剔除算法[J]. 系统工程与电子技术, 2013, 35(4): 870-875. DOI:10.3969/j.issn.1001-506X.2013.04.32 |
[11] |
LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
[12] |
TAATI B, GREENSPAN M A. Local shape descriptor selection for object recognition in range data[J]. Computer Vision and Image Understanding, 2011, 115(5): 681-694. DOI:10.1016/j.cviu.2010.11.021 |
[13] |
BAY H, TUYTELAARS T, GOOL L V. SURF: speeded up robust features[J]. Computer Vision and Image Understanding, 2006, 110(3): 404-417. |
[14] |
RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of 2012 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2012: 2564-2571.
|
[15] |
ZHUO L, GENG Z, ZHANG J, et al. ORB feature based Web pornographic image recognition[J]. Neurocomputing, 2016, 173(3): 511-517. |
[16] |
MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORB-SLAM: a versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163. DOI:10.1109/TRO.2015.2463671 |
[17] |
BIAN J, LIN W Y, MATSUSHITA Y, et al. GMS: grid-based motion statistics for fast, ultra-robust feature correspondence[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Computer Society, 2017: 2828-2837.
|
[18] |
JIA X, LU H C, YANG M H. Visual tracking via coarse and fine structural local sparse appearance models[J]. IEEE Transactions on Image Processing, 2016, 25(10): 4555-4564. DOI:10.1109/TIP.2016.2592701 |
[19] |
QI Y K, ZHANG S P, QIN L. et al. Hedged deep tracking[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 4303-4311.
|
[20] |
MATTHIAS M, NEIL S, BERMARD G. Context-aware correlation filter tracking[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1387-1395.
|
[21] |
WU Y, LIM J, YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848. DOI:10.1109/TPAMI.2014.2388226 |
[22] |
MIKOLAJCZYK K, TUYTELAARS T, SCHMID C, et al. A comparison of affine region detectors[J]. International Journal of Computer Vision, 2005, 65(1/2): 43-72. |
[23] |
STRECHA C, HANSEN W V, GOOL L V, et al. On benchmarking camera calibration and multi-view stereo for high resolution imagery[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2008: 1-8.
|