结合可变形卷积与双边网格的立体匹配网络

引用本文

刘振国, 李钊, 宋滕滕, 等. 结合可变形卷积与双边网格的立体匹配网络[J]. 计算机工程, 2022, 48(12), 241-247, 254. DOI: 10.19678/j.issn.1000-3428.0063606.

LIU Zhenguo, LI Zhao, SONG Tengteng, et al. Stereo Matching Network Combining Deformable Convolution and Bilateral Grid[J]. Computer Engineering, 2022, 48(12), 241-247, 254. DOI: 10.19678/j.issn.1000-3428.0063606.

基金项目

山东省高等学校青年创新团队发展计划（2019KJN048）

通信作者

李钊（通信作者），讲师、博士

作者简介

刘振国（1998—），男，硕士研究生，主研方向为双目立体匹配;
宋滕滕，硕士研究生;
何益智，硕士研究生

文章历史

收稿日期：2021-12-24
修回日期：2022-02-11

Contents Abstract Full text Figures/Tables PDF

结合可变形卷积与双边网格的立体匹配网络

刘振国 , 李钊 , 宋滕滕 , 何益智

山东理工大学计算机科学与技术学院, 山东淄博 255000

收稿日期：2021-12-24；修回日期：2022-02-11

基金项目：山东省高等学校青年创新团队发展计划（2019KJN048）

作者简介：刘振国（1998—），男，硕士研究生，主研方向为双目立体匹配; 宋滕滕，硕士研究生; 何益智，硕士研究生.

通信作者：李钊（通信作者），讲师、博士.

E-mail：lzg867906114@163.com

摘要：双目立体匹配被广泛应用于无人驾驶、机器人导航、增强现实等三维重建领域。在基于深度学习的立体匹配网络中采用多尺度2D卷积进行代价聚合，存在对目标边缘处的视差预测鲁棒性较差以及特征提取性能较低的问题。提出将可变形卷积与双边网格相结合的立体匹配网络。通过改进的特征金字塔网络进行特征提取，并将注意力特征增强、注意力机制、Meta-ACON激活函数引入到改进的特征金字塔网络中，以充分提取图像特征并减少语义信息丢失，从而提升特征提取性能。利用互相关层进行匹配计算，获得多尺度3D代价卷，采用2D可变形卷积代价聚合结构对多尺度3D代价卷进行聚合，以解决边缘膨胀问题，使用双边网格对聚合后的低分辨率代价卷进行上采样，经过视差回归得到视差图。实验结果表明，该网络在Scene Flow数据集中的端点误差为0.75，相比AANet降低13.8%，在KITTI2012数据集中3px的非遮挡区域误差率为1.81%，能准确预测目标边缘及小区域处的视差。

Stereo Matching Network Combining Deformable Convolution and Bilateral Grid

LIU Zhenguo , LI Zhao , SONG Tengteng , HE Yizhi

School of Computer Science and Technology, Shandong University of Technology, Zibo, Shandong 255000, China

Abstract: Binocular stereo matching is widely used in the field of 3D reconstruction for applications such as unmanned driving, robot navigation, and augmented reality.In a stereo matching network based on deep learning, multi-scale 2D convolution is used for cost aggregation; however, this type of network exhibits the problem of poor robustness to disparity prediction at target edge and low performance of feature extraction.Thus, a stereo matching network based on deformable convolution and a bilateral grid is proposed.An improved Feature Pyramid Network(FPN) is used for feature extraction, and attention feature enhancement, attention mechanism, and the Meta-ACON activation function are introduced to fully extract image features and reduce semantic information loss, thereby improving the performance of feature extraction.A cross correlation layer is used for matching the calculation to obtain multi-scale 3D cost volumes. The 2D deformable convolution cost aggregation structure is used to aggregate multi-scale 3D cost volumes to solve the problem of edge expansion.The bilateral grid is used to upsample the aggregated low-resolution cost volumes, and a disparity map is obtained through disparity regression.The experimental results show that the End Point Error(EPE) of the network on the Scene Flow dataset is 0.75, which is 13.8% lower than that of the AANet.The error matching rate of the 3px non-occluded area in the KITTI2012 dataset is 1.81%.It can accurately predict the disparity at target edge and the small area.

开放科学(资源服务)标志码(OSID)：

0 概述

双目立体匹配^[1-3]作为无人驾驶、机器人导航、增强现实等三维重建领域的核心技术，取得显著成效。随着深度学习的发展和研究，基于深度学习的双目立体匹配相较于传统双目立体匹配，在精度与速度方面都具有优异的性能。

文献[4]提出可以实现端到端训练的深度学习立体匹配网络DispNetC，该网络采用相关层对左右特征图进行相似性度量，并利用下采样的方式计算得到代价体，通过对代价体进行解码，获得视差并回归得到稠密视差图，虽然达到了实时性的目的，但是精度却大幅降低。文献[5]提出GC-Net，采用串联方式对特征提取得到的特征图进行聚合，将左右特征图串联得到代价体，最后使用3D卷积聚合这些代价体。文献[6]提出PSM-Net，引入金字塔特征池化^[7]，利用全局上下文信息进行匹配，该网络通过堆叠大量由3D卷积组成的代价聚合模块进行代价聚合，虽然精度得到显著提高，但是计算量大幅增加，速度也大幅减慢。针对3D卷积所存在的问题，文献[8]提出GA-Net，采用半全局聚集和局部引导聚集这2种引导聚合层代替3D卷积进行代价聚合，以提升精度并减少计算量，但是在网络模型中使用3D卷积进行代价聚合，其运行速度与2D卷积相比仍存在一定的不足。

针对基于深度学习的立体匹配网络使用3D卷积进行代价计算所产生计算量大的问题，文献[9]提出AANet，利用2D可变形卷积构建代价体，并构建同尺度代价聚合模块与跨尺度代价聚合模块，在保持精度的同时显著提升速度，但是AANet对边缘处的视差预测并不理想，同时特征提取部分的性能有待提高。

在基于深度学习的立体匹配网络中，利用3D卷积进行代价聚合，同时引用来自图像的监督信息，从而提高输出视差图的精度，导致计算量增大，例如基于2D卷积的立体匹配网络通过特征相关构造3D代价卷，而基于3D卷积需要构建4D代价卷。假设输入的代价卷与输出的代价卷大小相同，卷积核大小为K（通常K=3），最大视差D为64，则3D卷积的计算复杂度为O（K³×C²×D×H×W），2D卷积的计算复杂度为O（K²×D²×H×W+3K⁴×D×H×W+3K²×D×H×W），2D卷积的计算复杂度为3D卷积的1/130。因此，3D卷积虽然可以提高精度，但是产生的计算量导致速度减慢。2D卷积方法可以加快模型速度，但是对于边缘处的视差预测鲁棒性较低，同时多尺度2D卷积方法中特征提取部分的性能有待提高。

本文提出结合可变形卷积与双边网格的2D卷积立体匹配网络。通过引入注意力特征增强结构，丰富低分辨率特征图的特征信息，采用注意力机制与Meta-ACON激活函数提高特征提取效率，同时在聚合模块中结合可变形卷积与双边网格^[10-11]，增强视差图的边缘信息。

1 网络结构

本文网络由特征提取、代价计算、代价聚合、双边网格上采样、视差回归组成。利用改进的特征金字塔网络（Feature Pyramid Network，FPN）进行特征提取，充分利用语义信息以及空间特征信息，提高特征信息的利用率。为减少计算量，本文使用类似于DispNetC的互相关层^[12]对提取的特征进行特征点匹配，以计算多尺度3D代价卷。当获得多尺度3D代价卷后，利用注意力机制与Meta-ACON激活函数相结合的2D可变形卷积代价聚合模块进行聚合，提高模型精度，采用双边网格对聚合得到的低分辨率代价卷进行上采样，提升预测视差在边缘处的鲁棒性。最后通过视差回归获得视差图。本文网络的整体结构如图 1所示。

	Download: JPG larger image
图 1 本文网络结构 Fig. 1 Structure of the proposed network

1.1 注意力特征增强结构

立体匹配网络的特征提取部分对双目图像特征信息提取的充分程度，可间接关系到弱纹理以及无纹理区域的鲁棒性。而基于深度学习的立体匹配网络多采用金字塔结构以及左右特征图共享权重来完成特征提取任务，同时，通过输出多尺度的特征图来构建代价体，具有较优的性能，如AANet。然而，当FPN^[13]输出多尺度特征图时，低分辨率的特征图并没有与不同分辨率的特征图融合输出，这可能导致语义信息提取不充分，从而影响视差图的鲁棒性。

为了解决该问题，本文借鉴AugFPN^[14]的思想，在高层低分辨率特征图上添加注意力特征增强结构，将其与低分辨率特征图进行融合输出。但是，与AugFPN不同，本文的注意力特征增强结构对自适应空间融合进行改进，将拼接的上下文特征通过最大池化层与平均池化层后，分别经过1×1卷积层与3×3卷积层处理，最后经过Sigmoid函数生成权重。同时，在特征提取的残差结构中引入通道注意力机制^[15]与Meta-ACON激活函数^[16]，增强特征提取能力，更加充分地提取特征。在特征金字塔网络中的注意力特征增强结构如图 2所示。

	Download: JPG larger image
图 2 注意力特征增强结构 Fig. 2 Structure of attention feature enhancement

首先，为了获得多个上下文信息，将特征图通过自适应池化层（该层由3种比例的自适应池化层构成），获得3种H×W尺度的上下文特征，然后，这3种上下文特征分别经过1×1卷积层，使其通道数变为256，通过双线性插值进行上采样并融合。由于单一插值并融合易造成混叠效应，因此需要经过自适应空间融合来消除混叠效应。自适应空间融合把上采样特征作为输入，将多个特征图进行拼接，通过Sigmoid函数生成一个空间权重。权重用于将上下文特征聚合成新的特征图。新的特征图具有多尺度上下文信息，仅适用于与原分支低分辨率特征图相融合，并不进行输出。自适应池化层与金字塔场景解析（Pyramid Scene Parsing，PSP）^[17]网络的不同之处在于：PSP将特征池化为具有固定大小的多个特征，而自适应池化层则考虑图像的比率。本文使用自适应空间融合层融合特征，而不是直接卷积连接特征，有助于消除混叠效应。由于引入的注意力特征增强结构额外增加用于融合的特征图，因此会增加参数量，对模型的速度产生影响。为提高特征提取性能，本文在残差结构中引入注意力机制与Meta-ACON激活函数。注意力机制与Meta-ACON激活函数融合结构如图 3所示。

	Download: JPG larger image
图 3 注意力机制与Meta-ACON激活函数融合结构 Fig. 3 Structure of attention mechanism and Meta-ACON activation function fusion

注意力机制将图像中的特征信息转换为权重，生成的权重信息可辅助完成特征提取任务，充分提取特征信息，从而生成特征图。本文使用Meta-ACON激活函数，可选择性地激活神经元，提升特征提取效率。注意力机制的计算如式（1）所示：

$ {M}_{C}\left(F\right)=\sigma \left({W}_{1}\left({W}_{0}\left({F}_{\mathrm{a}\mathrm{v}\mathrm{g}}^{c}\right)\right)+{W}_{1}\left({W}_{0}\left({F}_{\mathrm{m}\mathrm{a}\mathrm{x}}^{c}\right)\right)\right) $

(1)

其中：σ为Sigmoid函数；W₀为权重，W₀∈$ \mathbb{R} $^C/r×C；W₁为权重，W₁∈$ \mathbb{R} $^C×C/r。ReLU激活函数后接W₁，F_avg与F_max分别表示平均池特征与最大池特征。

Meta-ACON激活函数如式（2）所示：

$ \begin{array}{l}f\left(x\right)={S}_{\beta }\left({p}_{1}x-{p}_{2}x\right)=\\ \left({p}_{1}-{p}_{2}\right)x\times \sigma \left[\beta \left({p}_{1}-{p}_{2}\right)x\right]+{p}_{2}x\end{array} $

(2)

其中：S_β为光滑的最大值函数；p₁与p₂为可学习的参数（p₁≠p₂）；$ \beta $为开关因子。Meta-ACON激活函数引入到残差网络中进行测试，并加入可学习的参数，参数量增加，但是自适应开关因子$ \beta $的加入能够有效提高精度。

1.2 可变形卷积代价聚合与双边网格上采样 1.2.1 可变形卷积代价聚合

传统的跨尺度聚合算法^[18]采用统一优化进行局部代价聚合，并利用不同尺度的代价体聚合来消除在无纹理区域中鲁棒性较差的现象。在弱纹理及无纹理区域中，低分辨率尺度下的代价体有利于特征点的匹配^[19-20]，当代价体下采样时，具有相同分辨率的代价体在无纹理和弱纹理区域的纹理信息更加清晰。

本文采用可变形卷积进行聚合，有助于解决边缘膨胀问题，若采用规则卷积，采样点难以自适应地聚合到相似视差的位置，导致边缘膨胀。可变形卷积^[21]的原理是将规则卷积提取与采样点对应的像素值，根据式（3）进行计算，得到带有偏移量的像素值：

$ x\left({p}_{0}+{p}_{n}+\mathrm{\Delta }{p}_{n}\right)=\sum\limits_{q}G\left(q, p\right)·x\left(q\right) $

(3)

其中：p₀为像素点；p_n为固定偏移；∆p_n为可学习的偏移量；q为图像中的空间位置；G（q，p）为线性插值。

使用式（4）对带有偏移量的像素值进行计算，获得最终的像素值：

$ y\left({p}_{0}\right)=\sum\limits_{{p}_{n}\in R}w\left({p}_{n}\right)·x\left({p}_{0}+{p}_{n}+\mathrm{\Delta }{p}_{n}\right) $

(4)

其中：y（p₀）为最终的像素值；w（p_n）为位置权重。

将最终的像素值更新到矩阵中，最后使用规则卷积进行采样，使采样点可以自适应地聚合到具有相似视差的位置。

为了解决2D卷积方法在边缘处鲁棒性较差的问题并验证传统跨尺度聚合算法改进弱纹理及无纹理区域鲁棒性的结论，尺度间代价聚合采用堆叠的多尺度可变形卷积模块进行代价聚合。

基础聚合结构及聚合公式借鉴AANet的原理，但需要近似传统跨尺度算法来解决无纹理和弱纹理区域鲁棒性较差的问题，并且输出单尺度低分辨率代价体与后续双边网格进行上采样。因此，与AANet聚合结构相比，本文将聚合后的多尺度代价体进行一次跨尺度代价聚合，并在聚合模块的残差网络结构中加入注意力机制与Meta-ACON激活函数，进一步优化聚合效果，提升模型精度。可变形卷积代价聚合模块结构如图 4所示。

	Download: JPG larger image
图 4 可变形卷积代价聚合模块结构 Fig. 4 Structure of deformable convolution cost aggregation module

对于3种尺度的成本卷C∈$ \mathbb{R} $^D×H×W（D、H、W分别为最大视差、高度和宽度），使用式（5）近似可变形卷积进行聚合：

$ \boldsymbol{C}\left(d, p\right)=\sum\limits_{k=1}^{{K}^{2}}{W}_{k}\times \boldsymbol{C}\left(d, P+{P}_{k}+\mathrm{\Delta }{P}_{k}\right)\times {m}_{k} $

(5)

其中：C（d，p）为视差d在像素点p处聚合后的成本量；K为采样点的数量；W_k为聚合权重；P_k为基于窗口成本聚合方法的固定偏移量；$ \mathrm{\Delta } $P_k为可学习的额外偏移量；m_k为位置权重。本文加入$ \mathrm{\Delta } $P_k可以在边缘及薄结构处获得理想的结果。m_k用于控制像素点之间位置的相互影响，从而加强自适应聚合。自适应聚合的具体结构类似于残差结构，其中位于中间的卷积层使用可变形卷积。传统的跨尺度代价聚合方式将相同尺度代价体与固定数值相乘，而对于高尺度代价体则先进行下采样，然后与低尺度代价体相结合。

1.2.2 双边网格上采样

为了进一步解决边缘处预测视差鲁棒性较差的问题，本文采用双边网格进行上采样。双边网格最早应用于加速双边滤波^[14]，并在BG-Net^[13]中与3D卷积相结合，减少网络模型参数量。原始像素被投影到双边网格中，在双边网格中执行切片操作。在引导图的引导下，双边网格通过三线性插值来提取代价体的过程被称为切片。切片的维度只是单纯的一维信息，因此可以将3D代价体升至可以进行切片操作的维度。与BG-Net不同，本文网络将双边网格上采样与可变形卷积相结合，并且通过类似注意力特征增强的结构获得引导图。注意力特征增强导致参数量增加，从而影响模型的运行速度，但相比仅进行1×1卷积处理获得的引导图，具有较丰富的纹理信息，有助于提升模型精度。可变形卷积代价聚合与双边网格相结合的结构如图 5所示。

	Download: JPG larger image
图 5 可变形卷积代价聚合与双边网格相结合的结构 Fig. 5 Structure of combining deformable convolution cost aggregation and bilateral grid

聚合后使用双边网格切片上采样，将低分辨率的代价卷上采样至高分辨率代价卷。首先，将得到聚合后的3D代价卷升至可以切片的维度，以便于双边网格进行切片操作，然后，将特征提取部分得到的高分辨率特征图转换为引导特征图，与来自双边网格操作后的代价卷进行切片上采样。双边网格使用4个维度B（w，h，d，g），其中w、h、d、g分别表示宽度、高度、视差和引导图特征。最后，通过双边网格切片获得4D高分辨率代价卷并降维，得到3D高分辨率代价卷。切片操作是在高分辨率引导图的引导下4D双边网格中进行线性插值，同时切片层没有参数，并不会增加计算量。切片层的定义如式（6）所示：

$ {\boldsymbol{C}}^{\wedge }\left(d\right)=B\left([sw, sh, sd, sgG\left(w, h\right)]\otimes \boldsymbol{C}\left(d\right)\right) $

(6)

其中：C为进行聚合并升至一定维度后的代价体；$ {\boldsymbol{C}}^{\wedge } $为上采样后的代价体；B为双边网格；s∈（0，1）为网格的宽度或高度比；sg∈（0，1）为网格的灰度与引导图的灰度比；G表示引导图；$ \otimes $表示三线性插值。

1.3 视差回归与损失函数

本文对于每一个像素，采用Soft argmin方法^[5]进行视差回归。该视差回归方法可微并且能够返回亚像素精度的视差，有助于提升视差回归精度。视差回归如式（7）所示：

$ d=\sum\limits_{d=0}^{{D}_{\mathrm{m}\mathrm{a}\mathrm{x}}-1}d\times \sigma \left({\boldsymbol{C}}_{d}\right) $

(7)

其中：D_max为最大视差；σ为Sigmoid函数；C_d为通过代价聚合以及上采样获得的代价卷；σ（C_d）为视差的概率。

由于Scene Flow数据集^[4]中的数据由大量真值标签标注，因此采用smoothL1损失函数训练Scene Flow数据集，如式（8）所示，smoothL1函数如式（9）所示：

$ L=\frac{1}{N}\times \sum\limits_{i=1}^{N}\mathrm{s}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}\mathrm{h}\mathrm{L}1\left({d}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}\text{，}{d}_{\mathrm{g}\mathrm{t}}\right) $

(8)

$ \mathrm{s}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}\mathrm{h}\mathrm{L}1=\left\{\begin{array}{l}0.5{x}^{2}\text{，}\left|x\right| < 1\\ \left|x\right|-0.5, \mathrm{其}\mathrm{他}\end{array}\right. $

(9)

其中：N为被标记的像素数；d_pred为预测视差；d_gt为视差真值。

由于KITTI2012^[22-23]数据集缺少真值标签，因此利用效果较好的模型训练出的KITTI2012数据集作为伪标签^[9]。在KITTI2012数据集上的损失函数如式（10）所示：

$ L=\sum\limits_{i=1}^{N}\mathrm{s}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}\mathrm{h}\mathrm{L}1\left({D}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}}^{i}\left(p\right), {D}_{\mathrm{p}\mathrm{s}\mathrm{e}\mathrm{u}\mathrm{d}\mathrm{o}}\left(p\right)\right) $

(10)

其中：p为像素值；D_pseudo（p）为伪标签真值。

2 实验设置与结果分析 2.1 实验参数设置

本文实验使用Pytorch框架，网络环境的搭建以及实验中的训练过程在配置为NVIDIA Tesla T4GPU的服务器上运行。本文采用2个数据集进行实验，分别为Scene Flow和KITTI2012。对于Scene Flow数据集，本文实验将图片随机裁剪分辨率为288×576像素，验证集尺寸分辨率为540×960像素，初始学习率为0.001，使用Adam优化器进行优化（β₁=0.9，β₂=0.999），epoch为64，在进行第20次epoch之后，每10个epoch降低一次学习率。对于KITTI2012数据集，本文实验采用Scene Flow数据集生成的预训练模型进行训练，并将模型参数进行微调。在KITTI2012数据集的视差预测时采用与文献[9]相同的策略，即用视差真值作为监督，提高模型在该数据集下的精度。本文最大视差设置为192。

2.2 实验结果分析 2.2.1 模型消融实验

为了选出最佳的网络结构，本文对所提网络进行消融实验，在Scene Flow数据集上分析双边网格、注意力特征增强、注意力机制与Meta-ACON激活函数对端点误差（EPE）的影响，其中注意力机制与Meta-ACON激活函数使用AMA表示，结果如表 1所示。

下载CSV 表 1 消融实验结果 Table 1 Ablation experiment results

从表 1可以看出：当不添加注意力特征增强、注意力机制与Meta-ACON激活函数、双边网格时，本文网络的端点误差为0.882；加入注意力机制与Meta-ACON激活函数后，本文网络端点误差为0.835；加入双边网格与注意力特征增强后，本文网络端点误差为0.804；当加入注意力特征增强、注意力机制与Meta-ACON激活函数、双边网格时，本文网络端点误差为0.756。因此最佳的网络模型为加入注意力特征增强、注意力机制与Meta-ACON激活函数、双边网格。

2.2.2 在Scene Flow数据集上的结果分析

在Scene Flow数据集上，本文网络DEBGNet与DispNetC^[4]、GC-Net^[5]、PSM-Net^[6]、AANet^[9]进行对比实验。本文使用的评价指标为EPE。在Scene Flow数据集上不同网络的实验结果对比如表 2所示。

下载CSV 表 2 不同网络的实验结果对比 Table 2 Experimental results comparison among different networks

从表 2可以看出，本文网络DEBGNet具有较优的精度。虽然本文所提网络在速度方面与实时网络DispNetC相比不占优势，但是在精度方面，DEBGNet比DispNetC的EPE降低了约55%。与其他基于3D卷积的网络模型PSM-Net、GC-Net相比，DEBGNet网络具有较高的精度和较快的速度。为了提升网络模型精度，在网络中加入Meta-ACON激活函数与注意力特征增强，但会少量地增加计算量。因此，与基于2D卷积的AANet相比，本文所提网络的速度虽然稍微慢一些，但EPE下降了13.7%。

本文网络全部基于2D卷积，在Scene Flow数据集上，与AANet进行可视化对比。在Scene Flow数据集上，本文网络DEBGNet与AANet的可视化结果对比如图 6所示（彩色效果见《计算机工程》官网HTML版）。

	Download: JPG larger image
图 6 在Scene Flow数据集上不同网络的可视化结果对比 Fig. 6 Visual results comparison among different networks on Scene Flow dataset

在图 6中的第1行为伪彩色深度图，第2行为预测视差图，第3行为原图。从图 6可以看出，在红色边框标注的部位，本文网络比AANet能够更清晰地预测目标边界，尤其在细小的结构以及边角处。

2.2.3 在KITTI2012数据集上的结果分析

本文采用KITTI数据集提供的评价指标进行对比，KITTI2012数据集的对比指标为2px、3px以及5px的非遮挡区域误差率（Noc）与所有区域误差率（All），对比指标数值越小效果越好。在KITTI2012数据集上不同网络的评价指标对比如表 3所示。

下载CSV 表 3 在KITTI2012数据集上不同网络的评价指标对比 Table 3 Evaluation indexs comparison among different networks on KITTI2012 dataset

从表 3可以看出，相比DispNetC，DEBGNet在KITTI2012数据集上的误差率明显降低，与MC-CNN^[24]、FAD-Net^[25]、AANet相比，本文网络在速度较快的前提下，2px、3px以及5px的对比结果中，误差率有良好的表现，尤其与AANet相比，在5px下Noc误差率降低6.7%。

在KITTI2012数据集上本文网络与AANet、GC-Net的对比结果如图 7所示。该对比结果由KITTI数据集提供，图 7中第1行为原图，第2行为误差图，第3行为预测视差图。从图中黑色边框标注处可以看出，本文所提网络可以较准确地预测出目标边缘及细小区域处的视差。

	Download: JPG larger image
图 7 在KITTI2012数据集上不同网络的可视化结果对比 Fig. 7 Visual results comparison among different networks on KITTI2012 dataset

3 结束语

本文提出结合可变形卷积与双边网格的立体匹配网络。该网络由2D卷积构成，引入注意力特征增强结构，同时利用注意力机制与Meta-ACON激活函数相结合的2D可变形卷积进行代价聚合，通过双边网格进行上采样，提高模型精度。实验结果表明，相比PSM-Net、GC-Net，本文网络在Scene Flow数据集上的端点误差分别降低31.1%、70.1%，运行速度分别加快60%、82%，相较于AANet的端点误差降低13.8%。后续将采用遮挡掩码抑制方式优化本文所提的立体匹配网络^[26-27]，以提高遮挡区域的鲁棒性。

参考文献

[1]	张一飞, 李新福, 田学东. 融合边缘特征的SAD立体匹配算法[J]. 计算机工程, 2020, 46(4): 236-240, 246. ZHANG Y F, LI X F, TIAN X D. SAD stereo matching algorithm combining edge features[J]. Computer Engineering, 2020, 46(4): 236-240, 246. (in Chinese)
[2]	赵晨园, 李文新, 张庆熙. 一种改进的实时半全局立体匹配算法及硬件实现[J]. 计算机工程, 2021, 47(9): 162-170. ZHAO C Y, LI W X, ZHANG Q X. An improved real-time semi-global stereo matching algorithm and its hardware implementation[J]. Computer Engineering, 2021, 47(9): 162-170. (in Chinese)
[3]	黄彬, 胡立坤, 张宇. 基于自适应权重的改进Census立体匹配算法[J]. 计算机工程, 2021, 47(5): 189-196. HUANG B, HU L K, ZHANG Y. Improved census stereo matching algorithm based on adaptive weight[J]. Computer Engineering, 2021, 47(5): 189-196. (in Chinese)
[4]	MAYER N, ILG E, HÄUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 4040-4048.
[5]	ALEX K, HAYK M, SAUMITRO S, et al. End-to-end learning of geometry and context for deep stereo regression[C]//Proceedings of International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 66-75.
[6]	CHANG J R, CHEN Y S. Pyramid stereo matching network[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 5410-5418.
[7]	HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[EB/OL]. [2022-01-09]. https://arxiv.org/pdf/1406.4729.pdf.
[8]	ZHANG F H, PRISACARIU V, YANG R G, et al. GA-Net: guided aggregation net for end-to-end stereo matching[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA. IEEE Press, 2019: 185-194.
[9]	XU H F, ZHANG J Y. AANet: adaptive aggregation network for efficient stereo matching[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 1956-1965.
[10]	XU B, XU Y H, YANG X L, et al. Bilateral grid learning for stereo matching networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 12492-12501.
[11]	CHEN J W, SYLVAIN P, FREDO D. Real-time edge-aware image processing with the bilateral grid[J]. ACM Transactions on Graphics, 2017, 26(3): 1-10.
[12]	ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1647-1655.
[13]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[14]	GUO C X, FAN B, ZHANG Q, et al. AugFPN: improving multi-scale feature learning for object detection[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 12592-12601.
[15]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[EB/OL]. [2022-01-09]. https://arxiv.org/pdf/1807.06521.pdf.
[16]	MA N N, ZHANG X Y, LIU M, et al. Activate or not: learning customized activation[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 8028-8038.
[17]	ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 6230-6239.
[18]	ZHANG K, FANG Y Q, MIN D B, et al. Cross-scale cost aggregation for stereo matching[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2014: 1590-1597.
[19]	MENZ M D, FREEMAN R D. Stereoscopic depth processing in the visual cortex: a coarse-to-fine mechanism[J]. Nature Neuroscience, 2003, 6(1): 59-65. DOI:10.1038/nn986
[20]	XU Q S, TAO W B. Multi-scale geometric consistency guided multi-view stereo[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 5478-5487.
[21]	DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 764-773.
[22]	GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2012: 3354-3361.
[23]	MENZE M, GEIGER A. Object scene flow for autonomous vehicles[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2012: 3061-3070.
[24]	JURE Z，YANN L C. Computing the stereo matching cost with a convolutional neural network[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C. ，USA：IEEE Press，2015：1-8.
[25]	WANG Q, SHI S H, ZHENG S Z, et al. FAD-Net: a fast and accurate network for disparity estimation[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 1-7.
[26]	季顺平, 罗冲, 刘瑾. 基于深度学习的立体影像密集匹配方法综述[J]. 武汉大学学报(信息科学版), 2021, 46(2): 193-202. JI S P, LUO C, LIU J. A review of dense stereo image matching methods based on deep learning[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 193-202. (in Chinese)
[27]	郑太雄, 黄帅, 李永福, 等. 基于视觉的三维重建关键技术研究综述[J]. 自动化学报, 2020, 46(4): 631-652. ZHENG T X, HUANG S, LI Y F, et al. Key techniques for vision based 3D reconstruction: a review[J]. Acta Automatica Sinica, 2020, 46(4): 631-652. (in Chinese)