基于改进Mask R-CNN的建筑钢筋尺寸检测算法

引用本文

闫天冉, 马晓静, 饶颖露, 等. 基于改进Mask R-CNN的建筑钢筋尺寸检测算法[J]. 计算机工程, 2021, 47(9), 274-281. DOI: 10.19678/j.issn.1000-3428.0058946.

YAN Tianran, MA Xiaojing, RAO Yinglu, et al. Rebar Size Detection Algorithm for Intelligent Construction Supervision Based on Improved Mask R-CNN[J]. Computer Engineering, 2021, 47(9), 274-281. DOI: 10.19678/j.issn.1000-3428.0058946.

基金项目

国家重点研发计划“大尺寸氢化物气相外延设备技术及外延”（2017YFB0404201）

通信作者

饶颖露(通信作者), 硕士研究生; 杜延丽(通信作者), 硕士研究生

作者简介

闫天冉(1996-), 女, 硕士研究生, 主研方向为图像处理;
马晓静, 助理研究员;
马思乐, 教授、博士

文章历史

收稿日期：2020-07-15
修回日期：2020-09-08

Contents Abstract Full text Figures/Tables PDF

基于改进Mask R-CNN的建筑钢筋尺寸检测算法

闫天冉 , 马晓静 , 饶颖露 , 杜延丽 , 马思乐

山东大学海洋研究院, 山东青岛 266237

收稿日期：2020-07-15；修回日期：2020-09-08

基金项目：国家重点研发计划“大尺寸氢化物气相外延设备技术及外延”（2017YFB0404201）

作者简介：闫天冉(1996-), 女, 硕士研究生, 主研方向为图像处理; 马晓静, 助理研究员; 马思乐, 教授、博士.

通信作者：饶颖露(通信作者), 硕士研究生; 杜延丽(通信作者), 硕士研究生.

E-mail: 786982514@qq.com

摘要：建筑施工现场钢筋图像背景复杂且干扰较多，传统图像检测算法无法有效利用特征信息，难以满足现阶段建筑智能监理行业中钢筋尺寸检测精度的验收要求。提出一种在Mask R-CNN模型基础上加入自下而上路径和注意力机制的改进模型BU-CS Mask R-CNN。在建筑工地现场拍摄图像后，整理自建钢筋数据集，并在此数据集上进行算法验证。实验结果表明，与Mask R-CNN模型相比，BU-CS Mask R-CNN模型的召回率、交并比和像素准确率分别提升了4.9%、6.8%、7.4%，钢筋直径和间距的尺寸检测精度分别提升了14.9%、4.4%，能得到更加准确的钢筋目标检测框和边缘分割掩膜，达到了行业中实际工程验收的精度要求。

Rebar Size Detection Algorithm for Intelligent Construction Supervision Based on Improved Mask R-CNN

YAN Tianran , MA Xiaojing , RAO Yinglu , DU Yanli , MA Sile

Institute of Marine Science and Technology, Shandong University, Qingdao, Shandong 266237, China

Abstract: When applied to the rebar images with complex background of construction sites, the traditional image detection algorithms cannot efficiently utilize feature information, and thus fail to meet the existing accuracy requirements of rebar size detection in the intelligent supervision industry.To address the problem, an improved Mask R-CNN model(BU-CS Mask R-CNN) with bottom-up path and attention mechanism is proposed.The model is tested on a self-made data set that consists of the images taken at the construction sites.The experimental results show that compared with the Mask R-CNN model, the proposed BU-CS Mask R-CNN model improves the recall rate by 4.9 percentage, IoU by 6.8 percentage, and accuracy by 7.4 percentage.It also improves the detection accuracy of the diameter by 14.9 percentage, and that of rebar spacing by 4.4 percentage.BU-CS Mask R-CNN can provide a more accurate rebar target detection box and edge segmentation mask, bringing the detection accuracy to the requirements of actual engineering projects.

开放科学（资源服务）标志码（OSID）：

0 概述

钢筋自身直径尺寸与搭建间距是否符合标准直接决定了建筑结构质量的好坏，其已成为建筑监理行业隐蔽工程验收中非常重要的检测环节。传统钢筋监理验收主要依靠人工视觉检测，监理人员需攀爬楼体建筑物，巡检范围有限且效率低，安全性和检测效果也难以保证。此外，测量现场存在某些企业或个人私自放低验收标准的情况，人工验收环节存在漏洞，建筑监理行业亟待向自动化和智能化转型。然而，基于机器视觉的建筑智能监理在应用和发展中面临诸多困难，例如背景、遮挡、杂质干扰、光照等问题会对钢筋尺寸检测精度产生很大影响，检测精度无法达到验收精度要求。因此，如何在建筑智能监理行业中实现高精度钢筋尺寸检测的智能化是应用和研究的难点。

近年来，与目标检测和语义分割相关的深度学习算法迅速发展，以卷积神经网络（Convolutional Neural Network，CNN）为原型衍生的各种方法被广泛应用，这些方法主要分为2类：基于区域的目标检测算法和基于端到端的目标检测算法。前者在检测精度和定位精度上占优，主要包括Fast R-CNN、Faster R-CNN^[1]等；后者在检测速度上占优，主要包括Yolo^[2-3]系列、SSD^[4]等。由Faster R-CNN发展而来的Mask R-CNN^[5]神经网络算法利用矩形边界框标记目标位置，能够在很大程度上排除工地现场复杂环境对钢筋目标提取的干扰。同时，像素级的语义分割能够为钢筋轮廓覆盖准确的掩膜，令高精度尺寸检测成为了可能。

为满足当前建筑智能监理行业的实际应用需求，高效准确地完成隐蔽工程验收中的钢筋尺寸检测工作，本文利用无人机巡检系统搭载高清摄像装备并在建筑工地现场进行拍摄，自建一个钢筋数据集，在Mask R-CNN模型基础上加入自下而上路径和注意力机制，构建BU-CS Mask R-CNN模型。利用该模型获得更加准确的钢筋目标检测框和边缘分割掩膜，使用亚像素边缘提取和邻近直线融合的直线检测等机器视觉算法做进一步处理，借助像素转化方法获得钢筋直径和间距的实际尺寸值，以判断是否符合验收标准。

1 相关工作

在建筑智能监理领域的目标检测中，HE等^[6]结合无人机影像中的建筑物特征，精简Mask R-CNN基础网络层数，调整和改进网络结构，提高了建筑物的检测效果。WANG等^[7]改进GIoU计算方法，与Yolo v3算法的目标函数相结合，设计了一个新的目标函数，提高了建筑施工领域安全帽检测的准确率。在近几年的研究应用中，注意力机制^[8]的运用显著改善了当前先进CNN的性能。文献[9]提出的SCA-CNN网络结合了CNN中的通道和空间注意力来进行图像描述。文献[10]提出了压缩和激励（SE）模块，显式地利用通道之间的相互依赖关系进行建模，自适应重新校准通道特性响应。这些方式提升了模型的预测准确率。在改进Mask R-CNN网络结构方面，文献[11]用极大值抑制方法替换了Mask R-CNN中非极大值抑制方法，虽然处理速度上得到了些许提升，但是精度和原始算法持平。文献[12]改进了特征金字塔增加反向侧边连接的支路，虽然能更好地利用低层信息，但是送入后续网络的特征依旧是从支路中选择的单一尺度特征，缺乏对不同尺度特征的针对性利用，精度提升效果不显著。

针对当前深层神经网络提取特征时低层特征信息丢失的问题，以及目标与非目标区域权重分配不合理的情况，本文提出的BU-CS Mask R-CNN模型对Mask R-CNN中FPN结构进行改进，通过加入自下而上路径缩短了底层和最顶层之间的信息路径，使底层信息更容易传播到顶层，并在顶层得到更有效的利用。同时，在该路径中组合使用通道注意力模块和空间注意力模块，为特征图每个像素分配不同权重，为目标响应较高的通道分配更大权重，令更多注意力集中在前景区域像素点上，提升了钢筋目标的检测精度。

2 改进的Mask R-CNN网络模型

Mask R-CNN是一个可以同时进行目标检测和语义分割的深度学习网络^[13]，在2016年COCO挑战赛中获得第1名。该模型基于Faster R-CNN网络提出mask掩膜，将全卷积神经网络（Fully Convolutional Network，FCN）中的分类和分割任务解耦。其中分类预测分支与Faster R-CNN相同，生成类别并输出矩形目标检测框，其突出特点是增加了掩膜分支，通过FCN^[14]进行像素级别的高精度语义分割。这两者的有效组合令Mask R-CNN成为目标检测和语义分割的优秀工具。

Mask R-CNN模型使用了LIN等提出的特征金字塔网络（Feature Pyramid Network，FPN）^[15]作为骨架网络，这使得网络不仅能够利用低层的高分辨率特征，而且可以利用语义上更具意义的高层次低分辨率特征进行精确定位。该模型的另一个贡献是ROI-Align，它使用双线性插值将任意大小的空间感兴趣区域映射到固定的空间分辨率，这种改进能够相对提高10%~50%的掩码精确度，在更严格的定位度量指标下得到更好的度量，并启用需要精确定位的实例掩码。掩膜头部引入了一个新的损失项L_Mask，用来计算预测掩膜和目标掩膜之间的像素交叉熵。Mask R-CNN损失函数定义如下：

$ {L}_{\mathrm{M}\mathrm{R}\mathrm{C}\mathrm{N}\mathrm{N}}={L}_{\mathrm{C}\mathrm{l}\mathrm{a}\mathrm{s}\mathrm{s}}+{L}_{\mathrm{B}\mathrm{o}\mathrm{x}}+{L}_{\mathrm{M}\mathrm{a}\mathrm{s}\mathrm{k}} $

(1)

其中：L_Class和L_Box分别为分类误差和检测误差。Mask R-CNN结构如图 1所示。

	Download: JPG larger image
图 1 Mask R-CNN结构 Fig. 1 Mask R-CNN structure

在深层神经网络中，下层特征需通过多层网络层才能到达顶层，经过多层之后，一些较低层信息可能会丢失，然而这些低层的特征信息对语义分割至关重要。在Mask R-CNN的FPN结构中加入自下而上路径（Bottom-up path），能够缩短底层和最顶层要素层之间的信息路径，使得底层信息更容易传播到顶层，并在顶层得到更有效的利用。同时，组合使用通道注意力（Channel-wise Attention，CA）模块和空间注意力（Spatial Attention，SA）模块，将其定义为CA-SA模块，并把它添加到自下而上路径。CA负责在特征图中分配每个通道的权重，SA负责为每个像素分配相应的权重。增加自下而上结构和注意力机制强化了任务之间的关系，令特征图对目标特征有更好的响应。本文将改进后的模型命名为BU-CS Mask R-CNN，将在特征提取网络中加入自下而上扩展路径和通道、空间注意力模块的结构命名为BOTTOM-UP-CA-SA。

CNN中不同通道获得的特征包含不同的语义信息，某些通道可能不包含任何目标特征，不同通道特征的重要性也不尽相同。当通过卷积提取特征时，多数现有方法会将相同权重分配给不同通道，而不进行通道选择。但在通道注意力模块中，目标响应较高的通道被分配更大的权重，这样可以更容易地获得所需对象的特征。对于通道注意力，卷积特征$ \boldsymbol{F}=[{\boldsymbol{F}}_{1}，{\boldsymbol{F}}_{2}，\cdots ，{\boldsymbol{F}}_{C}], {\boldsymbol{F}}_{i}\in {\mathbb{R}}^{w\times h} $，式中F_i表示特征图F的第i个通道，C为通道总数。将平均池化操作应用于每个特征图并产生1个通道特征向量$ \boldsymbol{V}:\boldsymbol{V}=[{\boldsymbol{V}}_{1}，{\boldsymbol{V}}_{2}，\cdots ，{\boldsymbol{V}}_{c}] $，$ \boldsymbol{V}\in {\mathbb{R}}^{\mathrm{c}} $，式中V_i表示平均池化后第i个通道的特征，用1×1卷积核进行卷积以从每个通道V_i学习聚合特征，再对特征向量V执行softmax操作，使所有通道的和为1，通道注意力模块结构如图 2所示。

	Download: JPG larger image
图 2 通道注意力模块 Fig. 2 Channel attention module

在图像中检测目标区域时，检测目标只会出现在图像的某些部分。普通CNN网络将平等对待图像中的每个区域，空间注意力机制不会对每个图像区域进行平等考虑，而更多地关注与检测目标相关的区域，在特征图中为每个像素分配一个权重，令更多注意力集中在前景区域像素点上，有效减少背景干扰^[16-17]。给出卷积特征$ \boldsymbol{F}=[{\boldsymbol{F}}_{1}，{\boldsymbol{F}}_{2}，\cdots ，{\boldsymbol{F}}_{C}] $，使用1×1卷积核生成特征图M，在特征图M的像素点上执行softmax操作使它们相加为1，空间注意力模块结构如图 3所示。

	Download: JPG larger image
图 3 空间注意力模块 Fig. 3 Spatial attention module

Mask R-CNN模型采用ResNet-FPN架构进行特征提取，ResNet^[18]作为基础特征提取网络，是目前应用最广泛的深度卷积特征提取网络之一。根据特征图大小分为5个stage，conv2~conv5这4个层次的输出特征图分别定义为C₂、C₃、C₄、C₅。通过ResNet和FPN结构得到4种不同层次的特征图，即P₂、P₃、P₄、P₅，如图 4所示。P₂层到P₅层是自下而上的扩展路径，添加CA-SA模块后，每层特征图N_i大小依然与对应的特征图P_i相同，然后新的特征图N_i便取代了原有特征图P_i，并被发送到后续网络层进行下一步处理。

	Download: JPG larger image
图 4 BOTTOM-UP-CA-SA结构示意图 Fig. 4 Schematic diagram of BOTTOM-UP-CA-SA structure

由图 4可知，BOTTOM-UP-CA-SA结构中N₂与P₂相同，为生成特征图N_i+1，N_i（2W×2H×C）由1个步幅为2的3×3卷积核卷积而成，特征图的高和宽被缩小到原来的1/2，尺寸与P_i+1保持相同。缩小后的特征图通过元素相加的方式与特征图P_i+1融合得到1个新的特征图N_i-half，之后被发送到CA-SA注意力模块得到特征图N_i，生成1个新的特征金字塔{N₂，N₃，N₄，N₅}，模块构造如图 5所示。

	Download: JPG larger image
图 5 BOTTOM-UP-CA-SA结构解析 Fig. 5 Illustraion of BOTTOM-UP-CA-SA structure

3 像素转化

本文提出了像素转化方法，通过转换公式将钢筋图像中的直径和间距像素值转化为实际尺寸。无人机在与地面保持水平的h米高度（无人机自动记录的实时高度），以固定倍数焦距拍摄图像，以此为前提条件建立像素转化模块，计算方法如图 6所示。

	Download: JPG larger image
图 6 像素转化计算示意图 Fig. 6 Schematic diagram of pixel conversion calculation

在图 6中，d为片幅的对角线长度，135片幅也就是标准镜头的对角线长度是43 mm。f是镜头焦距（单位为mm）。图像视角的对角线角度（单位为°）公式为：

$ \alpha =\frac{2}{\mathrm{\pi }}\times 180\times \mathrm{a}\mathrm{r}\mathrm{c}\mathrm{t}\mathrm{a}\mathrm{n}\frac{d}{2f} $

(2)

设图像长为l像素，宽为w像素，对角线一半的像素值d_p公式为：

$ {d}_{\mathrm{p}}=\sqrt{{\left(\frac{w}{2}\right)}^{2}+{\left(\frac{l}{2}\right)}^{2}} $

(3)

已知无人机拍摄高度h，设钢筋在图像中直径/间距为n像素，对角线一半的实际尺寸d_t、单位像素的实际尺寸d₁和钢筋直径/间距实际尺寸t的公式分别为：

$ {d}_{t}=h\times \mathrm{t}\mathrm{a}\mathrm{n}\frac{\alpha }{2} $

(4)

$ {d}_{1}=\frac{{d}_{t}}{{d}_{\mathrm{p}}} $

(5)

$ t=n\times {d}_{1} $

(6)

4 实验 4.1 钢筋数据集

建筑施工现场钢筋目标检测的主要难点有：背景复杂且多变；存在垫块、杂质和施工工具等物体的干扰；螺纹钢筋颜色与背景底色相近；日光照射下存在阴影。由于目前没有公开可用的钢筋数据集，本文利用大疆M600无人机搭载高清可变焦摄像设备，在施工现场上空垂直摄影。拍摄时令横竖钢筋与图像坐标尽量保持水平或垂直，这是因为目标检测框为矩形，数据集图像中的钢筋保持水平或垂直能极大地提高模型训练和测试的效率和准确率，可避免候选框包含不必要的背景与杂质，减少目标检测框重叠带来的误差。但受飞行环境不稳定的影响，拍摄的图像可能并不能完全达到要求，需要利用辅助参照物进行仿射变换^[17]以矫正图像角度，矫正前后的图像效果如图 7所示。

	Download: JPG larger image
图 7 仿射变换矫正前后图像效果 Fig. 7 Image effect before and after affine transformation correction

由于拍摄范围有限，因此采用了数据增广的方法，对图片进行水平翻转、增强亮度和添加不同密度噪声等以增大训练样本数量，丰富样本的多样性。数据增广效果如图 8所示。经过处理和扩增后的数据集共有2 000张，其中训练集每张图像大小为512像素$ \times $384像素，见图 9（a）。使用标注工具对其进行多边形边框标注。由于同一张图像中一般存在多个钢筋目标，因此使用了不同标签加以区分。该操作可防止检测结果只输出1个涵盖全部目标钢筋的矩形边界框，避免出现分割效果不准确、无法进行后续应用等现象。为减少图像计算量，对标定图像进行了灰度化处理。经过数据标定和处理后的钢筋目标掩膜图像见图 9（b）。

	Download: JPG larger image
图 8 数据增广效果示意图 Fig. 8 Schematic diagram of date expansion effect

	Download: JPG larger image
图 9 钢筋数据集 Fig. 9 Rebar dataset

4.2 模型训练

本文中深度学习训练的硬件配置为：操作系统Windows10，显卡NVIDIA GeForce GTX1080，系统内存64 GB，搭建运行环境TensorFlow-GPU1.4.0，Keras2.1.6，CUDA9.0.176，以及cuDNN7.0.5，利用Python3.6运行训练程序。训练过程需设置适合的参数，本文只针对钢筋目标这1个类别进行检测训练，相关设置如下：Batch_size为2，训练类别为1+1，学习率为0.001。

4.3 模型评价指标

本文采用F1分数（F1 Score）、召回率（Recall）、像素准确率（Accuracy，Acc）和交并比（Intersection-over-Union，IoU）作为检测评价指标。钢筋尺寸检测是一个语义分割问题，这里令钢筋像素取1，背景像素取为0。其中召回率、像素准确率的计算公式分别为：

$ {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(7)

$ {A}_{\mathrm{A}\mathrm{c}\mathrm{c}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}} $

(8)

其中：T_TP、F_FP分别表示为正确预测的钢筋像素数量和错误预测为钢筋的背景像素数量；F_FN表示错误预测为背景的钢筋像素数量。

F1分数和交并比的计算式分别为：

$ \mathrm{F}1=\frac{2\times {A}_{\mathrm{A}\mathrm{c}\mathrm{c}}\times {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}}{{A}_{\mathrm{A}\mathrm{c}\mathrm{c}}+{R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}} $

(9)

$ {I}_{\mathrm{I}\mathrm{o}\mathrm{U}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}} $

(10)

4.4 实验结果与分析

本文选用ResNet101作为主干网提取特征，并将提出的特征加入自下而上路径和注意力模块的Mask R-CNN模型，即U-CS Mask R-CNN，并与Mask R-CNN基础模型、Mask Scoring R-CNN^[19]、Mask R-CNN+S-NMS^[20]及PANet^[21]进行比较，模型性能评估对比见表 1。实验结果表明，BU-CS Mask R-CNN模型在训练过程中收敛更快，损失值也小于未添加的模型。同时，召回率、像素准确率和交并比分别较Mask R-CNN基础模型提升4.9%、7.4%、6.8%，评价指标数据和检测效果较其他改进的Mask R-CNN模型也更加优异。选取复杂背景的部分工地现场钢筋图像进行测试，如图 10第1行图片所示。图 10第2行图片的紫色区域和虚线边框是本文算法提取到的钢筋边缘分割掩膜和目标检测框。

下载CSV 表 1 不同模型性能评估对比 Table 1 Performance evaluation and comparison of different models

	Download: JPG larger image
图 10 现场钢筋图片与BU-CS Mask R-CNN模型检测效果 Fig. 10 On-site rebar pictures and detection effect of BU-CS Mask R-CNN model

深度学习算法还需要考虑内存和算力的需求，本文在tensorflow框架下计算了BU-CS Mask R-CNN算法和Mask R-CNN算法的时间复杂度和空间复杂度。其中时间复杂度决定模型的训练和预测时间，用浮点运算数（FLOPs）衡量，空间复杂度决定模型的参数数量。CA-SA模块的加入增加了本文算法的计算量，在输入图片大小为512像素$ \times $ 384像素的条件下，BU-CS Mask R-CNN和Mask R-CNN的FLOPs分别为7.875和8.355（增加0.485），网络参数总量分别为49.6 M和57.1 M（增加7.5 M）。本文算法虽然比Mask R-CNN稍显复杂，但对于建筑智能监理钢筋尺寸检测这部分的实际应用方面来说，检测准确率的重要性远大于检测速度和时间，因此增加的复杂度相对于准确度的提升在可接受范围内。

BU-CS Mask R-CNN模型提取到更加准确的钢筋目标检测框和边缘分割掩膜后，利用基于Zernike正交矩的亚像素边缘检测方法精确定位钢筋边缘轮廓。结合钢筋图像特征可知，同侧钢筋的直线相邻较近且在图像中呈对称分布，通过直线上的点信息融合邻近直线，便可获得高度拟合的钢筋边缘直线。

钢筋直径与间距测量定位示意图如图 11所示。建筑工地现场主要包括3种不同尺寸的钢筋，分别为12 mm、10 mm和8 mm的直径类型，在每种钢筋类型的2条边缘直径中间随机选取20个不同的直径定位点，测量定位示意图如图 11（a）所示。首先通过实地测量的方式记录相同直径定位点的真实尺寸，计算出实际直径测量的平均值；接着利用Mask R-CNN深度学习网络在选取的定位点对3种类型钢筋进行检测，通过像素转化方法将直径像素尺寸转化获得实际尺寸，记录直径尺寸平均值和误差；最后利用BU-CS Mask R-CNN深度学习网络在相同的定位点对3种类型钢筋执行相同操作，同样记录直径尺寸平均值和误差。改进前后的直径平均检测结果如表 2所示。

	Download: JPG larger image
图 11 钢筋直径与间距测量定位示意图 Fig. 11 Schematic diagram of rebar diameter and spacing positioning

下载CSV 表 2 Mask R-CNN与BU-CS Mask R-CNN平均直径检测结果 Table 2 Average diameter detection result of Mask R-CNN and BU-CS Mask R-CNN

随机选取8个区域位置的钢筋间距，并实地测量、记录钢筋间距的真实尺寸，间距的测量定位示意图如图 11（b）所示。在改进Mask R-CNN模型前后分别记录8个相同位置检测到的钢筋间距值，并计算误差。模型改进前后钢筋间距检测结果对比见表 3。根据建筑监理工程验收中的钢筋直径测量指标得知，直径误差在0.8 mm内即为符合验收要求的同一规格钢筋。由表 2钢筋直径平均检测结果分析可知，Mask R-CNN改进前12 mm、10 mm、8 mm这3种钢筋的平均误差绝对值最大分别为1.697 mm、2.151 mm、1.823 mm，均不满足直径验收需求；改进后3种钢筋的平均误差绝对值最大分别为0.527 mm、0.363 mm、0.456 mm，均小于0.8 mm，满足这3种尺寸钢筋的直径验收需求，且直径尺寸检测精度平均提升14.9%。

下载CSV 表 3 Mask R-CNN与BU-CS Mask R-CNN间距检测结果 Table 3 Spacing detection result of Mask R-CNN and BU-CS Mask R-CNN

建筑监理工程中钢筋间距验收要求为20 cm，误差在1 cm内即为合格绑扎钢筋。利用目标检测框坐标对相邻钢筋间距进行测算，改进前误差绝对值最小为10.55 mm，大于1 cm，不满足间距验收需求；改进后误差绝对值最大为7.5 mm，小于1 cm，满足间距验收要求，且间距尺寸检测精度平均提升4.4%。以上结果证明，基于BU-CS Mask R-CNN模型的建筑钢筋尺寸检测方法提升了检测精度，且改进后能够满足建筑监理工程中钢筋直径0.8 mm的误差指标和间距1 cm的误差指标。

5 结束语

本文针对建筑智能监理隐蔽工程验收中的钢筋尺寸检测精度低的问题，提出了BU-CS Mask R-CNN模型，该模型加入了自下而上路径和注意力机制，能得到更加准确的钢筋目标检测框和边缘分割掩膜。实验结果表明，与Mask R-CNN模型相比，BU-CS Mask R-CNN模型的召回率、交并比和像素准确率分别提升了4.9%、6.8%、7.4%，钢筋直径和间距的尺寸检测精度分别提升了14.9%、4.4%。同时，本文自建了含有2 000张图片的钢筋数据集用于训练和测试，实现了建筑智能监理领域基于机器视觉的智能化高精度钢筋尺寸测量，为建筑监理中的钢筋验收工作提供了可靠的基础数据和智能化的方法。下一步将对该模型进行轻量化处理，以提高模型的检测速度。

参考文献

[1]	REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[2]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 321-331.
[3]	BOCHKOVSKIY A, WANG C Y, LIAO H Y. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2020-06-02]. https://arxiv.org/pdf/2004.10934.pdf.
[4]	LIU W, ANGUELOV D, ERHAN D. SSD: single shot multibox detector[EB/OL]. [2020-06-02]. https://arxiv.org/pdf/1512.02325.pdf.
[5]	KAIMING H, GEORGIA G, PIOTR D, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(2): 1-2.
[6]	HE W L. Research on detection method of uav image building based on mask R-CNN[D]. Shanghai: East China Institute of Technology, 2019. (in Chinese) 何维龙. 基于Mask R-CNN的无人机影像建筑物检测方法研究[D]. 上海: 华东理工大学, 2019.
[7]	WANG B, LI W J, TANG H. Improved YOLO v3 algorithm and its application in helmet detection[J]. Computer Engineering and Application, 2020, 56(9): 33-40. (in Chinese) 王兵, 李文璟, 唐欢. 改进YOLO v3算法及其在安全帽检测中的应用[J]. 计算机工程与应用, 2020, 56(9): 33-40.
[8]	WU L, WANG Y, LI X, et al. Deep attention-based spatially recursive networks for fine-grained visual recognition[J]. IEEE Transactions on Cybernetics, 2018, 49(5): 1-12.
[9]	CHEN L, ZHANG H, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 440-451.
[10]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 712-718.
[11]	SONG H H. Research on pedestrian detection and tracking based on deep learning feature sharing[D]. Harbin: Harbin Industrial University, 2019. (in Chinese) 宋欢欢. 基于深度特征共享的行人检测与跟踪研究[D]. 哈尔滨: 哈尔滨工业大学, 2019.
[12]	REN Z J, LIN S Z, LI D W, et al. Mask R-CNN object detection method based on improved feature pyramid[J]. Progress in Laser and Optoelectronics, 2019, 56(4): 174-179. (in Chinese) 任之俊, 蔺素珍, 李大威, 等. 基于改进特征金字塔的Mask R-CNN目标检测方法[J]. 激光与光电子学进展, 2019, 56(4): 174-179.
[13]	WEN T, ZHOU D X, LI M. Global information fusion method for feature imbalance in Mask R-CNN[J]. Computer Engineering, 2021, 47(3): 256-260, 268. (in Chinese) 文韬, 周稻祥, 李明. Mask R-CNN中特征不平衡问题的全局信息融合方法[J]. 计算机工程, 2021, 47(3): 256-260, 268.
[14]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[15]	LIN T Y, DOLLÁR, PIOTR, et al. Feature pyramid networks for object detection[EB/OL]. [2020-06-02]. https://arxiv.org/pdf/1612.03144.pdf.
[16]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[EB/OL]. [2020-06-02]. https://arxiv.org/abs/1807.06521.
[17]	LASKAR Z, KANNALA J. Context aware query image representation for particular object retrieval[EB/OL]. [2020-06-02]. https://arxiv.org/pdf/1703.01226.pdf.
[18]	TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: generalizing residual architectures[EB/OL]. [2020-06-02]. https://www.researchgate.net/publication1319770415_Resnet_in_Resnet_Generalizing_Resid.
[19]	HUANG Z J; HUANG L C; GONG Y C, et al. Mask scoring R-CNN[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 6409-6418.
[20]	NIE S, JIANG Z, ZHANG H, et al. Inshore ship detection based on Mask R-CNN[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. Washington D.C., USA: IEEE Press, 2018: 1121-1132.
[21]	LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[EB/OL]. [2020-06-02]. https://arxiv.org/abs/1803.01534.