新冠肺炎疫情背景下聚集性传染风险智能监测模型

引用本文

春雨童, 韩飞腾, 何明珂. 新冠肺炎疫情背景下聚集性传染风险智能监测模型[J]. 计算机工程, 2022, 48(8), 45-52, 61. DOI: 10.19678/j.issn.1000-3428.0063195.

CHUN Yutong, HAN Feiteng, HE Mingke. Intelligent Monitoring Model for Aggregated Infection Risk Against the Background of COVID-19 Epidemic[J]. Computer Engineering, 2022, 48(8), 45-52, 61. DOI: 10.19678/j.issn.1000-3428.0063195.

基金项目

国家自然科学基金重大研究计划培育项目“复杂社会网络中行为传播扩散与预测方法研究”（91646120）

通信作者

韩飞腾（通信作者），博士研究生

作者简介

春雨童（1994—），男，工程师、博士，主研方向为人工智能、管理科学;
何明珂，教授、博士、博士生导师

文章历史

收稿日期：2021-11-10
修回日期：2022-01-17

Contents Abstract Full text Figures/Tables PDF

新冠肺炎疫情背景下聚集性传染风险智能监测模型

春雨童^1,2,3 , 韩飞腾^1,3 , 何明珂³

1. 首都经济贸易大学管理工程学院, 北京 100070;
2. 国能经济技术研究院有限责任公司, 北京 102299;
3. 北京物资学院物流学院, 北京 101149

收稿日期：2021-11-10；修回日期：2022-01-17

基金项目：国家自然科学基金重大研究计划培育项目“复杂社会网络中行为传播扩散与预测方法研究”（91646120）

作者简介：春雨童（1994—），男，工程师、博士，主研方向为人工智能、管理科学; 何明珂，教授、博士、博士生导师.

通信作者：韩飞腾（通信作者），博士研究生.

E-mail: h_feiteng@163.com

摘要：新型冠状病毒肺炎疫情严重威胁人们的生命安全，对于聚集性人群密度及口罩佩戴情况的监管是控制病毒扩散的重要途经。公共场所具有人流密集且流动性大的特点，人工监测易增加感染风险，而现有基于深度学习的口罩检测算法存在功能及场景单一的问题，不能在多场景下实现多类别检测，同时精度也有待提升。提出Cascade-Attention R-CNN目标检测算法，实现对聚集区域、行人和口罩佩戴情况的自动检测。针对任务中目标尺度变化过大的问题，选取高精度两阶段Cascade R-CNN目标检测算法作为基础检测框架。通过设计多个级联的候选分类-回归网络并加入空间注意力机制，突出候选区域特征中的重要特征并抑制噪声特征，从而提高检测精度。在此基础上，构建聚集性传染风险智能监测模型，结合Cascade-Attention R-CNN算法的输出结果确定传染风险等级。实验结果表明，该模型对于不同场景和视角的多类别目标图片具有较高的准确性和鲁棒性，Cascade-Attention R-CNN算法平均精度均值达到89.4%，较原始Cascade RCNN算法提升2.6个百分点，较经典的两阶段目标检测算法Faster R-CNN和单阶段目标检测框架RetinaNet分别提升10.1和8.4个百分点。

Intelligent Monitoring Model for Aggregated Infection Risk Against the Background of COVID-19 Epidemic

CHUN Yutong^1,2,3 , HAN Feiteng^1,3 , HE Mingke³

1. School of Management and Engineering, Capital University of Economic and Business, Beijing 100070, China;
2. China Energy Economic and Technological Research Institute Co., Ltd., Beijing 102299, China;
3. School of Logistics, Beijing Wuzi University, Beijing 101149, China

Abstract: The Corona Virus Disease 2019(COVID-19) epidemic is a serious threat to people's lives.Supervision of the density of clustered people and wearing of masks is key to controlling the virus.Public places are characterized by a dense flow of people and high mobility.Manual monitoring can easily increase the risk of infection, and existing mask detection algorithms based on deep learning suffer from the limitation of having a single function and can be applied to only a single type of scenes; as such, they cannot achieve multi-category detection across multiple scenes.Furthermore, their accuracy needs to be improved.The Cascade-Attention R-CNN target detection algorithm is proposed for realizing the automatic detection of aggregations in areas, pedestrians, and face masks.Aiming to solve the problem that the target scale changes too significantly during the task, a high-precision two-stage Cascade R-CNN target detection algorithm is selected as the basic detection framework.By designing multiple cascaded candidate classification regression networks and adding a spatial attention mechanism, we highlight the important features of the candidate region features and suppress noise features to improve the detection accuracy.Based on this, an intelligent monitoring model for aggregated infection risk is constructed, and the infection risk level is determined by combining the outputs of the proposed algorithm.The experimental results show that the model has high accuracy and robustness for multi-category target images with different scenes and perspectives.The average accuracy of the Cascade Attention R-CNN algorithm reaches 89.4%, which is 2.6 percentage points higher than that of the original Cascade R-CNN algorithm, and 10.1 and 8.4 percentage points higher than those of the classic two-stage target detection algorithm, Faster R-CNN and the single-stage target detection framework, RetinaNet, respectively.

开放科学（资源服务）标志码（OSID）：

0 概述

新冠肺炎一般指新型冠状病毒肺炎（Corona Virus Disease 2019，COVID-19）。2019年末，新冠肺炎疫情爆发，全国各地报道多起聚集性传染病例。随着疫情防控进入常态化阶段，全国出现多点散发、局部聚集性疫情反弹的现象。2021年7月，南京禄口机场爆发聚集性传染疫情并扩散至全国多地，10月至12月，内蒙古、北京、浙江等多地出现散发聚集性传染疫情，疫情防控工作再次面临严峻考验。在人员密集的公共场所佩戴口罩并保持安全距离是有效防控聚集性传染的主要方式^[1-2]。目前，人工监测是对公共场所人群聚集及口罩佩戴情况的主要监测手段。然而公共场所具有人流密集且流动性大的特点，人工监测不仅难以高效识别聚集人群的口罩佩戴情况，而且存在监测人员感染、监测人力不足等情况。因此，构建智能化的聚集性传染风险监测模型对现阶段的疫情防控具有重要意义和实践价值。

近年来，很多基于深度学习的高精度通用目标检测算法被提出，如Faster R-CNN^[3]、R-FCN^[4]、Cascade R-CNN^[5]、YOLO^[6]、SSD^[7]、RetinaNet^[8]、YOLOv3^[9]等，并在很多场景下实现了落地应用^[10-12]。在疫情防控背景下，研究者进行了一些口罩佩戴检测算法的研究。王艺皓等^[13]针对复杂场景下存在的目标遮挡、密集人群、小尺度目标检测等问题，通过结合跨阶段局部网络、优化空间金字塔池化结构和使用CIoU损失函数改进YOLOv3算法，提出了新的口罩佩戴检测算法。曹城硕等^[14]等同样针对口罩佩戴检测任务中被遮挡目标和小目标检测困难的问题，在特征提取网络中引入注意力机制，提出了YOLO-Mask口罩佩戴目标检测算法。张修宝等^[15]在ResNet50网络的基础上加入空间和通道注意力学习机制，增强了口罩佩戴识别模型对口罩区域特征的学习。彭成等^[16]基于YOLOv5检测框架，通过将其中的部分特征提取模块替换为更轻量的GhostBottleNeck和ShuffleConv模块，实现了一种轻量级口罩佩戴检测框架。WANG等^[17]提出了MFDD、RMFRD、SMFRD 3种类型的蒙面人脸数据集以提高口罩检测识别精度。虽然口罩相关检测算法的研究取得了较大进展，但所涉及的功能及场景具有单一性，而单独一种功能无法有效地实现聚集性传染风险监测。此外，现有口罩检测算法的精度仍有待提升。

本文将聚集区域检测、行人检测和行人口罩佩戴情况检测相结合，提出多功能多场景的目标检测框算法Cascade-Attention R-CNN。针对任务中目标尺度变化过大的问题，选取高精度两阶段目标检算法Cascade R-CNN作为基础检测框架，通过在级联的候选区域分类-回归网络中加入空间注意力机制，达到突出候选区域重要特征和抑制噪声特征的目的，进而提升特征表达能力。在此基础上，根据检测结果评定疫情传染风险等级，实现对聚集性传染的无接触和智能化防控和监测。

1 聚集性传染风险监测模型 1.1 聚集性传染风险等级划分

口罩是预防呼吸道传染病的重要防线，能够大幅降低以新型冠状病毒为代表的呼吸道传染疾病感染风险^[18]。由于商场、超市、火车站等公共场所具有人流密集且流动性大的特点，佩戴口罩更是成为预防聚集性传染的必要措施。根据《新型冠状病毒感染的肺炎防控方案（第六版）》中对聚集性病例的相关描述，本文将图像中两人及以上，可由人工判断为近距离相处的人群视为聚集人群（dense）。由于聚集人群中的人员密集程度和口罩佩戴情况是影响聚集性传染风险的重要因素，因此本文在判断聚集人群的基础上，将行人（person）及口罩佩戴（mask）两个要素作为变量，划定聚集性传染风险等级并以不同颜色标记进行区分，其中一级风险为最高等级。

设一张图像中dense的集合为$ X=[{x}_{1}, {x}_{2}, \cdots , {x}_{n}] $，$ {x}_{i} $中person的集合为$ {Y}_{i}=[{y}_{1}, {y}_{2}, \cdots , {y}_{m}] $，mask的集合为$ {Z}_{i}=[{z}_{1}, {z}_{2}, \cdots , {z}_{p}] $，三者关系符合$ {z}_{i}\subset {y}_{i}\subset {x}_{i} $。设定$ {x}_{i} $中$ {Y}_{i} $数量的阈值为$ \delta $，则聚集性传染风险等级划分如表 1所示。

下载CSV 表 1 聚集性传染风险等级 Table 1 Level of aggregated infection risk

在实际监测中，阈值可根据实施监测的具体环境及情况进行调整，如密闭室内环境中可将$ \delta $降低，在开阔室外环境则可提高。

1.2 智能监测流程设计

目前，人工监测是对公共场所人群聚集及口罩佩戴情况的主要监测手段。然而由于公共场所人流密集，人工监测不仅难以高效识别聚集人群的口罩佩戴情况，且存在监测人员感染、监测人力不足等情况。虽然已有部分企业开发了口罩识别或行人识别模型以帮助疫情防控，但这些模型大多存在功能单一（只可识别口罩或行人）和场景单一（近距离和简单场景）的问题，难以在多场景下实现多类别的目标检测。

针对以上问题，本文提出聚集性传染风险监测模型，实现无接触和智能化的聚集性传染风险监测，模型架构如图 1所示（彩色效果见《计算机工程》官网HTML版）。该模型可通过摄像头的监测画面识别特定场所的聚集人群、行人和口罩佩戴情况，并根据表 1判定风险等级。

	Download: JPG larger image
图 1 聚集性传染风险监测模型架构 Fig. 1 Framework of monitoring model for aggregated infection risk

本文模型包括数据获取、数据预处理、模型推理、检测结果、结果融合、风险等级6个部分，具体过程如下：

1）数据获取：通过摄像头或其他图像采集设备获得视频影像。影像获取设备可根据具体场景监测需求调节距离和角度，以尽可能多地获取监测场景信息。由于摄像头拍摄的图像仅包含2维信息，因此本文在判断聚集人群时不考虑3维空间中的距离因素。

2）数据预处理：利用跨平台计算机视觉库OpenCV将视频按帧切割成图片，并将图片作为目标检测模块的输入。OpenCV是由Intel公司开发的开源计算机视觉库，具有编写简洁而高效的特点，在图像处理领域被广泛应用^[19-21]。由于将视频切分为帧图片属于成熟技术且不是本文讨论重点，因此对数据获取及数据预处理部分不做讨论。

3）模型推理：利用空间注意力机制优化Cascade R-CNN^[5]算法，提出Cascade-Attention R-CNN目标检测算法，并基于该算法建立基于视觉的多功能多场景目标检测模块，以数据预处理获得的帧图片作为输入，识别图片中人、口罩、聚集人群3个目标的位置及数量。具体内容详见1.3节。

4）检测结果：多功能多场景目标检测模块的输出结果，用红色、蓝色和绿色的检测框分别标注聚集人群（dense）、人（person）及口罩（mask）的所在区域。

5）结果融合：利用结果融合模块判断目标检测结果中聚集人群（dense）、个人（person）和佩戴口罩（mask）三要素的隶属关系及数量，同时将目标检测模块结果与表 1中的聚集性传染风险等级相融合，判定图片的风险等级。具体内容详见1.4节。

6）风险等级：将图片所对应的聚集性传染风险等级以不同边框颜色进行表示。颜色标签详见表 1。

1.3 目标检测模块及算法设计

当前主流的通用目标检测算法大致分为两阶段目标检测算法和单阶段目标检测算法。相较于单阶段目标检测算法，两阶段目标检测算法由于在第一个阶段过滤掉了大部分不包含物体的候选区域，因此缓解了正负样本不平衡的问题，具有更高的检测精度。Faster R-CNN^[3]作为最具代表性的两阶段目标检测算法，是之后很多优秀目标检测算法的基础，具有重要的里程碑意义。然而，目标尺度变化过大是本文任务中所存在的关键问题，而Faster R-CNN在处理这一问题上具有局限性^[5]。在Faster R-CNN第一个阶段输出的候选区域中，绝大部分候选区域与真实目标的重叠面积较小，这在训练时会导致训练样本尺度不平衡，进而导致模型对于不同尺度的目标识别效果差别较大。为了缓解Faster R-CNN对于尺度问题的局限性，本文基于Faster R-CNN，通过设计多个级联的候选框分类回归网络（RoI-Head），使得不同级别的RoI-Head负责位置偏差不同的候选框的预测，提升了算法对于尺度变化的鲁棒性。然而，Cascade R-CNN虽然设置了多个级联的RoI-Head，但是每个RoI-Head内部提取更高辨识度特征的能力仍然有提升空间，更高辨识度的特征更有利于区分不同尺度的物体。因此，本文基于Cascade R-CNN提出Cascade-Attention R-CNN算法，通过结合空间注意力和卷积操作，设计一种特征提取能力更强的注意力候选框分类回归网络（Attention RoI-Head），进一步提升算法的检测效果。如图 2所示，算法输入为视频帧图片，通过级联3种结构相同的Attention RoI-Head，输出行人（person）、聚集人群（dense）及口罩（mask）的检测类别分数及位置信息。其中，以score代表每个类别的预测概率分数，bbox代表回归后的区域坐标。

	Download: JPG larger image
图 2 Cascade-Attention R-CNN算法流程 Fig. 2 Procedure of Cascade-Attention R-CNN algorithm

Cascade-Attention R-CNN算法包含两个阶段：第一阶段为候选区域提取网络（Region Proposal Network，RPN），用于提取目标区域，以二分类的方式判断物体是否存在并对预先定义的anchor区域位置进行微调，最终输出包含物体的候选区域（proposals），此阶段并不考虑具体的物体类别；第二阶段为基于空间注意力的候选框分类回归网络（Attention RoI-Head）。在R-CNN系列的两阶段检测算法中，RoI-Head往往先将候选框对应的特征输入到连续两个全连接层，然后再分别利用两个全连接输出最终候选框的类别概率分数和位置偏移。Cascade R-CNN沿用了Faster R-CNN中的RoI-Head，但并没有对其结构进行改进。本文提出的Cascade-Attention R-CNN算法在使用Cascade R-CNN级联结构的同时，对RoI-Head的网络结构进行改进，通过在ROI Pooling Feature Map上进行卷积和空间注意力的操作，提出Attention RoI-Head，实现了更强大的相关特征提取功能。

具体而言，本文将RoI-Head中分类和回归共享的两个全连接层改变为3个卷积层和1个全连接层，且针对3个卷积层分别使用空间注意力机制来提高特征表达能力。2种RoI-Head结构对比如图 3所示。

	Download: JPG larger image
图 3 RoI-Head结构对比 Fig. 3 Structure comparison of RoI-Head

本文选择卷积层和空间注意力机制结合使用，是因为不同尺度目标物体的主要差异来源于空间层面的不同，对于其空间特征差异性的捕获更有助于实现对不同尺度目标物体的区分。相较于全连接层，卷积层能够更好地保持目标物体特征的空间特性，空间注意力则可对特征的空间层面进行显式加权，过滤噪声特征，增加更高辨识度空间特征的权重，进而实现对于不同尺度物体区分度更高的特征提取，最终提升算法对于任务中尺度变化过大情况的鲁棒性^[22]。实验结果表明，改进后的Attention RoI-Head具有更好的效果。关于空间注意力的具体形式，本文采用CBAM^[22]中的空间注意力，如图 4所示。值得注意的是，其他形式的空间注意力或许具有更好的效果，但本文主要研究利用注意力机制与卷积结合去提升算法特征表达能力，进而缓解尺度变化过大的问题，而关于空间注意力的表达形式不是本文研究内容。

	Download: JPG larger image
图 4 空间注意力机制流程 Fig. 4 Procedure of spatial attention mechanism

损失函数属于多任务损失函数，包含第一阶段RPN的损失和第二阶段Attention RoI-Head的损失，且两部分损失均包含分类损失（cls loss）和回归损失（bounding box regression loss）。以RPN阶段的损失函数为例，如式（1）所示：

$ L({p}_{i}, {t}_{i})=\frac{1}{{N}_{\mathrm{c}\mathrm{l}\mathrm{s}}}\sum\limits _{i}{L}_{\mathrm{c}\mathrm{l}\mathrm{s}}({p}_{i}, {p}_{i}^{\mathrm{*}})+\lambda \frac{1}{{N}_{\mathrm{r}\mathrm{e}\mathrm{g}}}\sum\limits _{i}{p}_{i}^{\mathrm{*}}{L}_{\mathrm{r}\mathrm{e}\mathrm{g}}({t}_{i}, {t}_{i}^{\mathrm{*}}) $

(1)

其中：$ i $表示候选框（anchors）索引；$ {N}_{\mathrm{c}\mathrm{l}\mathrm{s}} $为总的anchors数量；$ {N}_{\mathrm{r}\mathrm{e}\mathrm{g}} $为anchors所在的中心位置个数；由于实际过程中$ {N}_{\mathrm{c}\mathrm{l}\mathrm{s}} $和$ {N}_{\mathrm{r}\mathrm{e}\mathrm{g}} $差距过大，因此用参数$ \lambda $平衡两者差距，使网络可以均匀地考虑两种损失；$ {p}_{i} $表示预测候选框$ i $为目标的概率；$ {p}_{i}^{\mathrm{*}} $表示选取候选框对应的样本所属标签，当候选框目标为正样本时$ {p}_{i}^{\mathrm{*}} $取1，否则取0；$ {t}_{i} $表示预测的边界框（bounding box）的4个坐标参数；$ {{t}_{i}}^{\mathrm{*}} $表示正确标注边界框的坐标；$ {L}_{\mathrm{c}\mathrm{l}\mathrm{s}} $表示二分类器的分类损失，如式（2）所示；$ {L}_{\mathrm{r}\mathrm{e}\mathrm{g}} $表示回归损失，如式（3）所示；$ R $表示$ \mathrm{s}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}{\mathrm{h}}_{\mathrm{L}1} $函数，如式（4）所示。

$ {L}_{\mathrm{c}\mathrm{l}\mathrm{s}}({p}_{i}, {p}_{i}^{\mathrm{*}})=-\mathrm{l}\mathrm{n}[{p}_{i}{p}_{i}^{\mathrm{*}}+(1-{p}_{i}\left)\right(1-{p}_{i}^{\mathrm{*}}\left)\right] $

(2)

$ {L}_{\mathrm{r}\mathrm{e}\mathrm{g}}({t}_{i}, {t}_{i}^{\mathrm{*}})=R({t}_{i}-{t}_{i}^{\mathrm{*}}) $

(3)

$ \mathrm{s}\mathrm{m}\mathrm{o}\mathrm{o}\mathrm{t}{\mathrm{h}}_{\mathrm{L}1}\left(x\right)=\left\{\begin{array}{l}0.5{x}^{2}, \left|x\right| < 1\\ \left|x\right|-0.5, \left|x\right|\ge 1\end{array}\right. $

(4)

为增强算法对于小目标检测的效果，本文引入特征金字塔网络（Feature Pyramid Network，FPN），通过采用一种自上而下（top-bottom）的方式，将顶层特征与底层特征进行融合，之后在融合后的每层特征上进行候选区域提取、相关类别预测和偏移量预测。

1.4 结果融合模块及算法设计

本文通过结果融合模块判断目标检测结果中聚集人群（dense）、个人（person）和佩戴口罩（mask）三要素的隶属关系及数量，并将目标检测模块结果与风险监测等级相结合。为了更准确地判断三要素关系及数量，结果融合模块对dense和person、person和mask这2种情况分别进行处理。

在目标检测领域，图像坐标系通常定义如图 5所示，即以$ {O}_{o} $为原点，$ X $轴箭头指向右侧，$ Y $轴指向下方。

	Download: JPG larger image
图 5 图像坐标系示意图 Fig. 5 Schematic diagram of image coordinate system

设dense、person、mask的坐标分别为$ ({x}_{0}, {y}_{0}, {h}_{0}, {w}_{0}) $、$ ({x}_{1}, {y}_{1}, {h}_{1}, {w}_{1}) $、$ ({x}_{2}, {y}_{2}, {h}_{2}, {w}_{2}) $，其中：$ x $和$ y $分别代表检测结果中边界框左上角点在图中的横纵坐标；$ w $和$ h $分别代表边界框的宽和高。在判断dense中person个数阶段，设dense与person的交集坐标为$ ({x}_{i}, {y}_{i}, {h}_{i}, {w}_{i}) $，则有：

$ {x}_{i}=\mathrm{m}\mathrm{a}\mathrm{x}({x}_{0}, {x}_{1}) \text{，} {x}_{i}+{w}_{i}=\mathrm{m}\mathrm{i}\mathrm{n}({x}_{0}+{w}_{0}, {x}_{1}+{w}_{1}) $

$ {y}_{i}=\mathrm{m}\mathrm{a}\mathrm{x}({y}_{0}, {y}_{1}) \text{，} {y}_{i}+{h}_{i}=\mathrm{m}\mathrm{i}\mathrm{n}({y}_{0}+{h}_{0}, {y}_{1}+{h}_{1}) $

(5)

$ {S}_{\sigma }={h}_{i}{w}_{i} \text{，} {S}_{1}={h}_{1}w{}_{1} $

(6)

根据式（5）和式（6）可计算得出dense和person边界框的面积交集$ {S}_{\sigma } $以及person边界框面积$ {S}_{1} $。当dense与person有交集且交集面积$ {S}_{\sigma } $占$ {S}_{1} $的比例大于等于阈值$ \alpha $，即person满足式（7）中所有条件时，判定该person属于dense且计数加1。

$ \left\{\begin{array}{c}{x}_{i} < {x}_{i}+{w}_{i}\\ \begin{array}{l}{y}_{i} < y{}_{i}+{h}_{i}\\ \alpha \le \frac{{S}_{\sigma }}{{S}_{1}}\end{array}\end{array}\right. $

(7)

在判断person是否正确佩戴mask阶段，由于mask的正确佩戴方式是在面部，因此默认mask必须全部在person边界框内。利用式（8）判断mask是否得到正确佩戴：

$ \left\{\begin{array}{c}{x}_{1} < {x}_{2} < {x}_{1}+{w}_{1}\\ {y}_{1} < {y}_{2} < {y}_{1}+{h}_{1}\\ ({y}_{2}-{y}_{1})\le \beta \times {h}_{2}\end{array}\right. $

(8)

其中：$ \beta $代表mask距person边界框顶部的垂直距离占person边界框高度$ {h}_{2} $比例的阈值。当mask满足式（8）中所有条件时，判定mask得到正确佩戴且计数加1。

1.5 评价指标

由于目标检测模块的检测效果直接影响聚集性传染风险监测模型的有效性，因此本文仅针对目标检测模块中的算法运行效果进行评价。为更好地综合反映精确率和召回率的情况，本文采用平均精度均值（mean Average Precision，mAP）作为对目标检测模块的评价指标，该指标兼顾了精确率和召回率。精确率P_Precision和召回率R_Recall的计算公式如下：

$ {P}_{\mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}}\times 100\mathrm{\%} $

(9)

$ {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{P}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}}\times 100\mathrm{\%} $

(10)

其中：$ {T}_{\mathrm{P}} $为正确识别的目标数量；$ {F}_{\mathrm{P}} $为误识别的目标数量；$ {F}_{\mathrm{N}} $为漏识别的目标数量。

通过选取召回率和精确率的值作为横坐标和纵坐标，得到的P-R曲线下的面积即为平均精度（Average Precision，AP）。对所有类别求AP并取均值即为mAP指标。mAP是目标检测问题中常用的评价指标，可以反映算法的整体性能^[23-24]。

2 实验与分析 2.1 数据集构建

基于聚集性传染风险监测模型的定义，本文实验使用的数据集必须同时包含人群聚集和口罩佩戴两个特征，且包含不同场景和视角。为清晰表示不同场景及视角，本文以A1和A2分别代表平视及俯视两个视角，平视指镜头与被拍摄物体保持基本相同水平获得图片，俯视指镜头中人眼处于平常生活状态下的俯视镜头获得图片。以B1、B2、B3分别代表近、中、远三种距离，C1和C2分别代表室内及室外两种场景，如图 6所示。由于缺少公开数据集，本文通过网络爬取及整合相关公开数据集的方式构建聚集性传染风险监测数据集。网络爬取部分选择百度及必应（bing）两个图片搜索引擎，分别以“口罩”“人群”“聚集”“疫情”“新型冠状病毒”等为关键词，利用爬虫下载搜索结果图片，并通过人工筛选得到1 049张有效图片。公开数据集部分选取大型商场（Mall Dataset）^[25]、UCSD^[26]、上海科技（Shanghaitech）^[27]这3个人群统计数据集，以及MAFA面部口罩检测数据集^[28]。经过对2个渠道数据源的筛选和清洗，共得到1 542张有效图片，按照5︰5划分训练集和测试集。由于数据集中涉及部分人脸信息，出于肖像权保护及信息安全的考虑，对包含清晰面部信息的图片均采取去除眼部信息特征的处理。实验数据集的具体数据分布如表 2所示。最后，使用目标检测任务标注工具LabelImg将数据集标注为PASCAL VOC^[23]格式。

	Download: JPG larger image
图 6 数据集示例图片 Fig. 6 Example images of dataset

下载CSV 表 2 数据集数据分布 Table 2 Dataset distribution of dataset

2.2 实验环境及参数设置

在多功能多场景目标检测模块的实验中，本文使用的仿真平台为Ubuntu 16.04，显卡采用GeForce GTX TITAN X 12 GB独立显卡。此外，安装GPU开发包CUDA10.1，深度学习框架为Pytorch 1.6.0，代码运行环境为Python 3.7.9。在训练阶段，采用ImageNet^[29]上的预训练模型ResNet-50^[30]作为特征提取网络。超参数设置如下：初始学习率为0.001，30 epoch后调整为0.000 1，共训练32 epoch；优化器选择带Momentum的SGD，其中Momentum设置为0.9；batch size为1。在训练和测试阶段，图片的输入尺寸统一为600×1 000像素。

2.3 算法评价

表 3展示了本文提出的Cascade-Attention R-CNN算法与其他主流目标检测算法的性能对比。通过表 3可知，两阶段目标检测算法Cascade R-CNN^[5] mAP分别超过单阶段目标检测算法RetinaNet^[8]和SSD512^[7]（输入图片的尺寸为512×512像素）5.8和0.9个百分点。本文提出的Cascade-Attention R-CNN算法超过Cascade R-CNN算法2.6个百分点，结果表明本文提出的Attention RoI-Head效果优于原始RoI-Head。此外，Cascade-Attention R-CNN算法关于行人（person）、口罩（mask）的AP值均达到90%以上，关于聚集人群（dense）的AP值达到85%以上。

下载CSV 表 3 不同算法的检测精度对比 Table 3 Detection precision comparison of different algorithms

2.4 实验结果及分析

本文聚集性传染风险监测模型的实验结果如图 7所示（彩色效果见《计算机工程》官网HTML版），其中体现了本文通过Cascade-Attention R-CNN算法构建的模型在不同场景和视角下对图片识别出的信息及相应的聚集性传染风险等级。其中：图片内边界框分别代表所识别的信息person（蓝色）、mask（绿色）及dense（红色）；图片边框颜色代表聚集性传染风险等级；dense中person数量阈值$ \delta $设置为2；结果融合模块中的$ \alpha $和$ \beta $阈值分别设置为2/3和1.5。

	Download: JPG larger image
图 7 不同场景和视角下的识别结果及聚集性传染风险等级 Fig. 7 Identification results and levels of aggregated infection risk under different scenes and perspectives

通过对实验结果的分析可得到以下结论：

1）目标检测模块对于近、中、远距离的目标均具有良好的识别效果，如图 7（a）、图 7（e）、图 7（k）所示。

2）目标检测模块可有效识别面部佩戴口罩情况，但存在特殊案例，如图 7（f）中虽然识别口罩佩戴在面部，但未遮挡住鼻子，感染风险大幅提升。由于类似情况较少，此处不做特殊处理。

3）目标检测模块对于聚集人群（dense）具有良好的识别效果，但存在瑕疵。如图 7（k）和图 7（l）所示，当人群过于密集且视角过远时，dense区域存在漏人情况，但此类情况不影响风险监测模型的正确监测。

4）目标检测模块对于除口罩外的面部遮挡干扰具有较强的鲁棒性。如图 7（b）和图 7（c）所示，虽然用手和面巾遮住面部，但目标检测模块未将该类遮挡视为佩戴口罩。

5）结果融合模块具有良好的融合效果。对比表 1中定义的聚集性传风险等级可以看出，结果融合模块可以有效地将监测结果与风险等级相结合，得到正确的监测风险等级。

基于以上对实验结果的分析可知，多功能多场景目标检测模块可以识别不同视角（俯视、平视）、不同场景（室内、室外）及不同距离（远、近）的多类别（个人、聚集人群及口罩）图片信息，具有较高的准确率和鲁棒性，同时结果融合模块也可有效融合检测结果与风险等级，进而验证了本文模型的有效性。

3 结束语

近年来，新冠肺炎疫情严重威胁着人们的生命健康，而对于聚集性活动的监管，如聚集性人群以及口罩佩戴状态的监管，是控制疫情传播的重要手段。本文提出Cascade-Attention R-CNN检测算法，缓解人工监管聚集性区域、行人和口罩佩戴耗费人力且增加传染风险的问题。为应对目标尺度变化过大的情况，选取Cascade R-CNN作为基本检测框架，通过在候选区域分类-回归网络中加入空间注意力机制，实现更高辨识度的特征提取。在此基础上，通过融合Cascade-Attention R-CNN的输出结果，构建聚集性传染风险监测模型，自动判定当前场景下的聚集性传染风险等级。实验结果表明，Cascade-Attention R-CNN较Faster R-CNN、RetinaNet、SSD、Cascade R-CNN等主流目标检测算法具有更高的检测精度，并且所构建的监测模型能够准确判定传染风险等级。本文采用原始的特征金字塔网络，针对固定尺度范围的目标仅使用单一的特征金字塔层。后续将利用不同层级的特征提取更高辨识度的特征，进一步提升检测效果。

参考文献

[1]	李兰娟, 朱雪灵. 新型冠状病毒肺炎疫情防控相关进展[J]. 浙江医学, 2021, 43(1): 1-8. LI L J, ZHU X L. Progress in the prevention and control of the COVID-19 epidemic[J]. Zhejiang Medical Journal, 2021, 43(1): 1-8. (in Chinese)
[2]	刘景景, 张坤淇, 宋明柯. 中国等7个国家2020年初的新冠肺炎疫情和应对策略[J/OL]. 上海预防医学: 1-11[2021-10-02]. http://kns.cnki.net/kcms/detail/31.1635.R.20210208.1406.003.html. LIU J J, ZHANG K Q, SONG M K. COVID-19 situations and prevention policies adopted in 7 countries including China, early 2020[J/OL]. Shanghai Journal of Preventive Medicine: 1-11[2021-10-02]. http://kns.cnki.net/kcms/detail/31.1635.R.20210208.1406.003.html. (in Chinese)
[3]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[4]	DAI J, LI Y, HE K, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 379-387.
[5]	CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 6154-6162.
[6]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 779-788.
[7]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of 2016 European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[8]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[EB/OL]. [2021-10-02]. https://arxiv.org/pdf/1708.02002.pdf.
[9]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-10-02]. https://arxiv.org/abs/1804.02767.
[10]	ZHU Z, LIANG D, ZHANG S H, et al. Traffic-sign detection and classification in the wild[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2110-2118.
[11]	BRAZIL G, LIU X M. Pedestrian detection with autoregressive network phases[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 7224-7233.
[12]	DENG J K, GUO J, XUE N N, et al. ArcFace: additive angular margin loss for deep face recognition[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 4685-4694.
[13]	王艺皓, 丁洪伟, 李波, 等. 复杂场景下基于改进YOLOv3的口罩佩戴检测算法[J]. 计算机工程, 2020, 46(11): 12-22. WANG Y H, DING H W, LI B, et al. Mask wearing detection algorithm based on improved YOLOv3 in complex scenes[J]. Computer Engineering, 2020, 46(11): 12-22. (in Chinese)
[14]	曹城硕, 袁杰. 基于YOLO-Mask算法的口罩佩戴检测方法[J]. 激光与光电子学进展, 2021, 58(8): 211-218. CAO C S, YUAN J. Mask-wearing detection method based on YOLO-Mask[J]. Laser & Optoelectronics Progress, 2021, 58(8): 211-218. (in Chinese)
[15]	张修宝, 林子原, 田万鑫, 等. 全天候自然场景下的人脸佩戴口罩识别技术[J]. 中国科学(信息科学), 2020, 50(7): 1110-1120. ZHANG X B, LIN Z Y, TIAN W X, et al. Mask-wearing recognition in the wild[J]. Scientia Sinica (Informationis), 2020, 50(7): 1110-1120. (in Chinese)
[16]	彭成, 张乔虹, 唐朝晖, 等. 基于YOLOv5增强模型的口罩佩戴检测方法研究[J]. 计算机工程, 2022, 48(4): 39-49. PENG C, ZHANG Q H, TANG Z H, et al. Research on mask wearing detection method based on YOLOv5 enhancement model[J]. Computer Engineering, 2022, 48(4): 39-49. (in Chinese)
[17]	WANG Z, WANG G, HUANG B, et al. Masked face recognition dataset and application[EB/OL]. [2021-10-02]. https://arxiv.org/abs/2003.09093.
[18]	贾会学, 李六亿. 新型冠状病毒感染肺炎流行期间标准预防执行要点[J]. 中华医院感染学杂志, 2020, 30(11): 1615-1619. JIA H X, LI L Y. Key points for the implementation of standard prevention during COVID-19 epidemic[J]. Chinese Journal of Nosocomiology, 2020, 30(11): 1615-1619. (in Chinese)
[19]	林云. 基于OpenCV的车牌识别系统设计与实现[J]. 物联网技术, 2020, 10(6): 22-25. LIN Y. Design and implementation of license plate recognition system based on OpenCV[J]. Internet of Things Technology, 2020, 10(6): 22-25. (in Chinese)
[20]	马钰锡, 谭励, 董旭, 等. 面向VTM的交互式活体检测算法[J]. 计算机工程, 2019, 45(3): 256-261. MA Y X, TAN L, DONG X, et al. Interactive liveness detection algorithm for VTM[J]. Computer Engineering, 2019, 45(3): 256-261. (in Chinese)
[21]	晁越, 李中健, 黄士飞. OpenCV图像处理编程研究[J]. 电子设计工程, 2013, 21(10): 175-177. CHAO Y, LI Z J, HUANG S F. Programming and image processing based on the realization OpenCV[J]. Electronic Design Engineering, 2013, 21(10): 175-177. (in Chinese)
[22]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of 2018 European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[23]	EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal Visual Object Classes(VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338. DOI:10.1007/s11263-009-0275-4
[24]	石雁, 李朝锋. 基于协同相似计算的查询推荐[J]. 计算机工程, 2016, 42(8): 188-193. SHI Y, LI C F. Query recommendation based on collaborative similarity calculation[J]. Computer Engineering, 2016, 42(8): 188-193. (in Chinese) DOI:10.3969/j.issn.1000-3428.2016.08.034
[25]	CHEN K, LOY C C, GONG S G, et al. Feature mining for localised crowd counting[C]//Proceedings of 2012 British Machine Vision Conference. [S. l. ]: British Machine Vision Association, 2012: 1-11.
[26]	CHAN A B, LIANG Z S J, VASCONCELOS N. Privacy preserving crowd monitoring: counting people without people models or tracking[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2008: 1-7.
[27]	ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-image crowd counting via multi-column convolutional neural network[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 589-597.
[28]	GE S M, LI J, YE Q T, et al. Detecting masked faces in the wild with LLE-CNNs[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 426-434.
[29]	DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2009: 248-255.
[30]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.