基于共现流增强双向金字塔卷积网络的密集液滴识别

引用本文

朱凌, 王雅萍, 廖丽敏. 基于共现流增强双向金字塔卷积网络的密集液滴识别[J]. 计算机工程, 2022, 48(7), 241-246, 253. DOI: 10.19678/j.issn.1000-3428.0062060.

ZHU Ling, WANG Yaping, LIAO Limin. Dense Droplet Identification Based on Co-occurrence Flow Enhanced Bidirectional Pyramidal Convolution Network[J]. Computer Engineering, 2022, 48(7), 241-246, 253. DOI: 10.19678/j.issn.1000-3428.0062060.

基金项目

国家自然科学基金(61772475)；国家自然科学青年基金(61906172)；河南省高等学校重点科研项目计划(20A510009)

通信作者

廖丽敏(通信作者)，工程师

作者简介

朱凌(1995—)，男，硕士研究生，主研方向为图像处理、目标检测;
王雅萍，副教授

文章历史

收稿日期：2021-07-13
修回日期：2021-09-07

Contents Abstract Full text Figures/Tables PDF

基于共现流增强双向金字塔卷积网络的密集液滴识别

朱凌^1,2 , 王雅萍¹ , 廖丽敏²

1. 郑州大学信息工程学院, 郑州 450001;
2. 广东顺德创新设计研究院, 广东佛山 528311

收稿日期：2021-07-13；修回日期：2021-09-07

基金项目：国家自然科学基金(61772475)；国家自然科学青年基金(61906172)；河南省高等学校重点科研项目计划(20A510009)

作者简介：朱凌(1995—)，男，硕士研究生，主研方向为图像处理、目标检测; 王雅萍，副教授.

通信作者：廖丽敏(通信作者)，工程师.

E-mail: 13939727366@163.com

摘要：基于深度学习的数字聚合酶链式反应(PCR)液滴识别对PCR图像中的目标进行高阶语义建模，能够减少人工参与特征设计和筛选带来的误差，但忽略了目标的低层物理结构和几何外观细节信息，且在特征建模的过程中重复使用了大量冗余信息，对特征的表征能力有待改善。提出一种共现流增强双向金字塔卷积网络(CoF-BiPCN)框架用于PCR液滴识别和统计。为增强金字塔的内部和层间相关性，设计具有时空分支的双向金字塔卷积网络，从正反2个方向对金字塔卷积网络得到的多尺度特征进行聚合，模拟PCR图像中液滴的上下文语义以及不同层级的细节信息，以捕获液滴的物理外观等低层信息。同时，设计切片的共现注意力(SCo-AN)模块，将不同尺度的高低层信息在不同的切片子空间中进行共享聚合，并交叉传递到不同分支的BiPCN中，强化高低层特征信息的交互和依赖关系，进一步增强信息流对PCR图像上液滴的表征，实现低层和高阶信息流的共享与交叉聚合。实验结果表明，CoF-BiPCN具备良好的识别性能，准确率和平均精度均值分别达到84.74% 和45.09%，与Cascade RCNN模型相比分别提高4.3和3.12个百分点。

Dense Droplet Identification Based on Co-occurrence Flow Enhanced Bidirectional Pyramidal Convolution Network

ZHU Ling^1,2 , WANG Yaping¹ , LIAO Limin²

1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China;
2. Guangdong Shunde Innovative Design Institute, Foshan, Guangdong 528311, China

Abstract: A pyramid network faces a range of problems in recognizing digital Polymerase Chain Reaction(PCR)droplets, such as ignoring the physical appearance of droplets, and the internal structure and interlayer correlation of pyramids.To address these issues, this study proposes a co-occurrence flow enhanced Bidirectional Pyramid Convolution Network(BiPCN) framework for PCR droplet recognition and statistics framework.First, to enhance the internal and inter-layer correlation of the pyramid, a BiPCN with spatio-temporal branches is designed to capture the low-level information such as the physical appearance of droplets, so as to model the high-order semantics and context information of droplets.Second, Slice Co-occurrence Attention(SCo-AN) module is designed to further enhance the characterization of droplets on PCR images by information flow, so as to realize the sharing and cross polymerization of low-level and high-order information flow.The experimental results show that the proposed method has good recognition performance, that is, the accuracy and mean Average Precision(mAP) reach 84.74% and 45.09% respectively, which is more accurate than that of Cascade RCNN model, the accuracy and mAP are increased by 4.3 and 3.12 percentage points, respectively.

开放科学(资源服务)标志码(OSID)：

0 概述

数字聚合酶链式反应(Polymerase Chain Reaction，PCR)^[1]是一种用于放大扩增特定DNA片段的分子生物学技术，可将其看作是生物体外的特殊DNA复制。精准定量DNA中核酸分子的方法是通过PCR液滴识别与统计而得到的，早期阶段往往采用人工方式进行液滴统计，进而对核酸分子进行定量评测，这不仅耗时耗力，而且受人工因素(人为主观性)制约，识别精度较低。

目前，国内外研究者已经开发了多种PCR液滴识别与统计算法。文献[2]使用图像增强、形态学、边缘检测算子等多种方法对PCR液滴图像进行处理，实现了对液滴的准确识别与统计。文献[3]提出了一种液滴数字PCR的自动识别判读方法，并将其嵌入芯片以实现成果应用。文献[4]为实现密集分布的PCR液滴，对分水岭分割算法进行改进，降低了目标对图像灰度信息的依赖，并改善了PCR液滴的识别精度。文献[5]研究一种用于胶质瘤患者纵向监测的microRNA血清生物标志物，利用液滴数字PCR技术对候选miRNAs进行评估，并使用随机森林方法探究miRNA血清中的差异。虽然这些方法都能够提高PCR液滴的识别精度，并有效减少通过人工参与进行筛选识别等造成的误差，但当数据规模较大时难以确保较高的识别精度。

随着深度学习技术在自然语言处理、图像分割、目标检测等诸多领域的成功应用^[6-8]，深度学习技术也被用于液滴数字PCR图像中以对液滴进行识别与统计。文献[9]考虑到PCR图像特征范围较广、结构分布不规则等情况，提出一种基于Mask-RCNN模型的微阵列和微滴dPCR核酸定量方法，对PCR图像进行了有效的处理，同时提高了目标识别精度。文献[10]采集了1 088位RT-PCR患者的胸片作为测试数据，提出一种Denoising Fully Connected Network(DFCN)深度学习框架用于检测COVID-19。文献[11]以RT-PCR阳性的图像为数据样本训练的深度学习框架，并对COVID-19进行了检测。文献[12]提出一种基于深度学习的目标检测和跟踪算法来研究稠密微流控乳剂中液滴的运动，与标准聚类算法相比，即使在存在显著变形的情况下，深度学习算法也能正确预测液滴的形状，并以竞争性的速率跟踪其运动。文献[13]提出一种基于稀疏表示的图像超分辨率方法，对低分辨率的液滴图像运用基于深度学习的方法进行重建，并在重构过程中加入了回归算法，有效地克服了图像含有不真实信息和边缘毛刺多等问题。文献[14]提出一种弱监督的深度学习策略用于从图像中检测和分类新冠病毒，该方法可以最大限度地减少手动标记图像的要求。

虽然上述深度学习方法减少了人工参与特征设计和筛选带来的误差，对PCR图像中的目标进行了高阶语义建模，但都忽略了目标的低层物理结构和几何外观细节信息，同时在特征建模的过程中重复使用了冗余信息，特征的表征能力有待改善。此外，这些方法只是用于识别或检测PCR图像上的液滴目标，并未对密集液滴进行检测识别以及统计。针对上述方法存在的不足，本文提出一种共现流增强双向金字塔卷积网络(Co-occurrence Flow enhanced Bidirectional Pyramid Convolution Network，CoF-BiPCN)框架，用于PCR图像中密集液滴的识别与统计。利用时空双向金字塔卷积网络对PCR图像中液滴的物理外观和高阶语义进行建模，形成高低层语义互补，增强特征对液滴的描述能力。在此基础上，利用切片的共现注意力(Slice Co-occurrence Attention，SCo-AN)对这些多尺度信息进行交叉聚合，在2个分支之间实现嵌入共享，避免使用冗余信息，同时提高液滴的识别精度。

1 CoF-BiPCN液滴识别框架

PCR图像中液滴的物理结构和几何外观变化相对较大，且分布较为密集，每个液滴的边缘紧密相连，容易表现出类内和类间多样性，而传统金字塔网络在进行多尺度特征捕获时，并未考虑金字塔内部和层间的相关性，难以有效区分这种类内或类间多样性。此外，该网络仅仅从单一方向对多尺度特征进行融合，在特征的表征能力上受到限制。为了解决这些问题，本文提出共现流增强双向金字塔卷积网络(CoF-BiPCN)液滴识别框架，从正反2个方向对液滴的多尺度信息进行时空建模。在此基础上，利用切片共现注意力(SCo-AN)对不同尺度的特征信息进行交叉传递，实现不同层级的信息共享，从而增强模型对特征的描述能力，提高识别精度。

CoF-BiPCN液滴识别框架主要由3个模块构成，即双向金字塔卷积网络(BiPCN)的时序分支和空间分支，以及共现流增强模块(切片的共现注意力)。下文将对这3个重要模块进行详细分析。CoF-BiPCN液滴识别框架的网络结构如图 1所示，(彩色效果见《计算机工程》官网HTML版)。其中：切片共现注意力的子空间用绿色标出；p_i=4，5，6，7表示金字塔卷积层；x_te、x_sp表示骨干网络ResNet-101的输出特征；$ \alpha 、\beta 、\lambda $分别表示可学习的权重因子；$ {\tau }_{\mathrm{s}\mathrm{c}\mathrm{o}}、{\tau }_{\mathrm{s}\mathrm{p}}、{\tau }_{\mathrm{t}\mathrm{e}} $分别表示不同模块的损失函数；f_te、f_sp分别表示时序分支和空间分支输出的多层级特征信息；$ \oplus $表示简单拼接操作。在BiPCN模块中，向右指向箭头表示自顶而下的正向建模过程，向左指向箭头表示自底而上的反向建模过程。

	Download: JPG larger image
图 1 CoF-BiPCN液滴识别框架的网络结构 Fig. 1 Network structure of CoF-BiPCN droplet recognition framework

1.1 BiPCN模块

金字塔卷积网络(Pyramid Convolutional Network，PCN)^[15]是一个跨尺度和空间维度的三维卷积网络。假设图 1的BiPCN模块中不同的点表示不同层的特征信息，则PCN可以表示为N个不同的2-D卷积核。由于不同级金字塔所产生的特征图大小不匹配，金字塔级别与空间大小成反比，因此为确保不同级金字塔输出的特征图之间形成匹配，对$ k=\{\mathrm{1, 2}, \cdots , N\} $个不同级金字塔卷积核设置不同的步长。例如，当PCN中金字塔卷积核N=3时，卷积内核的步长分别为2、1和1/2，第$ l $级金字塔卷积的正向输出$ {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(l\right)} $如式(1)所示：

$ \left\{\begin{array}{l}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(l\right)}={w}_{s/2}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{(l+1)}+{w}_{s}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(l\right)}+{w}_{2s}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{(l-1)}\\ s=1, l\ge 1\end{array}\right. $

(1)

其中：$ s=1 $表示标准步长；$ {w}_{s/2}、{w}_{s}、{w}_{2s} $表示不同步长的二维卷积核。在特征信息在传递过程中，步长为1/2的金字塔卷积核将被一个标准步长的卷积核和上采样层替换，即表示为式(2)：

$ \left\{\begin{array}{l}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(l\right)}=\mathrm{U}\mathrm{p}\mathrm{s}\mathrm{a}\mathrm{m}\mathrm{p}\mathrm{l}\mathrm{e}\left({w}_{s}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{(l+1)}\right)+{w}_{s}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(l\right)}+{w}_{2s}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{(l-1)}\\ s=1, l\ge 1\end{array}\right. $

(2)

当l=1时，$ {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(0\right)}={x}_{\mathrm{t}\mathrm{e}, \mathrm{s}\mathrm{p}} $。

为了更好地对PCR图像中液滴的上下文语义和多尺度依赖关系进行建模，本文设计了自底向上的反向策略(如图 1中BiPCN模块向左指向箭头)，以进一步强化多尺度信息的表征能力。假设第6级金字塔卷积的正向输出为$ {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(6\right)} $，自底向上的反向输出$ {\overleftarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(6\right)} $则可定义为式(3)：

$ {\overleftarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(6\right)}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}1\times 1\left(\frac{{w}_{1}^{\mathrm{\text{'}}}{\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(6\right)}+\mathrm{r}\mathrm{e}\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}\left({\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}}^{\left(5\right)}\right){w}_{2}^{\mathrm{\text{'}}}}{{w}_{1}^{\mathrm{\text{'}}}+{w}_{2}^{\mathrm{\text{'}}}+\kappa }\right) $

(3)

其中：$ {w}_{1}^{\mathrm{\text{'}}}、{w}_{2}^{\mathrm{\text{'}}}、\kappa $表示可学习的权重因子；$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}1\times 1(\cdot ) $表示1×1的卷积操作；$ \mathrm{r}\mathrm{e}\mathrm{s}\mathrm{i}\mathrm{z}\mathrm{e}(\cdot ) $表示强制压缩操作，即把特征图强制转换成与该层同样输入大小。

BiPCN模块不仅可以捕获PCR图像中液滴的多层级、多尺度信息，而且能够利用正反向融合策略有效地对上下文语义进行建模，丰富多尺度特征的描述能力。此外，时空分支的BiPCN模块可以同时对液滴的物理结构和高阶语义进行建模，突出特征的表征能力，并从金字塔的结构内部和层间2个方面探索相关性，以加强PCR图像中液滴目标的类间和类内差异性，提高识别精度。

1.2 SCo-AN模块

BiPCN模块虽然能够对PCR图像上液滴的多层级、多尺度时空语义进行有效建模，但对输入的多尺度特征x_te、x_sp进行编码时，往往会忽略这些语义的重要细节，并且会多次使用冗余信息，削弱特征对液滴的描述能力。为进一步突破这些限制，本文使用切片的共现注意力(SCo-AN)^[16-17]，对不同尺度的特征信息做精细化处理，进行交叉聚合并跨尺度传递到BiPCN模块中，即把相对应尺度的时空信息输入到相应的切片组中进行信息聚合，实现信息流的共享。这种切片方式同时也有助于跨通道交互，强化不同尺度之间的依赖关系。

假设输入SCo-AN的初始特征为x∈$ \mathbb{R} $^C×H×W，将通道随机切片成$ \phi $个子空间组，由于本文使用了时空分支的BiPCN，因此输入特征满足xφ∈$ \mathbb{R} $^C/2φ×H×W。例如，输入信息分别为时空分支的第4级BiPCN特征$ {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(4\right)} $和$ {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(4\right)} $，则交叉聚合和传递输出可以表示为式(4)：

$ \left\{\begin{array}{l}\mathrm{C}{\mathrm{o}}_{1}:{x}_{1}^{\mathrm{S}\mathrm{C}\mathrm{o}-\mathrm{A}\mathrm{N}}=\mathrm{A}\mathrm{t}\mathrm{t}({\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(4\right)}, {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(4\right)})\to {x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(5\right)}\\ \mathrm{C}{\mathrm{o}}_{2}:{x}_{2}^{\mathrm{S}\mathrm{C}\mathrm{o}-\mathrm{A}\mathrm{N}}=\mathrm{A}\mathrm{t}\mathrm{t}({\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(4\right)}, {\overrightarrow{x}}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(4\right)})\to {x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(5\right)}\end{array}\right. $

(4)

其中：$ \mathrm{C}{\mathrm{o}}_{1}、\mathrm{C}{\mathrm{o}}_{2} $表示切片注意力的子空间；$ \mathrm{A}\mathrm{t}\mathrm{t}(\cdot ) $表示切片共现注意力；$ \to $表示传递过程。由此，第5级BiPCN的输入如式(5)所示：

$ \left\{\begin{array}{l}{x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(5\right)}={x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{(5, \mathrm{i}\mathrm{n})}\oplus {x}_{1}^{\mathrm{S}\mathrm{C}\mathrm{o}-\mathrm{A}\mathrm{N}}\\ {x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(5\right)}={x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{(5, \mathrm{i}\mathrm{n})}\oplus {x}_{2}^{\mathrm{S}\mathrm{C}\mathrm{o}-\mathrm{A}\mathrm{N}}\end{array}\right. $

(5)

其中：$ {x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{t}\mathrm{e}}^{\left(5\right)} $和$ {x}_{\mathrm{B}\mathrm{i}\mathrm{P}\mathrm{C}\mathrm{N}, \mathrm{s}\mathrm{p}}^{\left(5\right)} $分别表示时空分支的总输入；$ \oplus $表示简单拼接。

将不同尺度的高低层信息在不同切片子空间中进行共享聚合，并交叉传递到不同分支的BiPCN中，不仅能够强化高低层特征信息在信道上的交互和依赖关系，同时也进一步减少了冗余信息的使用，提高了液滴的识别精度。为了进一步提高该识别框架的精度，使用加权的三重损失函数对其进行优化调整。总损失函数如式(6)所示：

$ {\tau }_{\mathrm{T}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}=\alpha {\tau }_{\mathrm{s}\mathrm{c}\mathrm{o}}+\beta {\tau }_{\mathrm{s}\mathrm{p}}+\lambda {\tau }_{\mathrm{t}\mathrm{e}} $

(6)

其中：$ \alpha 、\beta 、\lambda $分别表示可学习的权重因子；$ {\tau }_{\mathrm{s}\mathrm{c}\mathrm{o}}、{\tau }_{\mathrm{s}\mathrm{p}}、{\tau }_{\mathrm{t}\mathrm{e}} $分别表示不同模块的损失函数。

2 实验

为验证CoF-BiPCN液滴识别框架的有效性，下文进行一系列实验测试。

2.1 数据准备

实验数据集为75张液滴PCR图像，大小均为1 120×720像素。为确保训练过程的有效性同时增加训练样本的数量，随机挑选65张作为训练样本并进行裁剪处理，即1张PCR液滴图像沿x轴和y轴裁剪成6张600×512像素。为增加训练样本的数量，对裁剪后的液滴图像进行增强处理，最终的训练样本中数量为3 900，大小为600×512像素。从训练样本中随机抽取10%作为验证样本，即390张。

使用准确率、召回率和平均精度均值(mean Average Precision，mAP)作为评价指标。其中，准确率为测试样本中识别到的液滴数量和总液滴数的比值。

2.2 实验参数与环境配置

训练中使用Stochastic Gradient Descent(SGD)优化器，其动量值设置为0.9，衰减权重设置为4e-5，学习率设置为1e-4，批处理设置为32，迭代次数为200。为了防止过拟合现象的发生，设置了早停处理，即迭代到10次时，如果损失不下降，则停止迭代。

实验在2块RTX-3080的GPU上进行，其开发环境为python3.6.10、torch1.7.1+cu110。使用的其他深度学习库有NumPy、OpenCV、torchvision0.8.2等。

2.3 实验结果与分析 2.3.1 不同模块对框架整体性能的影响

为验证CoF-BiPCN液滴识别框架的有效性，对不同模块进行验证测试，实验结果如表 1所示，其中所有模块均由时空分支构成。ResNet-101^[18]表示时空分支均由ResNet-101构成，其他模块同理。

下载CSV 表 1 不同模块性能对比 Table 1 Performance comparison of different modules

由表 1可以得出以下结论：

1) CoF-BiPCN液滴识别框架取得最优表现，准确率、召回率和mAP分别为85.30%、84.74%和45.09%，主要原因是BiPCN对液滴的物理外观和高阶语义信息进行了有效建模，并利用SCo-AN实现信息共享，以及加强了不同尺度特征在信道之间的交互和依赖性。同时，多层级特征之间形成互补，有助于描述PCR图像中密集液滴之间的类内和类间差异性，提高了液滴的辨识度。

2) PCN系列模块优于FPN^[19]和ResNet-101，其mAP值分别提高了3.75和5.39个百分点。FPN虽然捕获了液滴的多尺度金字塔结构，但是在信息传递过程中使用了大量冗余信息，同时，因接受域的限制，并不能对全局上下文语义信息进行有效建模。由于PCN包含了大量不同尺度的滤波器，对低层物理外观等重要细节信息进行了建模，与高阶语义形成了互补，改善了多尺度特征对液滴的描述能力，因此，在3个评价指标上均优于FPN。

为了直观表示CoF-BiPCN识别框架的有效性，给出前10次迭代的训练精度，结果如图 2所示。可以看出，随着迭代次数的增加，CoF-BiPCN液滴识别框架训练精度的增长速度和增长率均为最优。

	Download: JPG larger image
图 2 前10次训练精度 Fig. 2 Accuracy of the first ten trainings

2.3.2 训练样本对框架整体性能的影响

为进一步验证CoF-BiPCN液滴识别框架在小规模数据上的表现，使用原始的75张1 120×720像素图像中的65张作为训练集，对该框架进行测试验证，实验结果如图 3所示。

	Download: JPG larger image
图 3 小样本的训练结果 Fig. 3 Training results for small samples

由图 3可以得出以下结论：

1) CoF-BiPCN液滴识别框架在少量样本上也取得了具有竞争性的表现，尽管其参数量较大，但精度却有明显改善，mAP值为27.7%。主要原因可能是CoF-BiPCN捕获了重要的细节语义，而在信息传递过程中，使用SCo-AN对整体的多层级、多尺度信息流进行了增强，这些精细化处理减少了冗余信息的影响，进一步突出了相关特征对液滴的描述。

2) CoF-BiPCN中大量的卷积滤波器提高了该网络的接受域，同时，正反2个方向对多层级信息进行建模也使得特征信息更加丰富。

2.4 消融实验

为证明SCo-AN模块的有效性和对识别效果的影响，针对该模块进行消融实验测试，并给出可视化热力图，可视化效果如图 4所示(彩色效果见《计算机工程》官网HTML版)。可以看出：空间特征(图 4(b))更关注PCR图像中液滴的局部信息，对图像中局部区域的表征能力更强，而时序特征(图 4(c))更关注全局语义，同时对液滴的物理结构和几何外观的描述更清晰；在热力图(图 4(c))中，时空分支结合能形成信息互补，即该图中液滴的物理外观和高级语义均比较明显，同时相比于图 4(b)和图 4(c)在特征的表征上更清晰，这也证明了该模块对特征进行了精细化处理。

	Download: JPG larger image
图 4 SCo-AN模块的热力图 Fig. 4 Thermal diagrams of SCo-AN module

2.5 与其他方法的比较

为进一步验证CoF-BiPCN液滴识别框架的有效性和可靠性，将其与其他先进模型进行对比，实验结果如表 2所示。

下载CSV 表 2 CoF-BiPCN与其他先进模型的性能对比 Table 2 Performance comparison of CoF-BiPCN with other advanced models

由表 2可以得出以下结论：

1) 相比于YOLOv3^[20]等单阶段检测模型，Faster-RCNN^[21]、Mask RCNN^[22]、Cascade RCNN^[23]等双阶段检测模型均取得了更好的识别精度。如Cascade RCNN在3个评价指标上比YOLOv3分别高出19.31、12.06和19.01个百分点，这是因为相比于Darknet53，ResNet-101+FPN捕获了更多的细节信息，提高了特征对液泡的表征能力。

2) CoF-BiPCN比Cascade RCNN框架精度更高，主要原因是BiPCN更好地捕获了PCR图像中液滴的上下文语义，并从正反2个方向对物理外观、高阶语义等多层级信息进行时空建模，从金字塔内部和层间探索了特征信息的相关性，并利用SCo-AN模块对这些信息进行了交叉聚合和传递，进一步精细化了多层级信息，提高了特征的利用率。

3) 相比于其他液滴识别方法，CoF-BiPCN液滴识别框架在识别效率和空间复杂度上也取得了较好的结果，每识别5张PCR液滴图像的时间为12.3 s。虽然比YOLOv3和Faster-RCNN增加了7.6 s和2.8 s，但识别精度却有很大提升。

2.6 统计结果

为了后续应用以及更直观地展示CoF-BiPCN液滴识别框架的有效性，给出了识别效果并统计每张图像上液滴的数量，实验结果如图 5所示(彩色效果见《计算机工程》官网HTML版)，其中，从上到下液滴数量分别为454、514、521个。

	Download: JPG larger image
图 5 密集液滴识别效果 Fig. 5 Recognition effect of dense droplet

3 结束语

本文提出共现流增强双向金字塔卷积网络(CoF-BiPCN)液滴识别框架。采用双向金字塔卷积网络作为时空分支的主干，不仅对PCR图像中液滴的多层级(物理外观和高阶语义)信息进行时空建模，同时也从金字塔内部和层间探索特征信息的关联性。为减小冗余信息的干扰，提高对多层级信息的表征能力，使用切片的共现注意力(SCo-AN)模块从不同子空间对这些信息进行聚合，并通过交叉传递做精细化处理，建立一种长期依赖关系，突出类内和类间差异性。实验结果表明，与YOLOv3、Faster-RCNN、Mask-RCNN和Cascade RCNN模型相比，CoF-BiPCN具有较高的识别精度。后续将设计一种更简单、有效的语义引导框架，进一步加强低层物理外观与高阶语义之间的交互，同时简化训练参数，提高边界液滴的识别精度。

参考文献

[1]	刘聪, 蒋克明, 周武平, 等. 微滴技术的数字PCR研究现状及发展趋势[J]. 化学研究与应用, 2018, 30(7): 1041-1047. LIU C, JIANG K M, ZHOU W P, et al. Research status and development trend of digital PCR with droplet technology[J]. Chemical Research and Application, 2018, 30(7): 1041-1047. (in Chinese) DOI:10.3969/j.issn.1004-1656.2018.07.001
[2]	邱梦凯. 数字PCR液滴识别方法的研究与实现[D]. 沈阳: 沈阳理工大学, 2019. QIU M K. Research and realization of digital PCR droplet recognition method[D]. Shenyang: Shenyang Ligong University, 2019. (in Chinese)
[3]	刘松生, 袁浩均, 刘强, 等. 液滴数字PCR芯片结果自动化读出平台的研究[J]. 现代电子技术, 2017, 40(18): 1-6. LIU S S, YUAN H J, LIU Q, et al. Research on automatic result readout platform of droplet digital PCR chip[J]. Modern Electronics Technique, 2017, 40(18): 1-6. (in Chinese)
[4]	刘聪, 董文飞, 蒋克明, 等. 基于改进分水岭分割算法的致密荧光微滴识别[J]. 中国光学, 2019, 12(4): 783-790. LIU C, DONG W F, JIANG K M, et al. Recognition of dense fluorescent droplets using an improved watershed segmentation algorithm[J]. Chinese Optics, 2019, 12(4): 783-790. (in Chinese)
[5]	MOROKOFF A, JONES J, NGUYEN H, et al. Serum microRNA is a biomarker for post-operative monitoring in glioma[J]. Journal of Neuro-Oncology, 2020, 149(3): 391-400. DOI:10.1007/s11060-020-03566-w
[6]	KASTRATI Z, DALIPI F, IMRAN A S, et al. Sentiment analysis of students' feedback with NLP and deep learning: a systematic mapping study[J]. Applied Sciences, 2021, 11(9): 1-23.
[7]	PEKALA M, JOSHI N, LIU T Y A, et al. OCT segmentation via deep learning: a review of recent work[C]//Proceedings of Asian Conference on Computer Vision. Berlin, Germany: Springer, 2018: 316-322.
[8]	OH S, CHANG A J, ASHAPURE A, et al. Plant counting of cotton from UAS imagery using deep learning-based object detection framework[J]. Remote Sensing, 2020, 12(18): 2981. DOI:10.3390/rs12182981
[9]	HU Z M, FANG W B, GOU T, et al. A novel method based on a Mask R-CNN model for processing dPCR images[J]. Analytical Methods, 2019, 11(27): 3410-3418. DOI:10.1039/C9AY01005J
[10]	ÇALLı E, MURPHY K, KURSTJENS S, et al. Deep learning with robustness to missing data: a novel approach to the detection of COVID-19[J]. PLoS One, 2021, 16(7): 1-10.
[11]	CHIU W H K, VARDHANABHUTI V, POPLAVSKIY D, et al. Detection of COVID-19 using deep learning algorithms on chest radiographs[J]. Journal of Thoracic Imaging, 2020, 35(6): 369-376.
[12]	DURVE M, BONACCORSO F, MONTESSORI A, et al. A fast and efficient deep learning procedure for tracking droplet motion in dense microfluidic emulsions[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2021, 379(2208): 1-10.
[13]	邹贞贞. 基于稀疏表示和深度学习的液滴图像超分辨重建[D]. 北京: 中国科学院大学, 2018. ZOU Z Z. Droplet image super resolution based on sparse representation and deep learning[D]. Beijing: University of Chinese Academy of Sciences, 2018. (in Chinese)
[14]	HU S P, GAO Y, NIU Z M, et al. Weakly supervised deep learning for COVID-19 infection detection and classification from CT images[J]. IEEE Access, 2020, 8: 118869-118883. DOI:10.1109/ACCESS.2020.3005510
[15]	DUTA I C, LIU L, ZHU F, et al. Pyramidal convolution: rethinking convolutional neural networks for visual recognition[EB/OL]. [2021-06-20]. https://arxiv.org/abs/2006.11538.
[16]	HSIEH T I, LO Y C, CHEN H T, et al. One-shot object detection with co-attention and co-excitation[EB/OL]. [2021-06-20]. https://arxiv.org/abs/1911.12529.
[17]	ZHANG Q L, YANG Y B. SA-Net: shuffle attention for deep convolutional neural networks[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2021: 2235-2239.
[18]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[19]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 936-944.
[20]	REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-06-20]. https://arxiv.org/abs/1804.02767.
[21]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[22]	HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2980-2988.
[23]	CAI Z W, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 6154-6162.