基于深度特征聚合网络的医学图像分割

引用本文

杨兵, 刘晓芳, 张纠. 基于深度特征聚合网络的医学图像分割[J]. 计算机工程, 2021, 47(4), 187-196. DOI: 10.19678/j.issn.1000-3428.0057330.

YANG Bing, LIU Xiaofang, ZHANG Jiu. Medical Image Segmentation Based on Deep Feature Aggregation Network[J]. Computer Engineering, 2021, 47(4), 187-196. DOI: 10.19678/j.issn.1000-3428.0057330.

基金项目

国家自然科学基金（61672476）；浙江省大学生科研创新活动计划（2019R409055）

通信作者

刘晓芳(通信作者), 副教授、博士

作者简介

杨兵(1993-), 男, 硕士研究生, 主研方向为图像处理、模式识别;
张纠, 硕士研究生

文章历史

收稿日期：2020-02-05
修回日期：2020-04-04

Contents Abstract Full text Figures/Tables PDF

基于深度特征聚合网络的医学图像分割

杨兵^1,3 , 刘晓芳^1,3 , 张纠^2,3

1. 中国计量大学计算机应用与技术研究所, 杭州 310018;
2. 中国计量大学电子信息与通信研究所, 杭州 310018;
3. 浙江省电磁波信息技术与计量检测重点实验室, 杭州 310018

收稿日期：2020-02-05；修回日期：2020-04-04

基金项目：国家自然科学基金（61672476）；浙江省大学生科研创新活动计划（2019R409055）

作者简介：杨兵(1993-), 男, 硕士研究生, 主研方向为图像处理、模式识别; 张纠, 硕士研究生.

通信作者：刘晓芳(通信作者), 副教授、博士.

E-mail: liuxfang@cjlu.edu.cn

摘要：利用卷积神经网络（CNN）进行医学图像分割时，通常将分割问题抽象为特征表示和参数优化问题，但在上采样和下采样过程中容易丢失特征信息，导致分割效果不理想。设计包含三级特征表示层和特征聚合模块的深度特征聚合网络结构DFA-Net。通过三级特征表示层提取基础特征同时聚合中间特征和深层特征，从而以聚合深层特征弥补CNN上采样与下采样的特征损失。利用特征聚合模块聚合并激活浅层特征和深层特征，根据两者的互补信息分别做精细化调整。在脑图像和眼底图像公开数据集上的实验结果表明，DFA-Net能够充分利用深层特征与浅层特征的信息互补性处理分割结果中的孤立像素点，避免上采样与下采样引起的信息损失，其分割精度较U-net、Unet++、SegNet和LadderNet等方法均有所提高。

Medical Image Segmentation Based on Deep Feature Aggregation Network

YANG Bing^1,3 , LIU Xiaofang^1,3 , ZHANG Jiu^2,3

1. Institute of Computer Application and Technology, China Jiliang University, Hangzhou 310018, China;
2. Institute of Electronic Information and Communication, China Jiliang University, Hangzhou 310018, China;
3. Key Laboratory of Electromagnetic Wave Information Technology and Metrology in Zhejiang Province, Hangzhou 310018, China

Abstract: Medical image segmentation using Convolutional Neural Network(CNN) usually simplifies the segmentation problem into the feature representation and parameter optimization problems.However, feature information is easily lost in the process of up sampling and down sampling, which leads to unsatisfactory segmentation effect.To solve the problem, this paper designs a deep feature aggregation network structure, DFA-Net, which includes the three-level feature representation layer and feature aggregation module.The three-level feature representation layer is used to extract basic features and aggregate middle features and deep features, so as to use the aggregated deep features to make up for the feature loss in CNN up sampling and down sampling.The feature aggregation module is used to aggregate and activate shallow features and deep features, and perform fine adjustment on them according to their complementary information.Experimental results on open datasets of brain images and fundus images show that DFA-Net can make full use of the information complementarity between deep features and shallow features to deal with isolated pixels in segmentation results and avoid the information loss caused by up sampling and down sampling.Its segmentation accuracy is higher than that of U-net, Unet++, SegNet, LadderNet and other methods.

0 概述

医学图像分割对于研究人体解剖结构和制定诊疗计划起到重要作用^[1]，其目的是分割出医学图像中感兴趣的部分并提取相关特征，为临床诊断以及病理学研究提供可靠信息基础。传统的图像分割方法通过人工设计或抽取一系列的图像特征，并将这些特征用于一些分类器，从而完成分割任务。然而此类分割方法具有一定局限性，其有时只能处理一些简单的分类（分割）问题，难以解决复杂问题，此外，人工设计的特征是个人的主观结果，是否能表征数据的内在特征也没有明确的界限和定义。

近年来，以卷积神经网络（Convolutional Neural Network，CNN）为代表的深度学习技术在医学影像自动分析中得到广泛应用。针对多模态脑部分割问题研究者提出了多种方法。文献[2]提出一种全卷积神经网络用于婴儿脑部区域分割，通过单独训练每个模态的图像数据，将高层特征融合用于最后的分割，从而利用编码-解码网络结构实现了对婴儿脑部的准确分割。文献[3]提出一种深度卷积神经网络用于3种主要脑组织的分割，通过提取脑部图像块训练CNN，将多种模态的图像数据作为输入，网络输出同时具有多种模态图像的底层特征。针对网络上采样所带来的信息丢失导致分割效果欠佳的问题，文献[4]提出一种半密集网络同时对两种模态的脑部数据进行分割，采用早期融合策略融合两种模态的脑部图像特征，在此基础上通过全连接层对特征信息进行聚合。针对眼底图像分割问题，研究者也做了相关研究。文献[5]提出一种全新的分割策略，针对输入眼底图像块，该方法输出给定图像块的所有像素的预测概率图，而不是一次输出中心像素的单个预测概率。文献[6]将可分离卷积与全卷积神经网络结合用于眼底血管分割，在进行增强对比度等预处理技术的基础上，以可分离卷积替代传统卷积方式来增加整个网络的宽度，此外还引入通道加权机制对特征重要性进行显示建模。

上述方法针对脑部图像和眼底图像分割问题构建不同的分割框架，能够实现准确有效的分割，但存在以下问题：下采样虽然可以减小特征尺寸和增加计算效率，但也会不可避免地带来特征信息损失的问题，对分割精度有一定影响；上采样通常使用插值或反卷积运算实现，在扩大特征分辨率的同时也会引入一些非特征噪声，对图像的特征提取不友好；虽然采用跳跃连接方式进行简单的通道拼接能够在一定程度上保证分割结果的精细化，但特征聚合程度较低，不能充分利用深层特征丰富、抽象化的信息对浅层特征进行调整。

本文基于深度特征聚合策略提出深度特征聚合网络DFA-Net。通过三级特征表示并对特征做精细化调整，解决上采样与下采样所带来的信息损失问题。同时利用特征聚合层对中间层和基础层进行特征优化，使网络能够更好地学习特征。此外，在特征聚合模块（Feature Aggregation Module，FAM）中结合深层特征与浅层特征的互补信息对两者进行加权调整，使调整后的特征具有更强的表达能力。

1 卷积神经网络

卷积神经网络（CNN）是一种全监督学习方式^[7-8]。与传统分割方法不同，CNN可以通过自主学习数据特征完成学习任务而无需人工干预，因此其被广泛应用于计算机视觉^[9]、文本翻译^[10]、语音识别^[11]等领域。由于CNN能够同时学习图像的局部特征和全局特征，并且随着网络层数加深还可学习深层特征，其比人工设计图像特征更高效，因此基于CNN的分割方法能够得到比传统分割方法更好的效果。

在医学图像分割领域，U-net^[12]在分割生物细胞方面取得了较好的效果，其主要由特征编码、特征解码和特征融合三部分组成。首先通过卷积、池化以及一定次数的下采样运算完成对原始输入图像的特征编码，编码后的特征通常具有较低维度，然后通过上采样（插值、反卷积）、卷积等运算对编码后的特征进行解码，这一过程又称为分辨率放大。跳跃连接作为U-net的特征融合策略，其主要通过同级特征通道叠加的方式进行特征聚合，这对于分割结果的精细化较为重要。U-net在医学图像分割领域的成功应用引起了学者的广泛关注，在U-net基础上改进的3D-Unet^[13]、Unet++^[14]、H-DenseUNet^[15]相继被提出，但基本网络结构依然延续U-net，整体框架没有改变。此外，在医学图像分割领域，全卷积神经网络（Full CNN，FCN）^[16]也是常用的CNN框架，其主要以卷积层代替全连接层，使网络可以接受任意尺寸大小的图像输入，同时还增加了反卷积层，使上采样也能够通过反向传播学习网络参数，如文献[17]提出的基于3D FCN的多尺度损失网络，其通过卷积和反卷积学习分割参数优化了网络模型。

2 深度特征聚合网络 2.1 整体网络结构

本文提出的深度特征聚合网络DFA-Net结构如图 1所示。DFA-Net主要分为4个部分，分别为基础特征表示层（简称基础层）、中间特征聚合层（简称中间层）、深度特征聚合层（简称聚合层）以及FAM。首先，基础层通过卷积、池化等操作得到具有不同分辨率大小的特征图，然后通过上采样增大特征图分辨率，这一过程也称为特征解码。如图 1所示，基础层经过3次下采样和3次上采样，在下采样的过程中，基础层特征不仅传递到下一个卷积层，而且还传递到中间层。中间层对来自基础层的特征做进一步特征聚合，这一过程也通过聚合层和FAM来实现。聚合层将中间层的特征进行通道拼接，目的是聚合两者特征，形成更丰富的底层特征。中间层和聚合层之间通过FAM模块传递聚合特征（Aggregated Feature，AF），同时，中间层也将聚合特征通过裁剪（crip）和通道拼接（concat）的方式传递给基础层，由此形成基础层、中间层、聚合层的特征传递方式。本节将详细介绍3个特征表示层以及FAM模块。

	Download: JPG larger image
图 1 DFA-Net整体结构 Fig. 1 Overall structure of DFA-Net

2.2 基础层

DFA-Net中的基础层以卷积神经网络为框架，如图 2所示，其中，B₁~B₇表示基础层特征。与U-net结构不同的是，基础层去掉了跳跃连接结构。U-net中跳跃连接的目的是实现不同特征层之间的信息融合，然而此融合方式只是简单地将上层特征拼接到下层特征，没有考虑到上下层特征之间的特征差异以及特征不匹配的问题。为此，本文设计的DFA-Net以中间层、聚合层和特征聚合模块代替跳跃连接结构。此外，基础层中还增加了批归一化（Batch Normalization，BN）操作，目的是减小因反向传播而导致网络参数出现偏移的影响。

	Download: JPG larger image
图 2 基础层网络结构 Fig. 2 Network structure of basic layer

DFA-Net基础层可表示为：

$ {O}_{x}=f({F}_{x};\theta ) $

(1)

其中，$ {O}_{x} $表示输入$ x $的输出结果，$ f $表示卷积、池化、BN等运算，$ {F}_{x} $表示特征图，$ \theta $表示$ f $学习到的网络参数。

2.3 中间层与聚合层

作为特征聚合单元，DFA-Net中间层和聚合层的设计主要是为了增强基础层的特征表示并减少基础层的特征信息损失，这两层的网络结构如图 3所示，其中，conv1~conv5表示卷积运算，f₁~f₆表示中间层特征，J₁~J₄表示聚合层特征。

	Download: JPG larger image
图 3 中间层与聚合层网络结构 Fig. 3 Network structure of intermediate layer and aggregation layer

中间层负责抽取基础层的中间特征，其在传递中间特征给聚合层的同时也对中间特征做进一步特征聚合。此层具有5个卷积操作，对于从基础层抽取的中间特征，其通过卷积运算进一步提取深层特征。由图 2可知，基础层包含3次下采样和3次上采样操作，对于每次上采样或下采样得到的特征，中间层都会抽取基础层特征进行后续的卷积运算来进一步提取深层特征。因此，中间层5个卷积操作覆盖了基础层中所有的上采样以及最后一级下采样过程。此外，中间层在进行第2次卷积操作后，以裁剪和通道叠加的方式对基础层最后一级下采样操作得到的底层特征进行信息补充，增强了其特征表达能力。

中间层第1级特征$ {f}_{1} $可表示为：

$ {f}_{1}=f\left(x;\theta \right) $

(2)

其中，$ f $表示基础层第1级卷积、BN等运算，$ x $表示输入图像，$ \theta $表示$ f $的网络参数。从第3级特征$ {f}_{3} $开始，中间层加入了聚合特征，第2级~第6级特征$ {f}_{2} $~$ {f}_{6} $分别表示为：

$ {f}_{2}={M}_{1}({f}_{1};{\theta }_{1}) $

(3)

$ {f}_{3}={M}_{2}\left({f}_{2};{\theta }_{2}\right)⊙{F}_{1} $

(4)

$ {f}_{4}={M}_{3}({f}_{3};{\theta }_{3})\mathrm{ }⊙{F}_{2} $

(5)

$ {f}_{5}={M}_{4}({f}_{4};{\theta }_{4})\mathrm{ }⊙{F}_{3} $

(6)

$ {f}_{6}={M}_{5}({f}_{5};{\theta }_{5})\mathrm{ }⊙{F}_{4} $

(7)

其中，⊙表示逐元素相乘，$ {M}_{1} $~$ {M}_{5} $分别表示中间层中的5次卷积运算，参数$ {\theta }_{1} $~$ {\theta }_{5} $分别表示5次卷积运算的卷积核参数，$ {F}_{1} $~$ {F}_{4} $表示聚合特征AF-1、AF-2、AF-3、AF-4。

中间层的功能可归结如下：1）抽取基础层中间特征；2）进一步提取深层特征；3）作为中间网络接收聚合特征AF的输入，对中间特征做精细化调整。

为减少下采样和上采样带来的信息损失，中间层将聚合后的特征$ {f}_{3} $~$ {f}_{6} $分别传递给位于基础层最后一级下采样特征$ {B}_{4} $、第1级上采样特征$ {B}_{5} $、第2级上采样特征$ {B}_{6} $和第3级上采样特征$ {B}_{7} $，特征传递方式为裁剪和通道叠加。由图 3可见，聚合层位于网络底部，其目的是为了进一步聚合中间层特征。为增加聚合特征的信息，采用通道拼接的方式对中间层特征进行聚合。聚合层进行了4次聚合运算，除第1次聚合运算外，其余3次聚合运算都会输出聚合特征AF。虽然聚合运算采用通道叠加的方式，如第1次聚合运算，但并不是简单地将原始特征进行通道水平上的叠加。在图 3中，中间特征$ {f}_{2} $经过一次中间卷积运算后再与中间特征$ {f}_{1} $进行叠加，这样可以避免直接进行通道拼接所带来的特征不匹配问题。此外，进行一次卷积运算又能够进一步提取深层特征。聚合层特征J₁~J₄可表示为：

$ {J}_{1}={f}_{1} \oplus{f}_{2} $

(8)

$ {J}_{2}={J}_{1} \oplus{f}_{3} $

(9)

$ {J}_{3}={J}_{2} \oplus{f}_{4} $

(10)

$ {J}_{4}={J}_{3} \oplus{f}_{5} $

(11)

其中，$ \oplus $表示通道叠加。

聚合层具有的功能可归结为：接收中间特征输入并聚合深层特征，同时作为特征聚合模块FAM的输入，输出深度聚合特征。

2.4 特征聚合模块

如图 4所示，特征聚合模块以中间层特征$ f $和聚合层特征$ J $作为输入，各通过一次卷积运算后得到$ {f}_{\mathrm{c}} $和$ {J}_{\mathrm{c}} $。为进一步补充特征维度和丰富信息量，通过通道叠加以及对应元素相加的方式得到聚合特征$ {A}_{1} $，后续又分别经过一次卷积和SoftMax函数激活聚合特征得到$ {A}_{3} $。特征$ {A}_{3} $具有中间层特征$ f $以及聚合层特征$ J $的共同信息。此外，经过几次卷积后，$ {A}_{3} $还具有各自深层次信息。

	Download: JPG larger image
图 4 特征聚合模块结构 Fig. 4 Structure of feature aggregation module

特征$ {A}_{3} $由特征$ {A}_{1} $经过一次卷积和SoftMax函数得到，特征$ {A}_{1} $在中间层特征和聚合层特征的基础上做了特征聚合操作（对应元素相加以及通道叠加），使得特征$ {A}_{1} $的特征信息相比于原始中间层特征和聚合层特征更为丰富。此外，特征$ {A}_{1} $还具有中间层特征与聚合层特征的共同特征信息。此后，分别经过一次卷积控制特征通道数以及经过SoftMax函数后得到特征$ {A}_{3} $，在特征$ {A}_{1} $的基础上，特征$ {A}_{3} $对特征$ {A}_{1} $做进一步特征提取，得到更为抽象的权值特征。利用特征$ {A}_{3} $所含有的特征信息量，FAM通过对应元素相乘的方式分别对特征$ {f}_{\mathrm{c}} $和$ {J}_{\mathrm{c}} $进行赋权，利用聚合特征对中间层特征和聚合层特征进行信息补充。最后通过元素相加以及1×1卷积操作充分融合两者的特征信息，得到聚合特征AF。FAM中聚合特征$ {A}_{1} $以及激活特征$ {A}_{3} $分别表示如下：

$ {A}_{1}=\left[{f}_{\mathrm{c}}\right(f;{\theta }_{1})+{J}_{\mathrm{c}}(J;{\theta }_{2}\left)\right]\mathrm{ } \oplus{J}_{\mathrm{c}} \oplus{f}_{\mathrm{c}} $

(12)

$ {A}_{3}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({A}_{2}\right({A}_{1};{\theta }_{3}\left)\right)}{\sum \mathrm{e}\mathrm{x}\mathrm{p}\mathrm{ }\left({A}_{2}\right({A}_{1};{\theta }_{3}\left)\right)} $

(13)

其中，$ \oplus $表示特征通道叠加，$ {\theta }_{1} $和$ {\theta }_{2} $分别表示$ {f}_{\mathrm{c}} $和$ {J}_{\mathrm{c}} $的卷积参数，$ {\theta }_{3} $表示$ {A}_{2} $的卷积参数。得到特征$ {A}_{3} $后，先分别对特征$ {f}_{\mathrm{c}} $、特征$ {J}_{\mathrm{c}} $进行赋权，再对赋权后的特征进行对应元素相加，最后通过一次卷积操作调整通道数，使聚合特征AF的特征通道数与中间层特征的通道数相同。一方面，特征$ {A}_{1} $来自于中间层特征$ f $以及聚合层特征$ J $，特征$ {A}_{1} $在聚合两者特征信息的同时也加入了两者独有的特征信息；另一方面，特征$ {A}_{2} $是由特征$ {A}_{1} $经过一次卷积操作而来，保证了特征$ {A}_{2} $在特征$ {A}_{1} $的基础上做进一步特征抽取和特征通道数调整，为此后的特征加权过程奠定基础。最后，特征$ {A}_{3} $在特征$ {A}_{2} $的基础上，使用SoftMax函数激活特征$ {A}_{2} $，保证了特征$ {A}_{3} $具有一定程度的突出特征识别能力。此后，对于中间层特征以及聚合层特征的加权过程充分融合了两者的特征信息，使得最终得到的聚合特征具有以下特点：1）具有融合中间层特征与聚合层特征的特征表达能力；2）深度挖掘了中间层特征与聚合层特征的共有信息，使用注意力机制，加强了特征聚合模块FAM的特征表达能力；3）提供了中间层与聚合层的特征信息传递通道，进一步增加了中间层特征的信息聚合能力。特征$ {A}_{3} $对基础特征以及聚合层特征的加权过程可表示为：

$ {A}_{4}={A}_{3}⊙{f}_{\mathrm{c}}+{A}_{3}⊙{J}_{\mathrm{c}} $

(14)

$ {A}_{5}={f}_{{A}_{4}}\left({A}_{4};{\theta }_{{A}_{4}}\right) $

(15)

其中，$ ⊙ $表示对应元素相乘，$ {f}_{{A}_{4}} $表示特征$ {A}_{4} $与特征$ {A}_{5} $之间的卷积操作，$ {\theta }_{{A}_{4}} $表示$ {f}_{{A}_{4}} $中的卷积核参数。

FAM具有的功能可归结如下：1）再次融合中间层特征和聚合层特征，激活聚合特征；2）分别对中间层特征和聚合层特征做加权调整，丰富特征信息。

2.5 网络参数规模

基础层中，每个阶段的卷积核数量分别为128、256、512、1 024，卷积核大小为3×3，同时，设置基础层上采样的方式为转置卷积。由于偏置项和转置卷积参数较少，因此略去其参数计算。DFA-Net网络参数规模如表 1所示。

下载CSV 表 1 DFA-Net网络参数规模 Table 1 Network parameter scale of DFA-Net

2.6 特征互补性分析

本文提出的深度特征聚合网络由基础层、中间层、聚合层和特征聚合模块组成。在基础层特征提取的基础上，中间层以及聚合层通过卷积、通道叠加以及对应元素相加等方式对基础层特征信息进行补充。此外，特征聚合模块运用注意力机制进一步加强中间层特征的信息表达能力和特征聚合能力。深度特征聚合网络利用深层特征与浅层特征的互补信息，运用三级特征表示层逐步完成特征聚合过程，聚合层通过对中间层特征和聚合层特征的信息聚合，与特征聚合模块FAM共同完成对中间层特征的特征信息补充和特征聚合过程。中间层接收特征聚合模块FAM输出的聚合特征，对中间层特征进行特征加权，最后通过裁剪和通道叠加的方式完成对基础层特征的信息补充，从而增强基础层网络的特征表达能力，减少基础层因下采样和上采样引起的特征信息损失。

本文提出的深度特征聚合网络将基础层作为基础特征提取网络。考虑到下采样过程中存在特征信息丢失以及特征聚合能力不足等问题，通过中间层与聚合层的协同作用，分层、逐步完成对基础层的信息补充过程。此外，由中间层提供的深层聚合特征解决基础层特征聚合能力不足的问题，从而提高基础层的特征提取能力。

3 实验与结果分析 3.1 数据集与实验参数

分别在脑图像和眼底图像的公开数据集上进行分割实验，本文实验所用脑部数据集为brainweb20^[18]。brainweb20是一个公共数据集，其包含了20个解剖结构的大脑3D图像，如图 5所示，其中，每个图像的大小为181×256像素×256像素，181表示切片数目，所有数据都包含人工分割的结果作为算法评估的金标准。

	Download: JPG larger image
图 5 部分脑部实验图像 Fig. 5 Some brain experiment images

从所有3D图像中筛选总计3 000个切片作为实验数据，其中2 300个切片用于模型的训练，200个切片用于模型验证，500个切片用于模型测试评估。实验所用眼底图像数据集为DRIVE^[19]和CHASE-DB1^[20]，2个数据集均提供了标准图像用于模型测试。DRIVE数据集包含40张彩色眼底图像，其中20张图像用于模型训练，8张图像用于模型验证，12张图像用于模型测试，每张图像的大小为$ 580\mathrm{像}\mathrm{素}\times 580 $像素。CHASE-DB1数据集包含28张彩色图像，其中20张图像用于模型训练，3张用于模型验证，5张用于模型测试，每张图像的大小也均缩小为$ 580\mathrm{像}\mathrm{素}\times 580\mathrm{像}\mathrm{素} $。为增加训练数据集的数量，对原始输入图像进行以下预处理。

1）统一对输入图像进行旋转、角度变换、裁剪等操作。

2）非脑组织剥离（针对脑图像）。

3）偏移场校正（针对脑图像）。

本文实验基于深度学习框架pytorch实现，模型训练使用两个显存大小为12 GB的Nvidia GeForce GT1080ti显卡。在训练DFA-Net模型之前，使用迁移学习策略用预训练模型对基础层网络进行权重初始化，之后在此基础上进行微调，加速DFA-Net网络的收敛。DFA-Net网络的初始学习率设为0.000 01，参数更新迭代数设为50 000次，并采用随机梯度下降（SGD）更新网络权重等参数。

3.2 评估指标与损失函数

对于脑部图像分割，采用的评价指标为Dice系数、Hausdorff距离和绝对体积差（Absolute Volume Difference，AVD），分别表示为：

$ {C}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=\frac{2\left|\mathrm{G}\mathrm{T}\bigcap \mathrm{P}\mathrm{R}\right|}{\left|\mathrm{G}\mathrm{T}\right|+\left|\mathrm{P}\mathrm{R}\right|} $

(16)

$ {C}_{\mathrm{H}\mathrm{a}\mathrm{u}\mathrm{s}\mathrm{d}\mathrm{o}\mathrm{r}\mathrm{f}\mathrm{f}}=\mathrm{m}\mathrm{a}\mathrm{x}\left(h\left(\mathrm{P}\mathrm{R}, \mathrm{G}\mathrm{T}\right), h\left(\mathrm{G}\mathrm{T}, \mathrm{P}\mathrm{R}\right)\right) $

(17)

$ {C}_{\mathrm{A}\mathrm{V}\mathrm{D}}=\frac{\left|{V}_{\mathrm{P}\mathrm{R}}-{V}_{\mathrm{G}\mathrm{T}}\right|}{{V}_{\mathrm{G}\mathrm{T}}} $

(18)

其中，GT表示人工手动分割的图像，PR表示模型预测的结果。$ {V}_{\mathrm{G}\mathrm{T}} $表示手动分割图像的体积，$ {V}_{\mathrm{P}\mathrm{R}} $表示模型预测图像的体积。在式（15）中，$ h\left(\mathrm{P}\mathrm{R}, \mathrm{G}\mathrm{T}\right) $和$ h\left(\mathrm{G}\mathrm{T}, \mathrm{P}\mathrm{R}\right) $分别表示为：

$ h\left(\mathrm{P}\mathrm{R}, \mathrm{G}\mathrm{T}\right)=\underset{a\in \mathrm{P}\mathrm{R}}{\mathrm{m}\mathrm{a}\mathrm{x}}\;\underset{b\in \mathrm{G}\mathrm{T}}{\mathrm{m}\mathrm{i}\mathrm{n}}‖a-b‖ $

(19)

$ h\left(\mathrm{G}\mathrm{T}, \mathrm{P}\mathrm{R}\right)=\underset{b\in \mathrm{G}\mathrm{T}}{\mathrm{m}\mathrm{a}\mathrm{x}}\;\underset{a\in \mathrm{P}\mathrm{R}}{\mathrm{m}\mathrm{i}\mathrm{n}}‖a-b‖ $

(20)

对于眼底血管分割，采用的评价指标为敏感度（sensitivity）、特异度（specificity）、F1值、准确率（accuracy）和受试者工作曲线下面积（AUC），分别表示如下：

$ {D}_{\mathrm{s}\mathrm{e}\mathrm{n}\mathrm{s}\mathrm{i}\mathrm{t}\mathrm{i}\mathrm{v}\mathrm{i}\mathrm{t}\mathrm{y}}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}} $

(21)

$ {D}_{\mathrm{s}\mathrm{p}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{f}\mathrm{i}\mathrm{c}\mathrm{i}\mathrm{t}\mathrm{y}}=\frac{\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{N}+\mathrm{F}\mathrm{P}} $

(22)

$ {F}_{1}=\frac{2\mathrm{T}\mathrm{P}}{2\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}} $

(23)

$ {P}_{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{u}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{y}}=\frac{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}+\mathrm{T}\mathrm{N}} $

(24)

其中，$ \mathrm{T}\mathrm{P} $表示真阳性样本数量，$ \mathrm{F}\mathrm{P} $表示假阳性样本数量，$ \mathrm{T}\mathrm{N} $表示真阴性样本数量，$ \mathrm{F}\mathrm{N} $表示假阴性样本数量。

本文使用Dice损失作为DFA-Net的优化目标：

$ {L}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=\frac{2\times \sum\limits_{i=1, i\in \mathrm{G}\mathrm{T}}^{M}\left({t}_{i}{p}_{i}\right)}{\sum\limits_{i=1}^{M}{t}_{i}^{2}+\sum\limits_{i=1}^{M}{p}_{i}^{2}} $

(25)

其中，$ {t}_{i} $、$ {t}_{j} $为网络预测结果中像素点i、j的值，$ {p}_{i} $、$ {p}_{j} $为真实标签中像素点i、j的值。

3.3 脑图像分割实验

对DFA-Net方法、U-net方法^[12]、Unet++方法^[14]、SegNet^[21]和模糊C均值（Fuzzy C Means，FCM）方法^[22]进行对比，以验证本文方法在脑图像分割上的有效性与准确性，部分测试图像的分割结果如图 6所示，从图 6可以看出：

	Download: JPG larger image
图 6 5种方法的分割结果比较 Fig. 6 Comparison of segmentation results of five methods

1）FCM方法只能大致分割出3种脑组织的轮廓，不能很好地捕捉脑组织的细节，因此不能对3种脑组织进行准确分割。此外，该方法的分割结果中存在很多分离像素点，表明其不能很好地处理脑图像灰度不均匀且边缘边界不清晰的情况。

2）U-net方法和Unet++方法都采用了类似的特征融合策略，对比于FCM方法，这两种方法可以较好地分割脑组织细节，但是整体而言，有一些像素点不能很好被识别并分类。同时，从分割结果看，U-net分割结果中存在一些孤立的像素点，这也表明U-net方法在处理分割细节时不能很好地聚合深层特征，不利于精细化分割脑部细节。

3）与其他4种方法的分割结果相比，DFA-Net能够很好处理分割细节，同时孤立像素点也较少，其所采用的特征聚合策略能够充分利用深层特征与浅层特征的信息互补性来处理分割结果中孤立像素点，解决上采样与下采样引起的信息损失问题。

4）U-net系列方法虽然使用了跳跃连接这一特征聚合方式，但是其在网络设计层面，没有充分利用深层特征带给分割结果的增益。图 6结果表明，本文方法在保证分割结果准确性的同时，较好地解决了U-net系列方法不能很好处理孤立像素点的问题，提高了分割结果的连续性。本文方法在处理脑部图像灰度不均匀且边界之间存在界限不清晰的情况下，能够较好地分割3种脑组织。

不同方法的脑部分割结果评价指标如表 2所示，其中，WM表示脑白质，GM表示脑灰质，CSF表示脑脊液，加粗数据为最优值。从表 2可以看出，FCM方法对于3种脑组织的分割准确性最低，其3种评价指标都相对较低，Unet++和本文方法的3种评价指标比较接近，但本文方法相比于Unet++方法有所提升。以脑灰质（GM）的分割为例，本文方法相较Unet++方法Dice系数提升了2.2%，从其他指标也可以看出，本文方法比U-net方法以及SegNet方法均有较大提升，以脑脊液（CSF）为例，本文方法相较于U-net方法Dice系数提升了2.7%，相较于SegNet方法Dice系数提升了1.9%。总体而言，本文方法相较其他4种方法能够对脑部图像做出更准确的分割。

下载CSV 表 2 5种方法的脑部分割结果评价 Table 2 Evaluation of brain segmentation results by five methods

不同网络的参数规模以及推理性能如表 3所示，其中SegNet、Unet++网络每个阶段的卷积核数量与Unet相同，测试设备为两个显存大小为12 GB的Nvidia GeForce GT1080ti显卡。

下载CSV 表 3 5种方法的网络参数规模及推理性能 Table 3 Network parameter scale and inference performance of five methods

为说明中间层卷积数量对网络性能的影响，在增加中间层卷积数量的同时，也相应增加聚合层特征以及特征聚合模块FAM的数量。随着中间层卷积数量的增加，网络参数规模也随之增加，由于相应的聚合层特征以及特征聚合模块FAM的增加，使得整个网络的特征聚合能力以及基础层的特征信息得到补充，减少了上采样与下采样带来的特征损失。

从表 4可以看出，在中间层卷积数量增加的同时，各项评价指标都呈上升趋势，当中间层卷积数量达到5个时，各项评价指标也最高。

下载CSV 表 4 中间层卷积数量对网络性能的影响 Table 4 Influence of the number of intermediate layer convolutions on network performance

从所有测试图像中选取20个测试图像绘制箱线图。图 7~图 9分别为20个测试图像的灰质、白质、脑脊液箱线图，可以看出：DFA-Net与Unet++方法性能较为接近；FCM方法对3种主要脑组织的分割效果都存在较小的异常值；DFA-Net在20个测试图像的Dice系数分布较为集中，但不如Unet++方法。从平均Dice系数来看，DFA-Net较Unet++方法略高，U-net和SegNet方法与本文方法稍有差距，虽然两者的Dice系数分布集中且均匀，但其上分位指标和下分位指标均较低，这也表明U-net和SegNet方法具有一定局限性，不能作为通用网络用于分割任务。

	Download: JPG larger image
图 7 20个测试图像的脑灰质箱线图 Fig. 7 Box plot of twenty test images for gray matter

	Download: JPG larger image
图 8 20个测试图像的脑白质箱线图 Fig. 8 Box plot of twenty test images for white matter

	Download: JPG larger image
图 9 20个测试图像的脑脊液箱线图 Fig. 9 Box plot of twenty test images for Cerebrospinal fluid

为进一步说明各方法的性能，从所有测试图像中选取10个测试图像绘制平均AVD指标折线图，如图 10所示。可以看出，本文方法与Unet++方法AVD指标最为相近，但是在个别测试图像上如img-3、img-4，本文方法优于Unet++方法，表明了本文方法较Unet++方法有一定优势。

	Download: JPG larger image
图 10 10个脑部测试图像的平均AVD指标 Fig. 10 Average AVD index of ten brain test images

为评价5种方法对于不同比例噪声的鲁棒性，对原始输入图像施加7种不同比例的高斯噪声，由于FCM方法在分割结果上表现较差，因此略去噪声对FCM方法的评价。图 11结果表明，在噪声比例较低（低于10%）的情况下，SegNet方法随着噪声比例的增加，平均Dice系数下降趋势明显，而本文方法和Unet++方法则下降较少，表明本文方法对低噪声图像具有较好适应性。在噪声比例由7%增加到9%的情况下，Unet++方法平均Dice系数下降很明显，而本文方法则下降得比较缓慢。总体而言，在噪声较多的情况下（高于10%），本文方法能够在适应噪声的同时对脑图像做出准确分割。

	Download: JPG larger image
图 11 不同噪声比例对脑部分割结果的影响 Fig. 11 Effects of different noise ratios on brain segmentation results

3.4 眼底血管分割实验

为验证本文方法的有效性与准确性，针对眼底血管图像进行分割实验。部分测试图像的分割结果如图 12所示。可以看出，DFA-Net能较好处理分割细节，对于部分微小血管能实现准确有效的分割。

	Download: JPG larger image
图 12 部分眼底血管测试图像的分割结果 Fig. 12 Segmentation results of some fundus blood vessel test images

表 5、表 6分别为本文方法与U-net等方法在两个测试数据集上的测试结果，其中加粗数据为最优值。由表 5可知：本文方法分别在F1值、特异度、准确率上处于领先，部分指标如敏感度和AUC与领先的Unet++以及LadderNet相差不大。在DVIRE数据集上，DFA-Net较U-net与Unet++有较大提升，总的来说，DFA-Net在核心指标上也领先于LadderNet。由表 6可知：在数据集CHASE-DB1上，本文方法在5个评价指标上均处于领先，LadderNet与本文方法在评价指标AUC上一致，其他方法如U-net等与本文方法稍有差距。

下载CSV 表 5 DVIRE数据集测试结果 Table 5 Test results on DVIRE dataset

下载CSV 表 6 CHASE-DB1数据集测试结果 Table 6 Test results on CHASE-DB1 dataset

4 结束语

针对CNN上采样与下采样所带来的信息损失问题，本文通过使用特征聚合策略设计深度特征聚合网络DFA-Net。利用三级特征表示层（基础层、中间层、聚合层）对特征进行加强，聚合层通过聚合中间层特征和传递特征给特征聚合模块，达到特征聚合的目的。实验结果表明，DFA-Net能够对3种主要脑组织以及眼底血管实现有效且准确的分割，较U-net、Unet++等方法具有更高的分割精度。DFA-Net在特征聚合时不可避免地引入了一些可训练参数，增加了计算量，下一步将探索更简单有效的特征聚合策略应用于CNN框架。

参考文献

[1]	NILAKANT R, MENON H P, VIKRAM K. A survey on advanced segmentation techniques for brain MRI image segmentation[J]. International Journal on Advanced Science, Engineering and Information Technology, 2017, 7(4): 1448-1456. DOI:10.18517/ijaseit.7.4.1271
[2]	DONG Nie, WANG Li, GAO Yaozong, et al. Fully convolutional networks for multi-modality isointense infant brain image segmentation[C]//Proceedings of the 13th IEEE International Symposium on Biomedical Imaging. Washington D.C., USA: IEEE Press, 2016: 1342-1345.
[3]	ZHANG Wenlu, LI Rongjian, DENG Houtao, et al. Deep convolutional neural networks for multi-modality isointense infant brain image segmentation[J]. NeuroImage, 2015, 108: 214-224. DOI:10.1016/j.neuroimage.2014.12.061
[4]	DOLZ J, DESROSIERS C, WANG L, et al. Deep CNN ensembles and suggestive annotations for infant brain MRI segmentation[J]. Computerized Medical Imaging and Graphics, 2020, 79: 1-21.
[5]	LI Qiaoliang, FENG Bowei, XIE Linpei, et al. A cross-modality learning approach for vessel segmentation in retinal images[J]. IEEE Transactions on Medical Imaging, 2015, 35(1): 109-118.
[6]	GENG Lei, QIU Ling, WU Jun, et al. Segmentation of retinal image vessels based on fully convolutional network with depth wise separable convolution and channel weighting[J]. Journal of Biomedical Engineering, 2019, 36(1): 107-115. (in Chinese) 耿磊, 邱玲, 吴骏, 等. 结合深度可分离卷积与通道加权的全卷积神经网络视网膜图像血管分割[J]. 生物医学工程学杂志, 2019, 36(1): 107-115.
[7]	LIU Yuqing, WANG Tianhao, XU Xu. New adaptive activation function for deep learning neural networks[J]. Journal of Jilin University (Science Edition), 2019, 57(4): 857-859. (in Chinese) 刘宇晴, 王天昊, 徐旭. 深度学习神经网络的新型自适应激活函数[J]. 吉林大学学报(理学版), 2019, 57(4): 857-859.
[8]	LeCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[9]	FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929. DOI:10.1109/TPAMI.2012.231
[10]	CHEN Hongshen, LIU Xiaorui, YIN Dawei, et al. A survey on dialogue systems: recent advances and new frontiers[J]. ACM SIGKDD Explorations Newsletter, 2017, 19(2): 25-35. DOI:10.1145/3166054.3166058
[11]	SAINATH T N, WEISS R J, WILSON K W, et al. Multichannel signal processing with deep neural networks for automatic speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(5): 965-979. DOI:10.1109/TASLP.2017.2672401
[12]	OLAF R, PHILIPP F, THOMAS B. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[13]	ÇIÇEK Ö, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]//Proceedings of International Conference on Medical Image Computing and Computer-assisted Intervention. Berlin, Germany: Springer, 2016: 424-432.
[14]	ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. Unet++: a nested u-net architecture for medical image seg-mentation[M]//STOYANOV D, TAYLOR Z, CARNEIRO G, et al. Deep learning in medical image analysis and multi-modal learning for clinical decision support. Berlin, Germany: Springer, 2018: 3-11.
[15]	LI Xiaomeng, CHEN Hao, QI Xiaojuan, et al. H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volumes[J]. IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674. DOI:10.1109/TMI.2018.2845918
[16]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651.
[17]	JESSON A, ARBEL T. Brain tumor segmentation using a 3D FCN with multi-scale loss[C]//Proceedings of International MICCAI Brainlesion Workshop. Berlin, Germany: Springer, 2017: 392-402.
[18]	AUBERT-BROCHE B, EVANS A C, COLLINS L. A new improved version of the realistic digital brain phantom[J]. NeuroImage, 2006, 32(1): 138-145. DOI:10.1016/j.neuroimage.2006.03.052
[19]	STAAL J, ABRÀMOFF M D, NIEMEIJER M, et al. Ridge-based vessel segmentation in color images of the retina[J]. IEEE Transactions on Medical Imaging, 2004, 23(4): 501-509. DOI:10.1109/TMI.2004.825627
[20]	OWEN C G, RUDNICKA A R, MULLEN R, et al. Measuring retinal vessel tortuosity in 10-year-old children: validation of the Computer-Assisted Image Analysis of the Retina(CAIAR) program[J]. Investigative Ophthalmology & Visual Science, 2009, 50(5): 2004-2010.
[21]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for scene segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[22]	ZHAO Feng, JIAO Licheng, LIU Hanqiang. Kernel generalized fuzzy c-means clustering with spatial info-rmation for image segmentation[J]. Digital Signal Processing, 2013, 23(1): 184-199. DOI:10.1016/j.dsp.2012.09.016
[23]	ORLANDO J I, PROKOFYEVA E, BLASCHKO M B. A discriminatively trained fully connected conditional random field model for blood vessel segmentation in fundus images[J]. IEEE Transactions on Biomedical Engineering, 2016, 64(1): 16-27.
[24]	ZHUANG Juntang. LadderNet: multi-path networks based on U-Net for medical image segmentation[EB/OL]. [2020-01-02]. https://arxiv.org/pdf/1810.07810v2.pdf.