«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (12): 304-311  DOI: 10.19678/j.issn.1000-3428.0063687
0

引用本文  

张相芬, 刘艳, 袁非牛. 基于倒金字塔深度学习网络的三维医学图像分割[J]. 计算机工程, 2022, 48(12), 304-311. DOI: 10.19678/j.issn.1000-3428.0063687.
ZHANG Xiangfen, LIU Yan, YUAN Feiniu. 3D Medical Image Segmentation Based on Inverted Pyramid Deep Learning Network[J]. Computer Engineering, 2022, 48(12), 304-311. DOI: 10.19678/j.issn.1000-3428.0063687.

基金项目

国家自然科学基金(61862029,62171285);上海师范大学普通研究基金(KF2021100)

作者简介

张相芬(1977—),女,副教授、博士,主研方向为医学图像处理、信息融合;
刘艳,硕士研究生;
袁非牛,教授、博士

文章历史

收稿日期:2022-01-04
修回日期:2022-02-16
基于倒金字塔深度学习网络的三维医学图像分割
张相芬 , 刘艳 , 袁非牛     
上海师范大学 信息与机电工程学院, 上海 201400
摘要:基于深度学习的医学图像分割对医学研究和临床疾病诊断具有重要意义。然而,现有三维脑图像分割网络仅依赖单一模态信息,且最后一层网络的特征表达不准确,导致分割精度降低。引入注意力机制,提出一种基于深度学习的多模态交叉重构的倒金字塔网络MCRAIP-Net。以多模态磁共振图像作为输入,通过三个独立的编码器结构提取各模态的特征信息,并将提取的特征信息在同一分辨率级进行初步融合。利用双通道交叉重构注意力模块实现多模态特征的细化与融合。在此基础上,采用倒金字塔解码器对解码器各阶段不同分辨率的特征进行整合,完成脑组织的分割任务。在MRBrainS13和IBSR18数据集上的实验结果表明,相比3D U-Net、MMAN、SW-3D-Unet等网络,MCRAIP-Net能够充分利用多模态图像的互补信息,获取更准确丰富的细节特征且具有较优的分割精度,白质、灰质、脑脊液的Dice系数分别达到91.67%、88.95%、84.79%。
关键词多模态融合    交叉重构注意力    倒金字塔解码器    医学图像分割    深度学习    
3D Medical Image Segmentation Based on Inverted Pyramid Deep Learning Network
ZHANG Xiangfen , LIU Yan , YUAN Feiniu     
College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201400, China
Abstract: Segmentation of medical images based on deep learning is of great significance to both medical research and clinical disease diagnosis.However, existing 3D image segmentation networks only rely on single modality information, and the feature representation of the last layer of these existing networks is not accurate.As a result, segmentation accuracy is reduced.By introducing an attention mechanism, a inverted pyramid network with multi-modality cross reconstruction MCRAIP-Net, based on deep learning, is proposed.With multi-modality Magnetic Resonance Imaging(MRI) as input, the feature information of each modality is extracted by three independent encoder structures, and the extracted feature information is preliminarily fused at the same resolution level.The Dual-channel Cross Reconstruction Attention(DCRA) module is used to refine and fuse multi-modality features.An inverted pyramid decoder is used to integrate the features of different resolutions at each stage of the decoder, to complete the task of segmenting a 3D medical image.The experimental results on MRBrainS13 and IBSR18 datasets show that the proposed MCRAIP-Net can use complementary information from the multi-modality images to obtain more accurate and rich details, and has improved segmentation accuracy, compared with networks such as the 3D U-Net, MMAN, SW-3D-Unet.The Dice coefficients of white matter, gray matter, and cerebrospinal fluid are 91.67%, 88.95%, and 84.79%, respectively.
Key words: multi-modality fusion    cross reconstruction attention    inverted pyramid decoder    medical image segmentation    deep learning    

开放科学(资源服务)标志码(OSID):

0 概述

医学图像分割能够最大程度地为医生提供患者的信息,对疾病的诊断和治疗手段的选择具有重要意义。人脑图像分割是根据强度同质性等特征将脑组织分割成白质(WM)、灰质(GM)和脑脊液(CSF)。受脑组织复杂特征的限制,脑组织的分割面临极大的挑战。

现有的脑组织分割方法主要分为基于传统算法的分割方法和基于深度学习的分割方法[1]。基于传统算法的脑组织分割方法包括基于区域增长、边缘、聚类和阈值的分割方法。其中,SOMASUNDARAM等[2]根据不同脑组织的强度信息自动选取种子点,并进行多种子点的区域生长,最终得到分割结果。LI等[3]使用K-means聚类方法实现对脑组织的分割,方法简单且分割速率较快。SALMAN等[4]提出一种结合K-means、聚类、分水岭变换等多种传统分割算法的边缘检测分割网络,分阶段地完成图像分割。但传统分割方法易受噪声影响,导致分割精度降低。基于深度学习的分割方法[5]多借助端到端的网络,这种网络不易受噪声影响,能更好地学习图像特征,因此广泛应用在医学图像分割任务中。例如,RONNEBERGER等[6]提出U-Net网络,该网络能够提取单层二维图像的上下文信息,但不能获得医学图像的三维空间信息。CICEK等[7]设计3D U-Net网络模型,将3D的卷积、池化、反卷积等操作引入到U-Net中,从而获取医学图像的3D空间信息,但仅依靠单一模态提供的信息,存在局限性问题。此外,受上采样、下采样操作的影响,深度学习网络不能准确表达输出特征,进一步影响分割精度。LONG等[8]提出MSCD-UNet网络,采用多分支池化信息提取器缓解最大池化方法存在的信息丢失问题,使得分割精度得到一定程度的提升,但是其网络结构过于复杂,导致参数量增加、分割效率降低。

针对以上问题,本文提出基于深度学习的医学图像分割网络MCRAIP-Net。以3D U-Net作为基础网络,为充分融合多模态特征信息,构建多模态编码器模块(Multi-modality Encoder Module,MEM)和双通道交叉重构注意力(Dual-channel Cross Reconstruction Attention,DCRA)模块,此外,设计倒金字塔解码器(IPD)模块,以融合多模态图像的特征,解决解码器最后一层输出特征表达不准确的问题。

1 相关理论 1.1 3D U-Net网络

3D U-Net[7]是一个具有对称编码器和解码器的神经网络。3D U-Net中编码器和解码器通过跳跃连接将同等分辨率的特征相连接,以提供较高的分辨率特征。此外,3D U-Net结构设计中将3D医学图像数据作为输入并使用3D卷积、3D最大池化和3D反卷积来实现特征提取和特征恢复。这种方式可以捕获图像的3D空间特征以提高分割精度。SUN等[9]基于3D U-Net提出一种改进的具有体积特征重新校准层的3D U-Net,称为SW-3D-Unet,以充分利用切片间的空间上下文特征。HUANG等[10]提出的3D RU-Net,从编码器的区域特征中切出多级感兴趣区域(Region of Interest,ROI),从而扩大了3D RU-Net适用的体积大小和有效感知领域。

上述自动分割方法在医学图像分割方面具有较优的性能,但多数忽略了单一模态数据信息的局限性。因此,本文引入注意力机制,设计多模态交叉重构的倒金字塔分割网络,以3D U-Net为基础,在输入层引入双通道交叉注意力机制和多模态融合策略,从而提高图像的分割精度。

1.2 注意力机制

在人们感知中,从不同感官获得的信息会被注意力机制加权[11]。这种注意力机制允许人们选择性地关注重要信息。受此启发,Google DeepMind团队在执行图像分类任务时提出注意力机制,从而掀起了注意力机制研究的热潮。例如,SENet[12]通过显式建模通道之间的连接关系,以自适应地重新校准通道特征响应。残差注意力网络[13]是通过堆叠注意力模块构建的,这些注意力模块生成注意力感知特征。SENet和残差注意力网络分别是采用通道注意力模块和空间注意力模块的代表。CBAM[14]是一种轻量级的通用模块,同时采用空间和通道注意力来提高深度神经网络的性能。除了通道注意力和空间注意力之外,一些研究人员还使用其他注意力机制。例如,为了提取相关的空间图像特征,SUN等[15]提出一种用于左心室分割的新堆栈注意U-Net。

多种方法利用注意力机制进行医学图像分割。YANG等[16]提出用于舌下小静脉分割的协同注意网络,它可以自动学习静脉目标结构。KAUL等[17]提出将注意力整合到全卷积网络中的FocusNet,通过卷积编码器生成的特征图实现医学图像分割。受这些注意力机制的启发,本文设计双通道交叉注意力模块以获得更多相关特征,并将这一思想与多模态融合机制相结合以关注更多的大脑细节信息。

1.3 多模态融合

在医学图像分析中,由于多模态(如T1、T1-IR、T2-FLAIR等)数据可以为医学研究提供互补信息,因此多模态的融合信息被广泛用于脑组织分割[18]和病变分割[19]。根据医学图像分割的深度学习网络[20],基于多模态的图像分割网络分为层级融合网络、决策级融合网络和输入级融合网络。在层级融合网络中,将每个模态的图像作为输入来训练个体增强网络,这些学习到的个体特征表示在网络层中进行融合。层级融合网络可以有效地集成和充分利用多模态图像[21]。在决策级融合网络[22]中,以每个模态图像作为单个分割网络的单一输入,将各自的分割结果相结合得到最终的分割结果。输入级融合网络[23]通常在通道维度上将多模态图像叠加得到融合特征,用于训练分割网络。

本文考虑到输入级融合网络可以最大限度地保留原始图像信息并学习图像内在特征,采用输入级融合网络来充分利用多模态图像的特征表示。为了更加关注重要信息,本文在输入级融合网络中添加了双通道交叉注意力机制,既能够融合多模态特征又能关注到其中的大脑细节信息。

2 本文算法

本文引入注意力机制,提出一种新颖的多模态交叉重构倒金字塔网络MCRAIP-Net,实现医学脑图像的分割,该网络主要包含多模态交叉重构编码结构和倒金字塔解码器结构两个部分。

2.1 多模态交叉重构编码器

由于不同模态的MRI图像能够表征不同的信息,因此有效地融合多模态信息对于实现高质量的分割具有重要意义。本文使用并行前馈编码器结构提取不同模态的特征,并在每个分辨率上进行融合,该融合过程主要分为两个步骤:1)在多模态编码器模块中进行初步融合;2)将初步融合的特征送入双通道交叉重构注意力模块中进一步融合。

在初步融合过程中,本文将T1、T1-IR和T2-FLAIR三个模态的MRI数据作为输入,采用最大池化对每个模态的数据独立地进行下采样,从而有效捕获3D图像的上下文信息。将同一分辨率级的特征按像素级相加,这样的设计不仅能够提高网络的表达能力,还可以减少参数量。多模态编码器模块结构如图 1所示。假设第$ l $层的三个模态特征在初步融合后得到的特征为$ \mathrm{F}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}   l\_1 $$ \mathrm{F}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}   l\_2 $,其中$ l\in 1\mathrm{、}2\mathrm{、}3 $,至此,完成多模态的初步融合。

Download:
图 1 多模态编码器模块结构 Fig. 1 Structure of multi-modality encoder module

第二步融合是对初步融合的特征进行交叉重构融合。双通道交叉重构注意力模块结构如图 2所示。

Download:
图 2 双通道交叉重构注意力模块结构 Fig. 2 Structure of dual-channel cross reconstruction attention module

DCRA模块的输入是第一步的融合特征$ \mathrm{F}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}   l\_1 $$ \mathrm{F}\mathrm{e}\mathrm{a}\mathrm{t}\mathrm{u}\mathrm{r}\mathrm{e}   l\_2 $。两个融合特征的大小均为$ I\times J\times K $,其中,$ I\mathrm{、}J\mathrm{、}K $分别表示特征图的长、宽、高。首先,分别对两个输入进行一次卷积,其目的是充分融合每个输入中包含的两个模态信息,在卷积之后得到特征$ F1 $$ F2 $;然后,将特征$ F1 $$ F2 $按像素级相加得到特征$ {\boldsymbol{f}}_{l, \mathrm{c}\mathrm{h}} $;最后,使用全局平均池化对特征$ {\boldsymbol{f}}_{l, \mathrm{c}\mathrm{h}} $沿轴向、冠状和矢状方向进行空间信息压缩,以获得空间统计信息$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}} $$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}} $$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $,其中ch表示第ch个通道,$ \mathrm{c}\mathrm{h}\in \left[1, \mathrm{C}\mathrm{h}\right] $$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $的计算过程如式(1)~式(3)所示:

$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}}\left(i, k\right)={G}_{a}^{\mathrm{G}\mathrm{A}\mathrm{P}}\left(\boldsymbol{f}\right)=\frac{1}{J}\sum _{j=1}^{J}{\boldsymbol{f}}_{l, \mathrm{c}\mathrm{h}}\left(i, j, k\right) $ (1)
$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}}\left(j, k\right)={G}_{c}^{\mathrm{G}\mathrm{A}\mathrm{P}}\left(\boldsymbol{f}\right)=\frac{1}{I}\sum _{i=1}^{I}{\boldsymbol{f}}_{l, \mathrm{c}\mathrm{h}}\left(i, j, k\right) $ (2)
$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}}\left(i, j\right)={G}_{s}^{\mathrm{G}\mathrm{A}\mathrm{P}}\left(\boldsymbol{f}\right)=\frac{1}{K}\sum _{k=1}^{K}{\boldsymbol{f}}_{l, \mathrm{c}\mathrm{h}}\left(i, j, k\right) $ (3)

其中:$ {G}_{d}^{\mathrm{G}\mathrm{A}\mathrm{P}} $表示沿着方向$ d\in \{a, c, s\} $进行全局平均池化;$ a\mathrm{、}c\mathrm{、}s $分别表示轴向、冠状和矢状方向。

对于$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}}^{\mathrm{\text{'}}} $$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $重塑之后的特征向量$ {\boldsymbol{a}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $$ {\boldsymbol{c}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $$ {\boldsymbol{s}}_{l, \mathrm{c}\mathrm{h}}^{\text{'}} $,本文利用两个全连接层来推断每个像素通道的权重向量$ {\boldsymbol{a}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{c}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{s}}_{l, \mathrm{c}\mathrm{h}} $,将两个全连接层设计为一个瓶颈架构,其中第一个全连接层起到降维的作用,降维比为1/4,既能减少网络训练参数量,又可以提高模型的泛化能力。再将权重向量重塑为二维的权重向量$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}} $,最后将二维权重向量$ {\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}} $$ {\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}} $重构成三维共享权重$ {\boldsymbol{\omega }}_{l, \mathrm{c}\mathrm{h}} $进行特征增强。$ {\boldsymbol{\omega }}_{l, \mathrm{c}\mathrm{h}} $的表示如式(4)所示:

$ {\boldsymbol{\omega }}_{l, \mathrm{c}\mathrm{h}}\left(i, j, k\right)={\boldsymbol{A}}_{l, \mathrm{c}\mathrm{h}}\left(i, k\right){\boldsymbol{C}}_{l, \mathrm{c}\mathrm{h}}\left(j, k\right){\boldsymbol{S}}_{l, \mathrm{c}\mathrm{h}}\left(i, j\right) $ (4)

其中:$ {\boldsymbol{\omega }}_{l, \mathrm{c}\mathrm{h}}\left(i, j, k\right) $表示空间像素$ \left(i, j, k\right) $的权重值。

每个像素通道的加权张量是使用所有模态的空间信息产生的,这样能够增强网络对图像特征信息的表达。本文将特征$ F1 $$ F2 $分别与重构的三维权重相乘并按像素级相加,得到重构注意的特征,该特征能更好地表达多模态的三维特征信息。

2.2 倒金字塔解码器

本文提出一种基于3D U-Net的MCRAIP-Net网络,其网络结构如图 3所示,在图中每个特征上都标记了通道数量。

Download:
图 3 多模态交叉重构的倒金字塔网络结构 Fig. 3 Structure of inverted pyramid network with multi-modality cross reconstruction

为了对当前分辨率下的特征向量进行重构加权,本文对编码器每一个分辨率级的特征都使用了双通道交叉重构注意力模块,以捕获更有效的特征,将双通道交叉重构注意力模块的输出特征跳转连接到同一分辨率级的解码器中,降低下采样时信息丢失对分割精度的影响。在深度神经网络中,通常仅对网络最后一层的输出特征进行分类,该特征经过多次连续的下采样和上采样后得到,在一定程度上存在表达不准确的问题。为解决该问题,本文采用倒金字塔解码器(如图 3中虚线框所示),将解码器中每一层的特征都参与到最后的分类任务中。具体做法是:将低分辨率特征通过双线性插值的方法恢复到输入图像大小,再将这些特征进行拼接并通过3×3×3的卷积来实现融合,对融合特征进行1×1×1卷积,最后采用Sigmoid函数对卷积结果进行判决,最终完成分割任务。

3 实验细节与评价指标 3.1 实验细节

本文实验均在Tensorflow开源框架下实现,训练和测试的平台是Intel® Xeon®处理器,两块NVIDIA GeForce GT1080ti显卡(显存8 GB)的windows(64位)系统。网络权重更新迭代次数设为5 000次,网络模型的初始学习率为0.001,权重每更新1 000次学习率下降1/2。

本文为了更好地评价所提的网络模型,在两个主流的医学脑图像数据集MRBrainS13和IBSR18上进行实验。MRBrainS13数据集是对不同程度白质病变的糖尿病患者采集获得的,该训练数据集有5个研究对象(2个男性、3个女性),对每个成像受试者进行扫描,获取多模态的MRI大脑数据,数据包括T1、T1-IR和T2-FLAIR三种模态,每种模态数据的大小为240×240×240。在实验中,本文将数据的80%作为训练集,10%作为验证集,10%作为测试集。所有的图像都经过了偏差矫正,其目标分割图像由医学专家手工分割获得。IBSR18数据集包含18个T1 MRI数据,大小均为256×256×128,MRI扫描图像和医学专家手工分割结果由马萨诸塞州综合医院的形态测量分析中心提供。

3.2 评价指标

为了评价本文算法的有效性和可靠性,本文使用最常用的三个评价指标来评估网络对脑组织(WM、GM和CSF)的分割性能。这三个指标分别是Dice系数(Dice Coefficient,DC)、绝对体积差(Absolute Volume Difference,AVD)和豪斯多夫距离(Hausdorff Distance,HD),其表达式如式(5)所示:

$ \begin{array}{l}{D}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=1-\frac{2\left|P\bigcap G\right|}{\left|P\right|+\left|G\right|}\\ {A}_{\mathrm{A}\mathrm{V}\mathrm{D}}\left(S, L\right)=\frac{\left|{V}_{P}-{V}_{G}\right|}{{V}_{G}}\times 100\mathrm{\%}\\ {H}_{\mathrm{H}\mathrm{D}}\left(P, G\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left\{h\left(P, G\right), h\left(G, P\right)\right\}\end{array} $ (5)

其中:P表示预测模型的分割图像;G表示人工分割的真实图像;$ {V}_{P} $表示预测分割结果的体积;$ {V}_{G} $表示真实分割图像的体积。$ h\left(P, G\right) $$ h\left(G, P\right) $的表达式分别如式(6)和式(7)所示:

$ h\left(P, G\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left(p\in P\right)\mathrm{m}\mathrm{i}\mathrm{n}\left(g\in G\right)‖p-g‖ $ (6)
$ h\left(G, P\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left(g\in G\right)\mathrm{m}\mathrm{i}\mathrm{n}\left(p\in P\right)‖g-p‖ $ (7)

Dice系数越大表示分割越准确,HD和AVD值越小表示分割性能越好。

4 实验 4.1 消融实验

本文基于MRBrainS13数据集进行实验,以验证所提各模块的有效性,实验结果如表 1所示。

下载CSV 表 1 在MRBrainS13数据集上的消融实验结果 Table 1 Results of ablation experiments on the MRBrainS13 dataset

将未嵌入MEM模块、DCRA模块和IPD模块的3D U-Net作为基础网络。在逐步将MEM、DCRA和IPD模块添加到3D U-Net之后,网络的分割性能也相应得到提高。在3D U-Net中加入MEM模块后(网络模块表示为3D U-Net+MEM),在9个评价指标中,除了CSF的AVD指标以外,相比3D U-Net其他8项指标都有所提升,尤其是WM和GM的Dice指标,分别提升了2.03和2.39个百分点。在3D U-Net+MEM框架基础上加入DCRA模块后(网络模块表示为3D U-Net+MEM+DCRA),相比3D U-Net+MEM又有6个指标得到提升,其中,WM和GM的Dice指标分别从90.89%和87.83%提高到91.57%和88.44%,说明本文构造的双通道交叉重构注意力模块能够有效提取不同模态的特征,从而提高网络的分割性能。

为验证IPD模块的有效性,本文算法基于3D U-Net+MEM+DCRA+IPD框架做了第四组实验。从表 1可以看出,3D U-Net+MEM+DCRA+IPD框架取得了最优的分割结果。因此,本文提出的算法具有更好的特征提取和分割性能,所提的分割网络模型在分割精度上较3D U-Net有明显的提升,但是其参数量比3D U-Net网络增加了将近一倍,因此其运行效率低于3D U-Net网络。

加入不同模块后模型所需的参数量以及对每个32×32×32三维图像的运行时间对比如表 2所示。从表 2可以看出,虽然MCRAIP-Net所需参数量和运行时间较3D U-Net更多,但表 1数据已表明MCRAIP-Net的分割精度最高。

下载CSV 表 2 不同模型的参数量和运行时间对比 Table 2 Parameters quantity and running time comparison among different models

本文消融实验结果如图 4所示,本文给出三个分割实例的实验结果对比,分别为例1、例2、例3。Ground-Truth代表真实分割图像,从图中方框标记的脑组织细节信息可以看出,与真实分割结果对比,本文提出的算法对细节特征的分割更加准确,进一步验证本文所提的MEM模块、DCRA模块以及IPD模块的有效性。

Download:
图 4 消融实验的分割结果 Fig. 4 Segmentation results of ablation experiment

实验结果表明,本文提出的MCRAIP-Net可以有效地对多模态数据进行训练,并且获得更优的分割结果。

4.2 在MRBrainS13数据集上的实验结果

本文将MCRAIP-Net算法与四种目前最先进的医学脑图像分割算法进行对比,包括3D U-Net[7]、HyperDense-Net[24]、MMAN[25]和SW-3D-Unet[9]。实验统计数据如表 3所示。从表 3可以看出,在除了CSF的Dice系数和AVD以及CSF的AVD三个指标之外,本文提出的MCRAIP-Net算法的6个指标均优于其他算法,本文提出的深度网络模型的分割效果总体优于其他算法。以GM的分割为例,本文算法得到的Dice系数比SW-3D-Unet提高2.39个百分点。从表 3可以看出,本文算法的分割性能相比于3D U-Net和HyperDense-Net均有较大的提升,以WM为例,相较于3D U-Net的Dice系数平均提升了2.81个百分点,相较于HyperDense-Net的Dice系数平均提升2.21个百分点。因此,本文算法能更准确地完成脑部图像分割任务。

下载CSV 表 3 在MRBrainS13数据集上不同算法的分割结果 Table 3 Segmentation results among different algorithms on MRBrainS13 dataset

在MRBrainS13数据集上不同算法的实验结果对比如图 5所示。

Download:
图 5 在MRBrainS13数据集上不同算法的实验结果对比 Fig. 5 Experimental results comparison among different algorithms on MRBrainS13 dataset

图 5可以看出,相较于其他四种算法,本文算法分割图像的整体形态与真实标签最接近,对脑组织分割也更准确,特别是在图中方框标记的区域。本文算法在测试集上的多模态分割示例如图 6所示。本文算法分割出的脑组织边界十分清晰,也证明了本文算法在脑组织分割任务中具有较好的分割性能。

Download:
图 6 在测试集上本文算法的多模态分割示例 Fig. 6 An example of multi-modality segmentation of the proposed algorithm on test dataset
4.3 在IBSR18数据集上的对比实验

为验证本文提出的网络架构也适用于分割单模态数据,本文在IBSR18数据集上进行对比实验,将本文所提算法与U-Net[6]、Residual U-Net[26]、Inception U-Net[27]、SegNet[28]和MhURI[29]的分割结果进行对比。不同算法的图像分割评价指标如表 4所示。以Dice系数为例,从表 4可以看出,本文算法的Dice系数分割指标总体高于其他对比算法。实验结果表明,本文算法在只有单模态情况下也能取得较好的分割结果。

下载CSV 表 4 在IBSR18数据集上不同算法的分割结果 Table 4 Segmentation results comparison among different algorithms on IBSR18 dataset
5 结束语

本文提出一种新颖的深度学习网络,用于实现人脑磁共振图像的分割。将T1、T1-IR和T2-FLAIR三种模态的数据作为输入,通过多模态交叉重构编码器对各模态数据进行下采样实现特征提取,并对同一分辨率级的特征进行两级融合,其中在双通道交叉重构注意力模块中不仅充分融合了三模态的特征,还对特征进行重构加权和细化。基于解码器各分辨率级的特征,利用倒金字塔解码器实现脑组织的分割,有效提升图像的分割精度。实验结果表明,本文算法不仅具有较优的细节特征提取能力,而且能有效融合不同模态的信息。后续将引入边缘检测注意力模块来定位待分割组织的边界,并利用正则化方法进行深度监督,进一步提升网络模型的分割精度和训练效率。

参考文献
[1]
LIU X B, SONG L P, LIU S, et al. A review of deep-learning-based medical image segmentation methods[J]. Sustainability, 2021, 13(3): 1224. DOI:10.3390/su13031224
[2]
SOMASUNDARAM K, KALAVATHI P. Brain segmentation in magnetic resonance human head scans using multi-seeded region growing[J]. The Imaging Science Journal, 2014, 62(5): 273-284. DOI:10.1179/1743131X13Y.0000000068
[3]
LI M, ZHENG X L, LUO H Y, et al. Automated segmentation of brain tissue and white matter in cryosection images from Chinese visible human dataset[J]. Journal of Medical and Biological Engineering, 2014, 34(2): 178-187. DOI:10.5405/jmbe.1336
[4]
SALMAN N H, GHAFOUR B M, HADI G M. Medical image segmentation based on edge detection techniques[J]. Advances in Image and Video Processing, 2015, 3(2): 16-27.
[5]
杨兵, 刘晓芳, 张纠. 基于深度特征聚合网络的医学图像分割[J]. 计算机工程, 2021, 47(4): 187-196.
YANG B, LIU X F, ZHANG J. Medical image segmentation based on deep feature aggregation network[J]. Computer Engineering, 2021, 47(4): 187-196. (in Chinese)
[6]
RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[7]
CICEK Ö, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]//Proceedings of Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2016: 424-432.
[8]
LONG J S, MA G Z, SONG E M, et al. Learning U-net based multi-scale features in encoding-decoding for MR image brain tissue segmentation[J]. Sensors (Basel, Switzerland), 2021, 21(9): 3232. DOI:10.3390/s21093232
[9]
SUN L Y, MA W A, DING X H, et al. A 3D spatially weighted network for segmentation of brain tissue from MRI[J]. IEEE Transactions on Medical Imaging, 2020, 39(4): 898-909. DOI:10.1109/TMI.2019.2937271
[10]
HUANG Y J, DOU Q, WANG Z X, et al. 3-D RoI-aware U-Net for accurate and efficient colorectal tumor segmentation[J]. IEEE Transactions on Cybernetics, 2021, 51(12): 5397-5408. DOI:10.1109/TCYB.2020.2980145
[11]
YU J K, YANG D D, ZHAO H S. FFANet: feature fusion attention network to medical image segmentation[J]. Biomedical Signal Processing and Control, 2021, 69: 102912. DOI:10.1016/j.bspc.2021.102912
[12]
HU J, SHEN L, ALBANIE L, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. DOI:10.1109/TPAMI.2019.2913372
[13]
WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6450-6458.
[14]
WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[15]
SUN X, GARG P, PLEIN S, et al. SAUN: stack attention U-Net for left ventricle segmentation from cardiac cine magnetic resonance imaging[J]. Medical Physics, 2021, 48(4): 1750-1763. DOI:10.1002/mp.14752
[16]
YANG T X, YOSHIMURA Y, MORITA A, et al. Synergistic attention U-Net for sublingual vein segmentation[J]. Artificial Life and Robotics, 2019, 24(4): 550-559. DOI:10.1007/s10015-019-00547-9
[17]
KAUL C, MANANDHAR S, PEARS N. FocusNet: an attention-based fully convolutional network for medical image segmentation[C]//Proceedings of the 16th International Symposium on Biomedical Imaging. Washington D. C., USA: IEEE Press, 2019: 455-458.
[18]
魏颖, 雷志浩, 齐林. 基于注意力机制的3D U-Net婴幼儿脑组织MR图像分割[J]. 东北大学学报(自然科学版), 2021, 42(5): 616-623.
WEI Y, LEI Z H, QI L. 3D U-Net infant brain tissue MR image segmentation based on attention mechanism[J]. Journal of Northeastern University(Natural Science), 2021, 42(5): 616-623. (in Chinese)
[19]
MA C, LUO G N, WANG K Q. Concatenated and connected random forests with multiscale patch driven active contour model for automated brain tumor segmentation of MR images[J]. IEEE Transactions on Medical Imaging, 2018, 37(8): 1943-1954. DOI:10.1109/TMI.2018.2805821
[20]
ZHOU T X, RUAN S, CANU S. A review: deep learning for medical image segmentation using multi-modality fusion[J]. Array, 2019(3/4): 100004.
[21]
DOLZ J, DESROSIERS C, BEN AYED I. IVD-Net: intervertebral disc localization and segmentation in MRI with a multi-modal UNet[C]//Proceedings of Computational Methods and Clinical Applications for Spine Imaging. Berlin, Germany: Springer, 2019: 130-143.
[22]
KAMNITSAS K, BAI W, FERRANTE E, et al. Ensembles of multiple models and architectures for robust brain tumour segmentation[C]//Proceedings of International MICCAI Brainlesion Workshop. Berlin, Germany: Springer, 2017: 450-462.
[23]
KAMNITSAS K, LEDIG C, NEWCOMBE V F J, et al. Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation[J]. Medical Image Analysis, 2017, 36: 61-78. DOI:10.1016/j.media.2016.10.004
[24]
DOLZ J, GOPINATH K, YUAN J, et al. HyperDense-Net: a hyper-densely connected CNN for multi-modal image segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(5): 1116-1126. DOI:10.1109/TMI.2018.2878669
[25]
LI J C, YU Z L, GU Z H, et al. MMAN: multi-modality aggregation network for brain segmentation from MR images[J]. Neurocomputing, 2019, 358: 10-19. DOI:10.1016/j.neucom.2019.05.025
[26]
ZHANG Z X, LIU Q J, WANG Y H. Road extraction by deep residual U-net[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753. DOI:10.1109/LGRS.2018.2802944
[27]
CAHALL D E, RASOOL G, BOUAYNAYA N C, et al. Inception modules enhance brain tumor segmentation[J]. Frontiers in Computational Neuroscience, 2019, 13: 44. DOI:10.3389/fncom.2019.00044
[28]
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[29]
GHOSAL P, CHOWDHURY T, KUMAR A, et al. MhURI: a supervised segmentation approach to leverage salient brain tissues in magnetic resonance images[J]. Computer Methods and Programs in Biomedicine, 2021, 200: 1-15.