基于改进U⁃Net的人脑黑质致密部分割

引用本文

曹加旺, 田维维, 刘学玲, 等. 基于改进U⁃Net的人脑黑质致密部分割[J]. 计算机工程, 2022, 48(11), 14-21, 29. DOI: 10.19678/j.issn.1000-3428.0063273.

CAO Jiawang, TIAN Weiwei, LIU Xueling, et al. Segmentation of Brain Substantia Nigra Pars Compacta Based on Improved U-Net[J]. Computer Engineering, 2022, 48(11), 14-21, 29. DOI: 10.19678/j.issn.1000-3428.0063273.

基金项目

上海市科委项目“大规模跨模态序列数据的可解释互生成关键技术研究”(20511100800)

通信作者

冯瑞(通信作者)，研究员、博士、博士生导师

作者简介

曹加旺(1996—)，男，硕士研究生，主研方向为计算机视觉;
田维维，博士研究生;
刘学玲，主治医师、博士;
李郁欣，教授、博士、博士生导师

文章历史

收稿日期：2021-11-18
修回日期：2022-02-19

Contents Abstract Full text Figures/Tables PDF

基于改进U⁃Net的人脑黑质致密部分割

曹加旺¹ , 田维维¹ , 刘学玲² , 李郁欣² , 冯瑞¹

1. 复旦大学工程与应用技术研究院, 上海 200433;
2. 复旦大学附属华山医院放射科, 上海 200433

收稿日期：2021-11-18；修回日期：2022-02-19

基金项目：上海市科委项目“大规模跨模态序列数据的可解释互生成关键技术研究”(20511100800)

作者简介：曹加旺(1996—)，男，硕士研究生，主研方向为计算机视觉; 田维维，博士研究生; 刘学玲，主治医师、博士; 李郁欣，教授、博士、博士生导师.

通信作者：冯瑞(通信作者)，研究员、博士、博士生导师.

E-mail: jwcao19@fudan.edu.cn

摘要：人脑黑质致密部分割能够为帕金森病的诊断提供一定依据。黑质致密部在人脑核磁共振成像中像素占比低、类间差异小，为提高计算机辅助诊断系统对人脑黑质致密部的分割精度，提出一种基于改进U形神经网络(U-Net)的人脑黑质致密部分割方法。为了提取更多有效的多尺度图像语义特征，结合U-Net的跨连接结构并采用多头注意力机制，同时融合基于Transformer编码器的高维语义编码模块以提取高维语义特征，避免浅层噪声对特征造成的影响。建立多任务模型并设计基于二维高斯核权重掩膜的损失函数，解决神经网络分割模型因多次下采样造成的不连续分割误差问题。构建包括140个帕金森病患者以及48个健康对照者的高精度核磁共振脑成像数据集进行实验，结果表明，相较常用的医疗影像分割方法R2U-Net、HANet等，该方法的多任务分割效果取得明显提升，戴斯相关系数和AUC指标分别达到0.869 1和0.943 9，消融实验结果也验证了改进编码器和改进损失这2个模块的有效性。

Segmentation of Brain Substantia Nigra Pars Compacta Based on Improved U-Net

CAO Jiawang¹ , TIAN Weiwei¹ , LIU Xueling² , LI Yuxin² , FENG Rui¹

1. Academy of Engineering & Technology, Fudan University, Shanghai 200433, China;
2. Department of Radiology, Huashan Hospital, Fudan University, Shanghai 200433, China

Abstract: The segmentation of brain Substantia Nigra pars compacta(SNpc) can provide the basis for Parkinson's disease diagnosis.SNpc is a low-pixel-ratio object in Magnetic Resonance Imaging(MRI) of the human brain, and the pixels with different labels are similar.This study proposes a method based on an improved U-Shape Neural Network(U-Net) to improve the segmentation accuracy of a computer-aided diagnosis system for brain SNpc.The cross-connection structure of U-Net is combined with the multihead attention mechanism to extract more effective multiscale image semantic features.The high-dimensional semantic encoding module based on a Transformer encoder is fused to extract high-dimensional semantic features and eliminate the effect of shallow noise on features.The multitask model is established, and the loss function based on the two-dimensional Gaussian kernel weight mask is designed to solve the discontinuous segmentation error caused by multiple down-samples of the neural network segmentation model.A high-precision MRI brain imaging dataset comprising 140 Parkinson's patients and 48 healthy controls was constructed for experiments.The results show that compared with the widely used medical image segmentation methods, such as R2U-Net and HANet, the multitask segmentation effect of this method improved significantly.The Dais phase relationship number and the Area Under the Curve(AUC) index reached 0.869 1 and 0.943 9, respectively.Furthermore, the results of the ablation experiment verify the effectiveness of the improved encoder and the improved loss modules.

开放科学(资源服务)标志码(OSID)：

0 概述

帕金森病是一种神经变性疾病，多发于中老年人。随着核磁共振成像(Magnetic Resonance Imaging，MRI)技术以及相关设备的发展，人们能够更进一步地观察患者的脑部结构，从而探究帕金森病的病因和诊断标准。近年来，对帕金森病的各项研究结果表明，脑黑质(Substantia Nigra，SN)的大小、形态、体积等特征可用于辅助诊断帕金森病，尤其是黑质致密部(Substantia Nigra pars compacta，SNpc)的体积与帕金森病存在一定关联^[1-3]。因此，对人脑SNpc进行精准分割，有利于准确观察脑黑质的结构变化，对帕金森病的早期筛查及计算机辅助诊断具有重要意义。

早期的SNpc分割多采用传统算法，如基于梯度算子和能量函数的黑质神经核团分割算法等。近年来，一些学者开始使用基于全连接神经网络(Fully Connect Neural Network，FCN)^[4]的模型，以及基于FCN的变体神经网络结构，如U形神经网络(U-Shape Neural Network，U-Net)^[5-7]模型。相较传统方法，基于神经网络的分割方法在多数医学影像分割任务中取得了显著的效果提升，但是在对SNpc进行分割时准确率提升仍然有限^[8]。分析原因主要有两点：对医学影像分割算法的研究往往集中在对低维语义信息的特征提取上，当低维语义信息足够分辨目标对象时，U-Net模型的“跨连接”结构能够在训练阶段自动调整相应采样模块的权重参数，但是当低维语义信息不足以分辨目标时，如当图像中出现色彩线条相似的组织和结构时，其底部结构不能充分利用多次下采样后的高维语义特征，因此，在模型结构以及学习机制上还需改进；黑质致密部的分割任务本身还存在若干难点，脑黑质致密部占比小，对算法感知能力要求高，脑黑质边缘不够清晰且形变较大，在数据量有限的情况下难以提升算法准确性，此外，基于神经网络的分割模型由于需要多次下采样，造成上下文特征丢失，导致分割出了不连续的目标片段等，因此，还需要利用一些后处理手段(如平滑算子等)，但这又会引入其他超参数。

为了解决上述问题，提升帕金森病关键黑质神经核团的分割精度，改善计算机辅助诊断系统对帕金森病关键核团的显示效果，本文提出一种基于改进U-Net的帕金森病关键神经核团分割算法。设计基于Transformer的高维语义特征提取模块，提高U-Net的高维语义信息提取能力。针对黑质致密部的分布特点，提出一种基于局部地区权重掩膜的分布损失函数，以改善模型分割效果。

1 相关工作 1.1 医学影像分割

近年来，基于全连接神经网络的分割算法被广泛应用于医学影像分割任务。相比传统的手工特征提取算法，基于FCN的模型能够端到端训练，内部参数都可在训练中通过梯度下降方法求解。基于FCN的分割模型采用卷积神经网络(Convolution Neural Network，CNN)同时作为编码器和解码器，相较传统的手工特征，CNN对图像特征提取能力更强，误差更低。具有代表性的FCN有U-Net模型，其将编码器模块的浅层语义特征以跨连接的方式输入解码器模块，形成对称的神经网络模型结构，从而提高模型对不同感受野、不同层次语义特征的捕获能力。近期的医学影像分割算法一般使用改进的U-Net结构(如R2U-Net^[9])，在U-Net的编码器模块加入残差卷积层，Attention U-Net^[10]在U-Net的跨连接部分加入注意力机制，提高了模型对小目标的敏感度。

当上述方法被应用在一些小目标器官或病灶分割任务中时，各项指标仍未达到临床应用水平。因此，一些学者提出针对小目标分割的改进方法，主要包括两类：

1) 第一类方法通过改进小目标分割流程来提高精度。文献[11]将小目标分割分解为双阶段任务，第一步采用检测模型在大范围内找到感兴趣区域，第二步利用分割模型在感兴趣区域内进行分割，从而降低背景噪声的影响。文献[12]通过融合分水岭算法分支的后处理，提高模型在目标边缘部分的分割精度。这类方法存在的普遍问题是模型结构较为复杂，且需要调整更多的超参数，不利于实际应用。

2) 第二类方法通过改进注意力模型来提高对小目标的感受能力。文献[13]将门控式的边缘检测作为注意力图，提高了模型对小目标边缘部分的感知能力。文献[14]将密集连接网络与注意力机制相结合，使模型主动学习重点目标区域。文献[15]将残差网络与注意力机制相结合，采用多尺度输入在提高感受野的同时降低噪声影响。文献[16]结合多尺度卷积与双通道注意力模块，进一步提高了模型的全局感受野。但是，上述注意力模块的引入仍是在跨连接模块中加强对低维语义信息的感知能力。HANet^[17]在U-Net结构的基础上改进底部的注意力模块，利用图网络模型以及传递闭包算法增加注意力模块的感受野，从而提升模型对包括高维语义信息在内的全局信息的捕捉能力。

在实践中发现，上述医学分割方法在脑黑质致密部分割中依然存在一定的局限性。由于U型神经网络多次下采样的结构特点，导致其容易丢失上下文信息，在高维语义信息识别方面能力不足。如图 1所示，人脑黑质致密部分布并不均匀，因此，有可能在图像分割结果中出现不连续的分割片段。

	Download: JPG larger image
图 1 人脑SNpc分割结果 Fig. 1 Brain SNpc segmentation results

1.2 Transformer编码器

注意力机制^[18]在长序列分析任务中具有显著优势，在神经网络模型中添加注意力模块，有利于模型更加关注那些对分类置信度影响较大的特征。近年来，对计算机视觉中注意力机制的研究结果表明，基于序列模型的多头注意力机制不仅可用于自然语言处理问题，也适用于图像识别问题。文献[19]指出一幅图像可以被表示为一个$ 16\times 16 $的切片图像序列，因此，融合多头注意力机制的Transformer编码器可以被应用于计算机视觉任务，如图像识别^[19-20]、目标检测^[21-22]、语义分割^[23-24]等。由于卷积神经网络可以更加高效地提取浅层视觉特征，多头注意力机制则常用于高维语义特征提取，上述计算机视觉任务中的Transformer模型设计需要结合两者共同的优点。另外，基于Transformer的分割算法模型结构复杂，模型训练容易过拟合，需要大量的标注数据集，因此，将Transformer应用在医学影像分割任务中的相关研究仍处于起步阶段。

1.3 多任务学习

多任务学习指的是在机器学习中通过设计另一个辅助任务来帮助模型进一步理解主要任务。在神经网络模型中，通过改进损失函数可以学习多个任务，如在医学影像多疾病分类学习过程中同时学习图像中有无病灶^[25]，有利于模型充分理解病灶，防止学习潜在偏差。通过多任务学习策略可以在一定程度上缓解过拟合问题^[26]。观察发现，人脑黑质致密部的分布大致呈中心对称的两块区域，因此，可以构建区域学习任务，使模型更加关注目标位置。

2 基于改进U-Net的人脑SNpc分割算法

本文提出的改进U-Net结构在高维语义提取部分结合Transformer编码器，提升模型对高维语义特征的理解能力。为了解决下采样环节中上下文丢失的问题，提出基于二维高斯核权重掩膜的损失函数，通过多任务学习使神经网络模型更加关注对称中心区域的像素识别损失。

2.1 模型结构

本文提出的基于改进U-Net的人脑SNpc分割神经网络模型结构如图 2所示。

	Download: JPG larger image
图 2 基于改进U-Net的人脑SNpc分割模型 Fig. 2 Brain SNpc segmentation model based on improved U-Net

被分割的核磁共振影像切片为单通道图像，堆叠到三通道后输入到神经网络模型中。设输入图像$ {I}_{\mathrm{i}\mathrm{n}}\in {\mathbb{R}}^{M\times N\times C} $，经过神经网络$ \left(\mathrm{N}\mathrm{N}\right) $后，端到端地输出分割结果图像$ {I}_{\mathrm{o}\mathrm{u}\mathrm{t}}\in {\mathbb{R}}^{M\times N\times C} $，如式(1)所示：

$ {I}_{\mathrm{o}\mathrm{u}\mathrm{t}}=\mathrm{N}\mathrm{N}\left({I}_{\mathrm{i}\mathrm{n}}\right) $

(1)

其中：$ M $和$ N $分别是输入图像的长和宽；$ C $为通道数。

如图 3所示，编码器部分包含4个下采样卷积块，每个下采样卷积块包括2个$ 3\times 3 $卷积层、2个归一化层(Batch Normalization，BN)和1个池化层。

	Download: JPG larger image
图 3 下采样卷积块 Fig. 3 Down-sampled convolution block

将图像$ {I}_{\mathrm{i}\mathrm{n}} $输入到下采样卷积块中(4次)，通过下采样过程分别得到4个特征图$ {F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{i}\in {\mathbb{R}}^{{M}^{i}\times {N}^{i}\times {C}^{i}} $，其中，$ i\in \left\{\mathrm{1, 2}, \mathrm{3, 4}\right\} $，分别代表经过4次下采样后的顺序。特征图如式(2)所示：

$ \begin{array}{l}{F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{i}=\\ \mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\mathrm{B}\mathrm{N}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{B}\mathrm{N}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left({F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{i-1}\right)\right)\right)\right)\right)\end{array} $

(2)

每次经过下采样块后，特征图的维度都会降低一半，在改进U-Net网络的底部，将高维语义特征reshape输入到基于Transformer的高维语义特征编码模块。高维特征的感受野更大，含有更丰富的语义信息。将特征图$ {F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{4} $进行重组得到高维语义特征$ {F}_{t}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $，经过基于Transformer的高维语义编码模块得到修正特征$ {F}_{t}^{\text{'}}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $，同样经过重组后得到$ {F}_{t}^{″}\in {\mathbb{R}}^{{M}^{4}\times {N}^{4}\times {C}^{4}} $，再输入到4个上采样卷积块中。如图 4所示，每个上采样卷积块包括2个卷积层、2个BN层和1个最大池化层。

	Download: JPG larger image
图 4 上采样卷积块 Fig. 4 Up-sampled convolution block

上采样过程得到4个特征图$ {F}_{\mathrm{u}\mathrm{p}}^{i}\in {\mathbb{R}}^{{M}^{i}\times {N}^{i}\times {C}^{i}} $，其中，$ i\in \left\{\mathrm{1, 2}, \mathrm{3, 4}\right\} $，分别代表 4次上采样的顺序。每一次上采样都与其对应的下采样特征“跨连接”组合，从而传递低维语义信息，弥补下采样造成的信息丢失，如式(3)所示：

$ \begin{array}{l}{F}_{\mathrm{u}\mathrm{p}}^{i}=\\ \mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\mathrm{i}\mathrm{n}\mathrm{g}\left(\mathrm{B}\mathrm{N}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{B}\mathrm{N}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left( \oplus \left({F}_{\mathrm{u}\mathrm{p}}^{i-1}, {F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{i-1}\right)\right)\right)\right)\right)\right)\end{array} $

(3)

其中：$ \oplus $表示按通道组合操作。最终经过类激活层输出分割结果，如式(4)所示，其中卷积层的卷积核大小为$ 1\times 1 $。

$ {I}_{\mathrm{o}\mathrm{u}\mathrm{t}}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left( \oplus \left({F}_{\mathrm{u}\mathrm{p}}^{4}+{F}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}^{1}\right)\right)\right) $

(4)

2.2 基于Transformer的高维语义特征编码模块

Transformer是一种基于序列的模型，因此，在经过4次下采样后，需要将高维语义特征$ {F}_{\mathrm{u}\mathrm{p}}^{4}\in {\mathbb{R}}^{{M}^{4}\times {N}^{4}\times {C}^{4}} $重组得到$ {F}_{t}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $。输入$ {F}_{t} $到基于Transformer的高维语义特征编码模块，其结构如图 5所示。

	Download: JPG larger image
图 5 基于Transformer的高维语义特征编码模块结构 Fig. 5 High-level semantic feature encode module structure based on Transformer

基于Transformer的高维语义特征编码模块包含若干个子模块。在本文中，特征序列$ {F}_{t}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $按通道数切分，由于卷积和注意力计算没有位置信息，为了保留图像序列的位置信息，需要对特征进行位置编码，位置编码函数如式(5)、式(6)所示：

$ \mathrm{P}{\mathrm{E}}_{(l, 2i)}=\mathrm{s}\mathrm{i}\mathrm{n}\left(\frac{1}{10{000}^{2i/d}}\right) $

(5)

$ \mathrm{P}{\mathrm{E}}_{(l, 2i+1)}=\mathrm{c}\mathrm{o}\mathrm{s}\left(\frac{1}{10{000}^{(2i+1)/d}}\right) $

(6)

其中：$ l $为索引；$ d $为总维度；$ i\in {\mathbb{R}}^{{C}^{4}} $为通道数切分后的特征序列编号，当编号为偶数时采用式(5)编码，当编号为奇数时采用式(6)编码。

在本文中，位置编码与输入序列直接相加，如式(7)所示：

$ {Z}_{0}={\boldsymbol{X}}_{i}+\mathrm{P}{\mathrm{E}}_{(l, i)} $

(7)

其中：$ {\boldsymbol{X}}_{i} $为特征序列$ {F}_{t}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $按通道数切分后的特征向量；$ {Z}_{0}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $为加入位置编码后的特征；$ \mathrm{P}{\mathrm{E}}_{(l, i)}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $为计算得到的位置编码。

随后，$ {Z}_{0} $被输入到多头注意力模块，多次计算注意力后加权求和，计算方法如式(8)、式(9)所示：

$ {Z}_{i}^{\text{'}}=\mathrm{M}\mathrm{S}\mathrm{A}\left(\mathrm{L}\mathrm{N}\left({Z}_{i-1}\right)\right)+{Z}_{i-1} $

(8)

$ {Z}_{i}=\mathrm{M}\mathrm{L}\mathrm{P}\left(\mathrm{L}\mathrm{N}\left({Z}_{i}^{\text{'}}\right)\right)+{Z}_{i}^{\text{'}} $

(9)

$ \mathrm{L}\mathrm{N}\left(\cdot \right) $表示对单层神经网络的输入数据进行求和以及归一化，如式(10)所示：

$ \mathrm{L}\mathrm{N}\left(X\right)=\frac{X-E\left[X\right]}{\sqrt{\mathrm{V}\mathrm{a}\mathrm{r}\left[X\right]+\varepsilon }}\cdot \gamma +\beta $

(10)

其中：$ X $为单层神经网络中一个神经元的数值；$ E\left[X\right] $为所有神经元的均值；$ \mathrm{V}\mathrm{a}\mathrm{r}\left[X\right] $为方差；$ \varepsilon $为极小值；$ \gamma $、$ \beta $为超参数，一般取$ \gamma =1 $，$ \beta =0 $。

$ \mathrm{M}\mathrm{S}\mathrm{A}\left(\cdot \right) $表示多头注意力计算，如式(11)所示：

$ \mathrm{M}\mathrm{S}\mathrm{A}\left(X\right)=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}{\mathrm{t}}_{i=1}^{i=h}\left(\mathrm{S}\mathrm{A}\left({W}_{i}^{Q}X, {W}_{i}^{K}X, {W}_{i}^{V}X\right)\right){W}_{i}^{O} $

(11)

其中：$ {W}^{O} $为输出层的权重；$ \mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}{\mathrm{t}}_{i=1}^{i=h} $为Concatenation操作，表示直接聚合$ h $个输出结果。$ \mathrm{S}\mathrm{A}\left(\cdot \right) $表示单头注意力计算，如式(12)所示：

$ \mathrm{S}\mathrm{A}\left(X\right)=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{{W}_{i}^{Q}X\cdot {\left({W}_{i}^{K}X\right)}^{\mathrm{T}}}{\sqrt{{d}_{k}}}\right){W}_{i}^{V}X $

(12)

其中：$ \sqrt{{d}_{k}} $为缩放因子，用于调整方差的范围；$ {W}_{i}^{Q} $、$ {W}_{i}^{K} $、$ {W}_{i}^{V} $为注意力计算权重。$ \mathrm{M}\mathrm{L}\mathrm{P}\left({X}_{d}\right) $表示多层感知机的前馈计算，当输入为$ {X}_{d} $时，输入维度为$ d $，经过一个线性层和一个激活层升维到$ 4d $，再经过一个线性层降维到$ d $，如式(13)所示：

$ \mathrm{M}\mathrm{L}\mathrm{P}\left({X}_{d}\right)={W}_{4d}^{d}\cdot \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left({W}_{d}^{4d}{X}_{d}\right) $

(13)

本文将Transformer模块作为编码器融合到U-Net网络中，从而提升模型对高维语义信息的理解能力。取Transformer编码器最后一层的输出结果作为修正特征$ {F}_{t}^{\text{'}}\in {\mathbb{R}}^{\left({M}^{4}\times {N}^{4}\right)\times {C}^{4}} $，重组后输入上采样模块。

2.3 基于二维高斯核权重掩膜的损失函数

一般分割网络常用的损失函数为戴斯相关损失，用于评价2个样本分布之间的相似性。戴斯相关损失越小，代表 2个样本分布越接近，其计算方法如式(14)所示：

$ {L}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=1-\frac{2\left|X\bigcap Y\right|+\varepsilon }{\left|X\right|+\left|Y\right|+\varepsilon } $

(14)

其中：$ X $和$ Y $分别表示真值样本和预测值样本；$ \varepsilon $为极小值，用来防止分子或分母为0；$ X\bigcap Y $表示取两者的交集。为了便于计算，$ X\bigcap Y $一般取预测为真阳的样本，计算方法如式(15)所示：

$ X\bigcap Y=\sum\limits _{i=1}^{N}{t}_{i}{y}_{i} $

(15)

其中：$ {t}_{i} $表示第$ i $个样本的真值；$ {y}_{i} $表示第$ i $个样本的预测值。针对本文的分割任务，真值和预测值的取值范围均为$ \left[\mathrm{0, 1}\right] $。

对于人脑黑质致密部分割而言，其边缘部位往往更难判断，中心位置判别相对容易，然而实验结果却是中心部位往往会分割出不连续的片段，这是因为黑质致密部像素占比过小，模型多次下采样后容易丢失形态信息。为了进一步加强模型对特定区域的学习能力，避免分割出不连续的片段，本文设计一种基于二维高斯核权重掩膜的损失函数。

考虑到待分割目标位置分布的特殊性，对于真值标签图像，首先利用搜索连通图分离出两小块人脑黑质致密部标签，分别利用一阶中心矩计算样本的2个区域中心，如式(16)、式(17)所示：

$ {M}_{i, j}=\sum\limits_{x, y}P\left(x, y\right)\cdot {x}^{j}\cdot {y}^{i} $

(16)

$ \stackrel{-}{x}=\frac{{M}_{\mathrm{1, 0}}}{{M}_{\mathrm{0, 0}}}, \stackrel{-}{y}=\frac{{M}_{\mathrm{0, 1}}}{{M}_{\mathrm{0, 0}}} $

(17)

其中：$ P\left(x, y\right)\in \left\{\mathrm{0, 1}\right\} $表示图像坐标为$ \left(x, y\right) $的像素值；$ \left(\stackrel{-}{x}, \stackrel{-}{y}\right) $表示重心的坐标位置。

利用二维高斯核函数映射得到权重掩膜$ {W}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}}(x, y)\in {\mathbb{R}}^{M\times N\times 1} $，计算方法如式(18)所示：

$ {W}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}}(x, y)={\mathrm{e}}^{-\left({\left(x-\overline{x}\right)}^{2}+{\left(y-\overline{y}\right)}^{2}\right)/2{\sigma }^{2}} $

(18)

其中：$ \sigma =\mathrm{m}\mathrm{a}{\mathrm{x}}_{i, j}^{M, N}\left(\sqrt{{\left(x-\stackrel{-}{x}\right)}^{2}+{\left(y-\stackrel{-}{y}\right)}^{2}}\right) $表示标签图像边缘与质点之间距离的最大值。

基于二维高斯核函数的权重掩膜可以使模型更加关注特定位置的预测损失，有利于模型学习到更重要的信息。本文计算得出二维高斯核函数权重掩膜结果如图 6所示，图 6(a)~图 6(c)分别是人脑核磁共振成像图、真值标签以及基于标签生成的高斯核权重掩膜。

	Download: JPG larger image
图 6 二维高斯核权重掩膜 Fig. 6 2D Gaussian kernel weight mask

为了加强模型对中心部位的识别能力，对这一部分的识别损失函数进行线性加权增强。改进均方误差(Mean-Square Error，MSE)损失，进行特定位置的加权，得到的损失函数如式(19)所示：

$ {L}_{g}=\frac{1}{M\times N}\sum\limits_{i=1, j=1}^{M, N}{W}_{\mathrm{m}\mathrm{a}\mathrm{s}\mathrm{k}}{\left(P\left(x, y\right)-\widehat{P}\left(x, y\right)\right)}^{2} $

(19)

其中：$ \widehat{P}\left(x, y\right)\in \left[\mathrm{0, 1}\right] $表示图像坐标为$ \left(x, y\right) $的预测结果。

最终得到损失函数如式(20)所示，$ \lambda \in \left[\mathrm{0, 1}\right] $为超参数，代表二维高斯核函数掩膜损失的权重，本文取$ \lambda =1 $，并在3.3.2节的消融实验中测试模型结果对多任务损失函数权重$ \lambda $变化的敏感程度。

$ L={L}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}+\lambda {L}_{g} $

(20)

3 实验结果与分析

为了验证基于改进U-Net的人脑黑质致密部识别模型的分割效果，收集并处理人脑MRI标准数据集，以戴斯相关系数作为评价标准，分析分割算法的性能，同时验证本文基于Transformer的编码器以及基于二维高斯核权重掩膜的损失函数的性能表现。

3.1 数据集与评价标准

本次实验共收集188个志愿者(140个帕金森病患者和48个健康对照者)的脑核磁共振成像，其中每个成像数据含有100~300张不等的横截面切片，数据采集基于复旦大学附属华山医院放射科平台，所有磁共振检查图像均使用配备8通道头部基质线圈的3.0-T扫描仪(型号为discoveryery TM MR750，GE Healthcare)获得，采用3D多梯度回波(GRE)成像，利用前3组幅值图像重建出可以对黑质致密部清晰显示的setMag图像^[27]，并由一名具有8年神经放射学经验的放射科医生标注相应的黑质致密部标签。在本文中，全量数据集被随机分为训练集(152位，随机训练集与随机验证集比例为4∶1)和测试集(36位)。

对本文实验结果分别采用戴斯相关系数(Dice similarity coefficient，Dsc)、准确率(Accuracy，Acc)、特异度(Specificity，Spe)、灵敏度(Sensitivity，Sen)以及ROC曲线下面积(Area Under the Curve，AUC)作为评价标准，前4个评价指标的计算方法如式(21)~式(24)所示，所有评价指标均采用平均值。

$ {D}_{\mathrm{D}\mathrm{s}\mathrm{c}}=\frac{2\left|X\bigcap Y\right|}{\left|X\right|+\left|Y\right|} $

(21)

$ {A}_{\mathrm{A}\mathrm{c}\mathrm{c}}=\frac{{T}_{\mathrm{T}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}+{F}_{\mathrm{F}\mathrm{N}}} $

(22)

$ {S}_{\mathrm{S}\mathrm{p}\mathrm{e}}=\frac{{T}_{\mathrm{T}\mathrm{N}}}{{T}_{\mathrm{T}\mathrm{N}}+{F}_{\mathrm{F}\mathrm{P}}} $

(23)

$ {S}_{\mathrm{S}\mathrm{e}\mathrm{n}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(24)

其中：$ X $和$ Y $分别表示真值样本和预测值样本；$ X\bigcap Y $表示取两者的交集；$ {T}_{\mathrm{T}\mathrm{P}} $表示被正确识别为黑质致密部的像素；$ {T}_{\mathrm{T}\mathrm{N}} $表示被正确识别为人脑背景的像素；$ {F}_{\mathrm{F}\mathrm{P}} $表示被错误识别为黑质致密部的像素；$ {F}_{\mathrm{F}\mathrm{N}} $表示被错误识别为人脑背景的像素。

3.2 实验环境与超参数配置

本文实验环境设置如表 1所示，实验超参数配置如表 2所示。

下载CSV 表 1 实验环境设置 Table 1 Experimental environment settings

下载CSV 表 2 实验超参数配置 Table 2 Experiment super parameters configuration

实验过程如下：对所有核磁共振图像切片的中心位置进行图像裁剪，获得采样大小为1×128×128像素的图像块，使用重复拼接的方法将一幅图像扩展为3通道，即大小为3×128×128像素的图片块，不使用任何数据增强手段，采用极大极小归一化将像素值映射到[0, 1]之间。在3.3.1节实验中，多任务损失函数权重$ \lambda $均设置为1。

3.3 结果分析 3.3.1 与其他方法的对比

表 3所示为华山医院帕金森数据集上的分割结果，最优结果加粗表示，对比方法包括U-Net^[7]、R2U-Net^[9]、Attention U-Net^[10]、HANet^[17]。从表 3可以看出，本文分割方法在多个评价指标上均取得了最优的分割结果，其中，戴斯相关系数Dsc达到0.869 1，准确率Acc达到0.999 2。由于分割目标较小，在图片中的像素点占比较小，因此多个方法的准确率Acc均在较高水平。本文方法所得结果的特异度最高，达到0.888 3，说明本文方法能够避免外围噪声的影响，防止识别出假阴样本。综合来看，本文方法的AUC达到0.943 9，为最高水平。

下载CSV 表 3 不同方法的人脑SNpc分割性能对比 Table 3 Comparison of brain SNpc segmentation performance of different methods

从表 4可以看出，在模型参数量方面，本文方法相比U-Net方法并未增加太多参数，说明本文方法在模型参数量更小的情况下各项性能指标表现良好，有利于计算机辅助诊断系统的实际应用。

下载CSV 表 4 模型参数量大小比较 Table 4 Model parameter size comparison

3.3.2 消融实验

表 5所示为本文模型在华山医院帕金森数据集上的消融实验结果，包括“U-Net”分割结果、“U-Net+改进损失”分割结果、“U-Net+改进编码器”分割结果以及“U-Net+改进损失+改进编码器”分割结果。

下载CSV 表 5 消融实验结果 Table 5 Results of ablation experiment

从表 5可以看出，本文改进编码器和改进损失能够有效提升分割精度，其中，改进损失函数的提升效果最大，戴斯相关系数达到0.869 1，AUC达到0.943 9，说明通过多任务学习，模型可以在一定程度上消除背景噪声的影响。单独改进编码器的结果提升不明显，但是在结合改进损失后达到了最优，这是因为训练集数量有限，基于Transformer的编码器虽然提高了对高维语义特征的理解能力，但是同时增加了模型参数，容易导致模型过拟合，在训练中结合改进损失函数可以缓解模型过拟合，使模型更加关注目标区域的损失。综合来看，“U-Net+改进损失+改进编码器”的分割效果最好。

表 6所示为本文模型在华山医院帕金森数据集上的多任务损失函数权重$ \lambda $超参数实验结果，目的是测试改进后的多任务损失函数权重$ \lambda $对模型分割精度的影响，$ \lambda $分别取0.1、0.2、0.5、0.8、1.0。实验结果表明，适当的辅助任务权重有利于提高分割精度，当$ \lambda $取1.0时在验证集上的分割精度更高，同时实验也表明，模型对辅助任务权重超参数的鲁棒性较好，并没有因为$ \lambda $取值的变化导致结果大幅波动。

下载CSV 表 6 超参数$ \boldsymbol{\lambda } $敏感性测试结果 Table 6 Hyperparametric $ \boldsymbol{\lambda } $ sensitivity test results

3.3.3 可视化效果

图 7展示部分人脑黑质致密部的分割结果，相比于常用的医学影像分割方法，本文方法取得了更优的分割效果。在解决分割中出现不连续片段的问题方面，本文方法能够捕捉到边缘和整体结构的相关性，识别出疑似区域内的更多目标，降低假阴性，从而提升分割精度。此外，各个模型对人脑黑质致密部的边缘部分分割仍不够精确，原因是目标边缘与背景的类间差异较小，且这一部分的人脑组织结构更加复杂，分割难度较大。后续可通过扩充样本数据集、加入数据增强方法、改进预处理手段、融合边缘检测后处理等多种方式进行改进。

	Download: JPG larger image
图 7 SNpc分割结果 Fig. 7 Segmentation results of SNpc

4 结束语

人脑黑质致密部的大小对帕金森疾病诊断具有一定的指导意义，针对人脑黑质致密部分割，本文提出一种基于改进U-Net的分割方法。优化传统全卷积模块U-Net的结构，在保留U-Net对低维图像信息提取能力的基础上，融合基于Transformer的编码器模块，用于处理高维语义特征。针对分割结果中出现的不连续片段，设计一种基于二维高斯核权重掩膜的损失函数，利用其对特定区域的信息增强能力使得模型在训练过程中更加关注黑质区域的损失变化。实验结果表明，该方法能够提高人脑黑质致密部的分割精度，有效缓解模型过拟合问题，同时降低假阴性，减少人脑致密部分割结果中出现的不连续片段。下一步将面向临床应用，通过融合分割所得的人脑致密部语义信息，结合人脑核磁共振图像及患者临床信息进行帕金森疾病分级诊断，设计计算机辅助诊断算法，最终形成可供医生临床使用的软件系统，为帕金森疾病的早期精准筛查及诊断提供便利。

参考文献

[1]	WANG N, LIU X L, LI L, et al. Screening for early-stage Parkinson's disease: swallow tail sign on MRI susceptibility map-weighted images compared with PET[J]. Journal of Magnetic Resonance Imaging: JMRI, 2021, 53(3): 722-730.
[2]	成涛, 黄小华, 匡静, 等. SBM在中枢神经系统中的研究进展[J]. 国际医学放射学杂志, 2020, 43(1): 35-40. CHENG T, HUANG X H, KUANG J, et al. Research progress of surface-based morphometry in the central nervous system[J]. International Journal of Medical Radiology, 2020, 43(1): 35-40. (in Chinese)
[3]	LIU X, WANG N, CHEN C, et al. Swallow tail sign on Susceptibility Map-Weighted Imaging(SMWI) for disease diagnosing and severity evaluating in Parkinsonism[J]. Acta Radiologica, 2021, 62(2): 234-242.
[4]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 3431-3440.
[5]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]// Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[6]	LANGLEY J, HUDDLESTON D E, LIU C J, et al. Reproducibility of locus coeruleus and substantia nigra imaging with neuromelanin sensitive MRI[J]. Magnetic Resonance Materials in Physics, Biology and Medicine, 2017, 30(2): 121-125.
[7]	TAKAHASHI H, WATANABE Y, TANAKA H, et al. Comprehensive MRI quantification of the substantia nigra pars compacta in Parkinson's disease[J]. European Journal of Radiology, 2018, 109: 48-56.
[8]	TAKAHASHI H, WATANABE Y, TANAKA H, et al. Quantifying the severity of Parkinson disease by use of dopaminergic neuroimaging[J]. AJR American Journal of Roentgenology, 2019, 213(1): 163-168.
[9]	ALOM M Z, HASAN M, YAKOPCIC C, et al. Recurrent residual convolutional neural network based on U-Net (R2U-Net) for medical image segmentation[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1802.06955.
[10]	OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1804.03999.
[11]	MATEEN M, WEN J H, NASRULLAH N, et al. Exudate detection for diabetic retinopathy using pretrained convolutional neural networks[J]. Complexity, 2020, 15: 1-11.
[12]	亢洁, 丁菊敏, 万永, 等. 基于分水岭修正与U-Net的肝脏图像分割算法[J]. 计算机工程, 2020, 46(1): 255-261, 270. KANG J, DING J M, WAN Y, et al. Liver image segmentation algorithm based on watershed correction and U-Net[J]. Computer Engineering, 2020, 46(1): 255-261, 270. (in Chinese)
[13]	TAKIKAWA T, ACUNA D, JAMPANI V, et al. Gated-SCNN: gated shape CNNs for semantic segmentation[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2020: 5228-5237.
[14]	梅旭璋, 江红, 孙军. 基于密集注意力网络的视网膜血管图像分割[J]. 计算机工程, 2020, 46(3): 267-272, 279. MEI X Z, JIANG H, SUN J. Retinal vessel image segmentation based on dense attention network[J]. Computer Engineering, 2020, 46(3): 267-272, 279. (in Chinese)
[15]	郝华颖, 赵昆, 苏攀, 等. 一种基于改进ResU-Net的角膜神经分割算法[J]. 计算机工程, 2021, 47(1): 217-223. HAO H Y, ZHAO K, SU P, et al. A corneal nerve segmentation algorithm based on improved ResU-Net[J]. Computer Engineering, 2021, 47(1): 217-223. (in Chinese)
[16]	王磐, 强彦, 杨晓棠, 等. 基于双注意力3D-UNet的肺结节分割网络模型[J]. 计算机工程, 2021, 47(2): 307-313. WANG P, QIANG Y, YANG X T, et al. Network model for lung nodule segmentation based on double attention 3D-UNet[J]. Computer Engineering, 2021, 47(2): 307-313. (in Chinese)
[17]	DING F, YANG G, WU J, et al. High-order attention networks for medical image segmentation[C]// Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2020: 253-262.
[18]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2021-10-05]. https://arxiv.org/abs/1706.03762.
[19]	DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. [2021-10-05]. https://arxiv.org/pdf/2010.11929.pdf.
[20]	LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2021: 9992-10002.
[21]	DAI X Y, CHEN Y P, YANG J W, et al. Dynamic DETR: end-to-end object detection with dynamic attention[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2021: 2968-2977.
[22]	SUN Z Q, CAO S C, YANG Y M, et al. Rethinking Transformer-based set prediction for object detection[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2021: 3591-3600.
[23]	WANG W, CHEN C, DING M, et al. TransBTS: multimodal brain tumor segmentation using Transformer[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2021: 109-119.
[24]	ZHENG S X, LU J C, ZHAO H S, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 6877-6886.
[25]	CAO J W, JIANG L L, HOU J L, et al. Exploiting deep cross-slice features from CT images for multi-class pneumonia classification[C]//Proceedings of IEEE International Conference on Image Processing. Washington D. C., USA: IEEE Press, 2021: 205-209.
[26]	YANG S Y, JIANG L Q, CAO Z Q, et al. Deep learning for detecting corona virus disease 2019 (COVID-19) on high-resolution computed tomography: a pilot study[J]. Annals of Translational Medicine, 2020, 8(7): 450.
[27]	LIU X L, YANG L Q, LIU F T, et al. Short-echo-time magnitude image derived from quantitative susceptibility mapping could resemble neuromelanin-sensitive MRI image in substantia nigra[J]. BMC Neurology, 2020, 20(1): 262.