基于内卷U-Net的医学图像分割模型

引用本文

林志洁, 郑秋岚, 梁涌, 等. 基于内卷U-Net的医学图像分割模型[J]. 计算机工程, 2022, 48(8), 180-186. DOI: 10.19678/j.issn.1000-3428.0062023.

LIN Zhijie, ZHENG Qiulan, LIANG Yong, et al. Medical Image Segmentation Model Based on Involution U-Net[J]. Computer Engineering, 2022, 48(8), 180-186. DOI: 10.19678/j.issn.1000-3428.0062023.

基金项目

浙江省公益基础项目（LGF19HO90025）；浙江省医药卫生项目（2018KY037）

作者简介

林志洁（1980—），男，副教授、博士，主研方向为图像处理;
郑秋岚，硕士;
梁涌，高级政工师;
邢卫，副教授、博士

文章历史

收稿日期：2021-07-08
修回日期：2021-10-11

Contents Abstract Full text Figures/Tables PDF

基于内卷U-Net的医学图像分割模型

林志洁¹ , 郑秋岚² , 梁涌³ , 邢卫⁴

1. 浙江科技学院信息与电子工程学院, 杭州 310018;
2. 杭州医学院食品科学与工程学院, 杭州 310013;
3. 丽水市第二人民医院精神病科, 浙江丽水 323000;
4. 浙江大学计算机科学与技术学院, 杭州 310027

收稿日期：2021-07-08；修回日期：2021-10-11

基金项目：浙江省公益基础项目（LGF19HO90025）；浙江省医药卫生项目（2018KY037）

作者简介：林志洁（1980—），男，副教授、博士，主研方向为图像处理; 郑秋岚，硕士; 梁涌，高级政工师; 邢卫，副教授、博士.

E-mail: wxing@zju.edu.cn

摘要：图像分割技术的主要对象为自然图像和医学图像，相对于自然图像而言，医学图像的语义分割通常需要较高的精度以进行下一步的临床分析、诊断和规划治疗。目前用于医学图像语义分割的深度神经网络模型由于仅考虑位置的平移不变性，存在局部感受野较小、无法表达长范围依赖关系的问题。设计一种面向医学图像的分割模型，基于内卷U-Net网络，使用内卷操作代替传统的卷积操作，并将内卷结构作为基本的网络结构，提升模型对医学图像局部特征的学习能力。在模型的瓶颈层引入注意力机制模块来学习图像长范围的依赖关系，以提高医学图像语义分割的精度。在肺部CT数据集上的实验结果表明，该模型的Dice系数为0.998，较基于卷积神经网络的分割模型约提高5%，并且大幅缩短Hausdorff距离，具有更高的分割准确度以及较好的稳健性。

Medical Image Segmentation Model Based on Involution U-Net

LIN Zhijie¹ , ZHENG Qiulan² , LIANG Yong³ , XING Wei⁴

1. School of Information and Electronic Engineering, College of Science and Technology of Zhejiang, Hangzhou 310018, China;
2. School of Food Science and Engineering, Hangzhou Medical College, Hangzhou 310013, China;
3. Psychiatry Department, Lishui Second People's Hospital, Lishui, Zhejiang 323000, China;
4. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China

Abstract: The main objects of image segmentation technology are natural images and medical images. Compared with that of natural images, semantic segmentation of medical images usually requires high accuracy for the subsequent steps of clinical analysis, diagnosis, and treatment planning. At present, the depth neural network model used to semantically segment medical images only considers the translation invariance of position, which features an insufficiently large local receptive field, leaving no way to express long-range dependence. Therefore, medical image segmentation model is proposed in this paper. Based on the Involution U-Net network, the involution operation replaces the traditional convolution operation, and the involution structure is adopted as the basic network structure to tailor the model's learning ability to the local features of medical images. To improve the model's learning ability, Besides, the attention mechanism module is introduced into the bottleneck layer to learn the long-range dependency of images. Experimental results on the lung CT dataset show that the model's Dice coefficient is 0.998, which is approximately 5% higher than that of the current segmentation model based on a convolutional neural network. In addition, this model greatly cuts the Hausdorff distance, apart from achieving higher segmentation accuracy and better robustness.

开放科学(资源服务)标志码(OSID)：

0 概述

图像分割的目的是以有意义的方式划分图像，以便对对象进行定位、区分和估量，其主要的应用对象包括自然图像和医学图像。在医学领域，图像语义分割对于进一步的临床分析、诊断、规划治疗和估量病情至关重要。相对于自然图像而言，医学图像的语义分割通常需要较高的精度^[1]。近年来，基于深度卷积神经网络的医学图像语义分割技术^[2]例如MRI、CT、X射线等已被开发用于各种形式的医学图像^[3]，其克服了传统分割模型的局限性，且显示出较好的应用效果^[4]。在卷积神经网络模型的训练过程中，该技术的参数通过基于损失函数计算梯度的方法来优化，使用损失函数进行预测图像和真实图像的对比^[5]。尽管深度神经网络模型在进行医学图像语义分割方面取得了一定进展^[6]，但采用的卷积操作通常仅考虑位置的平移不变性^[7]，局部感受野较小，导致没有办法表达长范围的依赖关系。

本文设计一种新的内卷U-Net医学图像分割模型，使用内卷操作代替卷积操作，并将其作为基本的网络结构，从而有效提升医学图像语义分割的精度。通过采用注意力机制模块有效学习医学图像中长范围的依赖关系，并在有监督的生物医学分割场景下评估本文模型，证明所提模型的有效性。

1 相关工作 1.1 传统分割模型

近年来，研究人员提出不同的医学图像语义分割模型，例如阈值处理、边缘检测、聚类、区域增长、活动轮廓模型（Active Contour Model，ACM）等。阈值、区域生长等早期模型能够实现医学图像的语义分割，但由于这2种模型仅使用图像强度或纹理信息的性质，语义分割的性能受到较大的限制^[8]。ACM模型在医学语义分割方面表现出较好的性能，经典模型有无边缘活动轮廓（Active Contour Without Edge，ACWE）模型^[9]、Mumford Shah模型^[10]等。在Chan和Vese的语义分割模型中引入水平集函数来形成分割模型，将其视为通过求解偏微分方程（Partial Differential Equations，PDE）求解的能量最小化问题。后来，分割模型被应用于处理多相问题和纹理问题^[11]。诸如双投影和图切割模型的高效求解器被用于提升计算效率^[12]，这些经典模型^[13]的共同缺点是时间消耗过长。此外，基于特征提取、神经网络或支持向量机的有监督分割模型也显示出合理的结果。然而，这些模型基于分割的手工特征，其结果取决于研究人员的技能和经验，适用性和结果质量有待提高。活动轮廓模型由于具有良好的性能，被本文所采用。

1.2 基于卷积神经网络的分割模型

作为一类深度神经网络，卷积神经网络在分类、分割、配准等计算机视觉任务中表现出卓越的性能。基于卷积神经网络的模型的一个特殊优势是它们能以端到端的方式工作，可以在学习过程中提取分层和多分辨率功能。Alex-Net^[14]，VGG-Net^[15]，GoogleNet^[16]、Involution-Net^[17]等卷积神经网络架构已被开发并引入到各种图像识别任务中。从广义上讲，基于卷积神经网络的分割模型可以分为基于像素或基于图像的模型。在通常情况下，基于像素的模型把每个像素（或超像素）生成像素块，将像素块作为卷积神经网络模型的输入，并用于分类，其中像素的标签被作为训练模型的目标^[18]。LI等^[19]提出一个新的有效框架，将边界估计作为一个渲染任务，可以识别模糊点，通过丰富的特征表示学习来校准边界预测，引入逐点对比学习来提高同一类点的相似度，并对比降低不同类点的相似度，改善美国图像的边界估计。FERNANDO等^[20]开发一种算法来模拟术前MR图像的切除，构建了一个新的数据集EPISURG，在训练过程中对人工切除的图像进行三维卷积神经网络训练。EPISURG数据集包含431名接受切除手术的患者的431张术后和269张术前MR图像。DING等^[21]提出一种新的跨模态图像分割框架，其中图像配准和标签融合均由深度神经网络实现，并针对图像配准提出一种一致性配准网络，能够联合估计前向和后向密集位移场。

研究证明，引入不同的损失函数能够在训练过程中提高U-Net的性能^[22]。文献[23]通过在分割损失函数中引入形状感知项，提高颈部X射线图像的性能。在损失函数方面，本文采用目前最新的医学语义分割的损失函数，该函数通过借鉴传统模型，显著提高了分割性能^[24]。

1.3 活动轮廓模型

ACM模型将分割视为能量最小化问题^[25]，其中活动样条或轮廓的能量通过基于PDE的模型最小化到对象的边界。经典的ACM模型通过图像渐变来检测对象的边界，然而，这一模型有一个主要限制，它将被卡在局部最小值，因此无法获得令人满意的分割结果。近年来，研究人员提出诸多ACM模型，例如BRESSON等^[26]提出的ACWE模型和基于快速全局最小化的活动轮廓模型（Fast Global Minimization Active Contour Model，FGM-ACM）。

ACWE模型可以表述为如式（1）所示的能量最小化问题^[25]：

$ \begin{array}{l}\mathrm{m}\mathrm{i}{\mathrm{n}}_{{\varOmega }_{c}, {c}_{1}, {c}_{2}}\left\{{E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}}\left({\varOmega }_{c}, {c}_{1}, {c}_{2}, \lambda \right)={\int }_{0}^{\mathrm{L}\mathrm{e}\mathrm{n}\mathrm{g}\mathrm{t}\mathrm{h}\left(C\right)}\mathrm{d}s\right.+\\ \lambda {\int }_{\varOmega }{\left({c}_{1}-f\left(x\right)\right)}^{2}\mathrm{d}x\left.+\lambda {\int }_{\varOmega /{\varOmega }_{c}}{\left({c}_{2}-f\left(x\right)\right)}^{2}\mathrm{d}x\right\}\end{array} $

(1)

其中：s是长度的欧几里得元素，式（1）右边的第1项是曲线C的长度；f是要分割的图像；$ {\varOmega }_{c} $是图像f域的闭合子集$ \varOmega $；外部和内部的f平均值分别表示为$ {c}_{1} $和$ {c}_{2} $；$ \lambda $是一个任意固定参数（$ \lambda $ > 0），用于控制正则化过程和$ {c}_{1} $、$ {c}_{2} $之间的平衡；能量$ {E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $为包括轮廓长度DC和CE损失函数的能量，通过改进损失函数，可以增加更多的约束。

为提高语义分割的效果，引入水平集和PDE的Heaviside函数来降低能量$ {E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $。$ {E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $的表达式如式（2）所示：

$ {E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}}\left({\varOmega }_{c}, {c}_{1}, {c}_{2}, \lambda \right)={\int }_{\varOmega }\left|\nabla {H}_{ϵ}\left(\phi \right)\right|\mathrm{d}x+\left. \\ \lambda {\int }_{\varOmega }{H}_{ϵ}\left(\phi \right){\left({c}_{1}-f\left(x\right)\right)}^{2}\mathrm{d}x\right\}+\left. \\ \lambda {\int }_{\varOmega /{\varOmega }_{c}}{H}_{ϵ}(-\phi ){\left({c}_{2}-f\left(x\right)\right)}^{2}\mathrm{d}x\right\} $

(2)

其中：$ {H}_{ϵ} $是Heaviside函数的平滑近似值。最小化$ {E}_{1}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $的梯度下降法定义^[25]如式（3）所示：

$ {\partial }_{t}\phi ={H}_{ϵ}^{\mathrm{\text{'}}}\left(\phi \right)\left\{\mathrm{d}\mathrm{i}\mathrm{v}\left(\frac{\nabla \phi }{|\nabla \phi |}\right)-\lambda {r}_{1}\left(x, {c}_{1}, {c}_{2}\right)\right\} \\ {r}_{1}\left(x, {c}_{1}, {c}_{2}\right)={\left({c}_{1}-f\left(x\right)\right)}^{2}-{\left({c}_{2}-f\left(x\right)\right)}^{2} $

(3)

然而，包括ACWE在内的基于PDE的解决方案需要在每个单独的图像上计算，比较耗时，因此即使效果良好，但是ACWE不太适合在需要快速得到结果的临床环境下应用。

为实现快速稳定的全局最小化，提出基于总变化能量TV的$ {E}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $^[26]，表达式如式（4）和式（5）所示：

$ {E}_{2}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}}\left(u, {c}_{1}, {c}_{2}, \lambda \right)= \mathrm{T}{\mathrm{V}}_{g}\left(u\right)+\lambda {\int }_{\varOmega }{r}_{1}\left(x, {c}_{1}, {c}_{2}\right)u\mathrm{d}x $

(4)

$ {E}_{2}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}}\left(u, {c}_{1}, {c}_{2}, \lambda \right)={\int }_{0}^{\mathrm{L}\mathrm{e}\mathrm{n}\mathrm{g}\mathrm{t}\mathrm{h}\left(C\right)}g\left|\nabla u\right|\mathrm{d}s $

(5)

其中：u是一个介于0~1之间的特征函数；$ {E}_{2}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $为ACWE模型提供了全局最小值。此外，由于受到基于Heaviside功能和基于PDE解决方案的ACWE模型先前版本的限制，因此基于总变化能量TV的$ {E}^{\mathrm{A}\mathrm{C}\mathrm{W}\mathrm{E}} $提供了快速且非固定的解决方案，且u被限制为0或1。ACME模型执行分割任务的这种最小化问题能够应用于深度学习领域，且该模型的有些参数可以被固定学习所固定，有些参数可以被视为可训练参数，能够以端到端的学习方式评估该最小化方程。

1.4 损失函数

在训练卷积神经网络模型中，损失函数（或成本函数）起重要作用。损失函数是用于测量预测或分割误差的函数，可以反向传播到先前层以便更新或优化权重。常用的损失函数及相关表征指标如下：

1）Dice系数（Dice Core，DC）：DC通常被用作评估分割性能的度量，现在也可以作为损失函数性能的表征指标^[25]。DC能够测量参考和分割之间的重叠程度。该元素测量范围为0~1，当DC为1时，表示完美且完全重叠。DC可以定义为：

$ \mathrm{D}\mathrm{C}(T, P)=2\times \frac{\sum\limits_{n=1}^{N}（{T}_{n}\times {P}_{n}）}{\sum\limits_{n=1}^{N}（{T}_{n}+{P}_{n}）} $

(6)

其中：$ T $为真实图像（或专家注释）；P为预测（或分割）图像，$ T\in {\left[\mathrm{0, 1}\right]}^{m\times n}\mathrm{、}P\in {\left[\mathrm{0, 1}\right]}^{m\times n} $；n为索引图像空间N中的每个像素值。

DC系数主要用于提高医学图像的语义分割性能，表达式如式（7）所示：

$ \mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{D}\mathrm{C}}(T, P)=1-\mathrm{D}\mathrm{C}(T, P) $

(7)

虽然CE和DC损失函数在图像分割中均取得了不错的效果，但主要被用于测量T和P之间相似性的像素损失函数，且不考虑几何信息^[25]。

2）交叉熵（Cross Entropy，CE）损失函数：CE是一种被广泛使用的逐像素测量模型^[2]，用于评估分类或分割模型的性能。CE损失函数可以表示为二值交叉熵损失函数，如式（8）所示：

$ \begin{array}{l}\mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{B}\mathrm{C}\mathrm{E}}(T, P)=-\\ \frac{1}{N}\sum\limits_{n=1}^{N}\left[{T}_{n}\times \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left({P}_{n}\right)+\left(1-{T}_{n}\right)\times \mathrm{l}\mathrm{o}{\mathrm{g}}_{a}\left(1-{P}_{n}\right)\right]\end{array} $

(8)

CE损失函数将softmax层的输出视为像素分类问题以评估每个像素。文献[2]指出，为提高生物医学图像细胞边界分割的性能，采用加权方案的CE损失函数可以作为U-Net模型细胞边界尽可能准确的解决方案之一。此外，目前有诸多基于CE的损失函数研究，但仅有少数函数考虑了对象的几何细节^[25]。

2 基于内卷神经网络的分割模型

本文采用传统U-Net的网络宏观架构，在网络架构的内部引入密集的网络块，并在网络块的内部采用内卷操作。具体的网络架构如图 1所示，其中下半部分的内卷结构来自文献[24]，在2.2节将介绍所采用的卷积神经网络架构。

	Download: JPG larger image
图 1 本文网络的架构 Fig. 1 Rchitecture of network in this paper

2.1 AC损失函数

采用活动轮廓损耗的目的是在ACWE模型的最小化问题中找到活动轮廓，从而使自动图像分割的活动轮廓能量全局最小化^[25]。本文采用文献[25]的损失函数，该损失函数能够提供较好的医学图像语义分割性能。损失函数的表达式如下^[25]：

$ \mathrm{L}\mathrm{o}\mathrm{s}{\mathrm{s}}_{\mathrm{A}\mathrm{C}}={L}_{\mathrm{L}\mathrm{e}\mathrm{n}\mathrm{g}\mathrm{t}\mathrm{h}}+\lambda \times {R}_{\mathrm{R}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{n}} $

(9)

$ {L}_{\mathrm{L}\mathrm{e}\mathrm{n}\mathrm{g}\mathrm{t}\mathrm{h}}={\int }_{C}|\nabla u|\mathrm{d}s $

(10)

$ {R}_{\mathrm{R}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{n}}={\int }_{\varOmega }\left({\left({c}_{1}-v\right)}^{2}-{\left({c}_{2}-v\right)}^{2}\right)u\mathrm{d}x $

(11)

式（10）和式（11）的长度和面积均可写成像素方式，如下：

$ {L}_{\mathrm{L}\mathrm{e}\mathrm{n}\mathrm{g}\mathrm{t}\mathrm{h}}=\sum\limits_{\varOmega }^{i=1, j=1}\sqrt[]{\left|{\left(\nabla {u}_{{x}_{i, j}}\right)}^{2}+{\left(\nabla {u}_{{y}_{i, j}}\right)}^{2}\right|+\varepsilon } $

(12)

其中：$ {u}_{{x}_{i, j}} $和$ {u}_{{y}_{i, j}} $的中x和y分别表示水平和垂直方向。$ \varepsilon (\varepsilon > 0) $是一个在实践中避免平方根为$ 0 $的参数^[25]。

$ {R}_{\mathrm{R}\mathrm{e}\mathrm{g}\mathrm{i}\mathrm{o}\mathrm{n}}=\left|\sum\limits_{\varOmega }^{i=1, j=1}{u}_{i, j}{\left({c}_{1}-{v}_{i, j}\right)}^{2}\right|+\left|\sum\limits_{\varOmega }^{i=1, j=1}\left(1-{u}_{i, j}\right){\left({c}_{2}-{v}_{i, j}\right)}^{2}\right| $

(13)

在ACWE模型中，$ {c}_{1} $和$ {c}_{2} $是可变的，定义如下：

$ \left\{\begin{array}{l}{c}_{1}=\int v\times u\mathrm{d}x/\int u\mathrm{d}x\\ {c}_{2}=\int v\times (1-u)\mathrm{d}x/\int (1-u)\mathrm{d}x\end{array}\right. $

(14)

其中：在监督学习框架中，$ {c}_{1} $和$ {c}_{2} $分别表示为内部（前景）和外部（背景）的能量，可以简单地预先定义为c₁$ =1 $、$ {c}_{2}=0 $；u和v分别表示为预测图像和给定图像。

2.2 基于内卷的神经网络架构

在本小节中，将使用U-Net和密集的U-Net架构作为本文的基本分割框架，并评估所提损失函数的性能。

目前，U-Net被广泛使用，它是一种端到端的编码器-解码器神经网络，能够用于语义分割，可以获得高精度的结果。U-Net神经网络的跳跃连接，被应用于将特征映射从下采样路径转发到上采样路径，以定位高分辨率特征，从而生成分割输出。对于U-Net的主要架构，在下采样路径中，每层由2个3×3的卷积层、1个ReLU单元和1个最大池化层组成。在上采样路径中，每个步骤包括1个2×2上卷积层和1个串联操作。U-Net网络模型容易出现梯度消失问题。为解决该问题，本文提出基于内卷^[24]密集块的U-Net，即Involution-Net，其中密集块允许每层直接连接其他层以保持前馈性质，来自网络的参数和提取的特征更有效，且能得到重用。在本文网络框架中引入密集的块层，该块层类似于文献[25]提出的额密集，区别在于密集块内部采用了内卷、向下转换和向上转换操作，密集块层由批量归一化（Batch Normalization，BN）、ReLU单元和卷积组成，并密集连接在一起。密集块的输出是上述3个模块层输出的串联。在下采样路径中，密集块共38层。瓶颈和上采样路径分别为16层和40层，密集网络共120层。本文网络的结构和文献[25]的网络结构类似，不同的是本文网络采用了内卷操作代替卷积操作。

如文献[24]所述，卷积神经网络的空间不可知性和空间紧凑性在提高效率、解释翻译等价性方面有意义，但它剥夺了卷积核适应不同空间位置、不同视觉模式的能力。此外，卷积神经网络的局部性限制了卷积的感受野，给单次捕获远距离空间交互带来了挑战。在许多成功的深层神经网络中，卷积滤波器内部的通道间存在较严重的冗余情况，降低了不同通道的灵活性。为此，文献[24]提出内卷操作，它与卷积具有对称相反的固有特性，即空间特异性和通道不可知性，是网络结构的重要组成部分。具体地说，对合核在空间范围上不同，但在通道之间共享。由于对合核的空间特性，如果将对合核参数转化为卷积核等固定大小的矩阵，并使用反向传播算法进行更新，则学习到的对合核将无法在不同分辨率的输入图像之间传输。在处理可变特征分辨率时，可以仅根据相应位置本身的传入特征向量生成属于特定空间位置的对合核，这是一种直观而有效的实例化。此外，通过在通道维度上共享对合核可以减少核的冗余。综合上述2个因素，对内卷运算的计算复杂度与特征通道的数量成线性关系，在此基础上，允许动态参数化对内卷核在空间维度上进行广泛覆盖。

由于卷积神经网络通常仅考虑位置的平移不变性，局部感受野较小，导致没有办法表达长范围的依赖关系。本文设计的U-Net网络相对于传统的网络而言没有采用3×3的卷积核，而采用内卷的网络结构。对内卷核H_i，j∈$ \mathbb{R} $^k×k×1（为便于演示，本例中G=1）是由（i，j）处单个像素条件下的函数φ产生。对内卷的乘加运算分为2步，N表示乘法，L表示在k×k空间邻域内聚集的总和。

在U-Net的瓶颈层加入来自文献[27]的注意力机制模块。图 2所示为引入注意力机制模块的架构，注意力机制模块的引入能够在降低计算复杂性的同时提取积极的上下文信息。

	Download: JPG larger image
图 2 引入注意力机制的架构 Fig. 2 Architecture for introducing attention mechanism

描述注意力机制模块引入流程的表达式如下所示：

$ \boldsymbol{Q}=\theta \left(\boldsymbol{X}\right), \boldsymbol{V}=g\left(\boldsymbol{X}\right), \boldsymbol{K}=S\left(\boldsymbol{Q}\right) $

(15)

$ \boldsymbol{A}=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{{\boldsymbol{K}}^{\mathrm{T}}\boldsymbol{K}}{C}\right) $

(16)

$ \boldsymbol{Y}=\boldsymbol{V} \times \boldsymbol{A} $

(17)

$\mathrm{其}\mathrm{中}：\boldsymbol{Q}\in {\mathbb{R}}^{\boldsymbol{N}\times \boldsymbol{C}} \text{；} \boldsymbol{K}\in {\mathbb{R}}^{\boldsymbol{K}\times \boldsymbol{C}}\text{；}\boldsymbol{A}\in {\mathbb{R}}^{c\times \boldsymbol{C}}\text{；}\boldsymbol{X}\in {\mathbb{R}}^{\boldsymbol{N}\times \boldsymbol{C}} \text{；} \boldsymbol{Y}\in {\mathbb{R}}^{\boldsymbol{N}\times \boldsymbol{C}} 。$

特征图首先经过2个二维卷积层形成查询矩阵Q和值V矩阵，然后矩阵Q被传递给显著位置并选择模块，该模块的输出将是查询矩阵中前k个显著位置。注意力机制模块使用从前k个位置选择的数据来计算亲和矩阵A。在聚合过程中，将通过使矩阵V与矩阵A相乘，得到输出矩阵Y，并将该输出矩阵重构为C×H×W。矩阵Y经过1×1卷积变换后，将最终被添加到输入X中。图 2中的SPS模块主要用以选择显著的位置选择，具体算法可以参考文献[27]。

3 实验结果与分析

使用U-Net和内卷U-Net（Involution-Net）作为两级分割网络架构，并分别在使用不同损失函数时对比模型的分割性能。

3.1 数据集

在肺部CT数据集中测试了本文模型，该数据集由各种人群的3 000张肺部CT数据构成。在实验中，数据集被划分为3个子集，包括2 200张训练集，300张验证集和500张测试集。

3.2 性能指标

选择Hausdorff距离（Hausdorff Distance，HD）指标评估分割准确度，HD是2个轮廓间距离的对称度量，HD的值越小，说明准确度越高，HD的表达式^[28]如式（18）所示：

$ {D}_{\mathrm{H}}(T, P)=\\ \mathrm{m}\mathrm{a}\mathrm{x}\left\{\mathrm{s}\mathrm{u}{\mathrm{p}}_{t\in T}\mathrm{i}\mathrm{n}{\mathrm{f}}_{p\in P}d(T, P), \mathrm{s}\mathrm{u}{\mathrm{p}}_{p\in P}\mathrm{i}\mathrm{n}{\mathrm{f}}_{t\in T}d(T, P)\right\} $

(18)

其中：t和p代表T和P的像素；$ {D}_{\mathrm{H}} $是t和p之间的欧几里德距离。

4 实验结果

本文使用Tensorflow_gpu 1.40来实现网络模型，利用ADAM优化器训练模型直到收敛，图 3所示为本文模型分割肺部CT的分割结果示例。由图 3可知，本文模型能够将肺部出现的异常区域较精准地分割出来。

	Download: JPG larger image
图 3 本文模型的分割结果示例 Fig. 3 Segmentation result example of model in this paper

4.1 不同损失函数对模型性能的影响

表 1所示为当使用CE或AC损失函数时，U-Net和Involution-Net分割肺部CT的结果对比。由表 1可知，与U-Net-CE模型相比，U-Net-AC模型的HD降低了0.80；与Involution-Net-AC模型相比，Involution-Net-AC模型的HD值降低了0.56。因此，使用AC损失函数时，模型具有更高的分割准确度。

下载CSV 表 1 不同模型的对比结果 Table 1 Results comparison with different models

图 4所示为AC和CE损失函数在每个阶段的运行时间。由图 4可知，Involution-Net-AC的总运行时间是30 s，比Involution-Net-CE的总运行时间101 s更短。U-Net-AC的总运行时间是18 s，而U-Net-CE需要19 s。对比可知，使用AC损失函数能够缩短模型的总运行时间。

	Download: JPG larger image
图 4 AC和CE损失函数在每个阶段的运行时间 Fig. 4 Running time of AC and CE loss functions at each stage

综合表 1和图 4的分析结果，本文选用AC损失函数。

4.2 稳健性分析

通过改变正交化权重λ值可以提升模型的性能和稳健性。使用DC指标评估λ值对AC损失函数的影响，已知λ值对基于Involution-Net的模型影响较小，当λ接近0时，模型的分割性能较差，因为只剩下边界项来控制损失函数^[29]。除了采用DC指标来衡量模型的稳健性以外，还可以采用HD指标来衡量模型的稳健性。如表 1所示，使用HD指标评估模型的性能，并将本文模型U-Net-AC和Involution-Net-AC与具有CE损失功能的先进分割模型U-Net和Involution-Net进行对比。从表 1可以看出，与其他模型相比，本文模型的Hausdorff距离值大幅下降。由于Hausdorff距离越小，表示模型的性能越稳健，因此可得本文模型具有良好的稳健性。

表 2所示为不同肺部分割模型的对比，评价指标为Dice系数和偏差指标，Dice系数也能代表模型的分割准确度。在表 2中：偏差列括号中的数值表示模型分割的区域和真实区域之间的差异；N/A表示对应的模型性能不适应采用偏差指标来衡量。从表 2可以看出，本文模型（Involution-Net-AC）具有较高的Dice系数和较低的偏差值，表明本文模型具有较好的分割准确度和稳健性。

下载CSV 表 2 不同肺部分割模型的对比 Table 2 Comparison of different lung segmentation modles

5 结束语

平移不变性和感受野太小是干扰医学图像语义分割的关键因素，本文针对卷积神经网络的固有缺陷，提出使用内卷结构为神经网络的主要结构，并在U-Net的瓶颈层引入注意力模块，从而学习图像内容之间长范围的依赖关系。实验结果表明，与其他经典模型相比，本文模型大幅缩短Hausdorff距离，具有较高的分割准确度以及较好的稳健性。下一步将针对医学图像的特点（如块状结构）设计特殊的注意力机制，以有效学习和理解医学图像，从而提高医学图像的分割质量。

参考文献

[1]	DALCA A V, GUTTAG J, SABUNCU M R. Anatomical priors in convolutional networks for unsupervised biomedical segmentation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 9290-9299.
[2]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[3]	LITJENS G, KOOI T, EHTESHAMI B B, et al. A survey on deep learning in medical image analysis[J]. Medical Image Analysis, 2017, 42: 60-88. DOI:10.1016/j.media.2017.07.005
[4]	GIRSHICK R. Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 1440-1448.
[5]	ZHOU X Y, SHEN M, RIGA C, et al. Focal FCN: towards small object segmentation with limited training data. [EB/OL]. [2021-06-06]. https://arxiv.org/abs/1711.01506v2.
[6]	JÉGOU S, DROZDZAL M, VAZQUEZ D, et al. The one hundred layers tiramisu: fully convolutional DenseNets for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington D. C., USA: IEEE Press, 2017: 1175-1183.
[7]	周岩, 周苑, 王旭辉. 基于有限离散剪切波变换的灰度图像融合[J]. 计算机工程, 2016, 42(12): 222-227. ZHOU Y, ZHOU Y, WANG X H. Grayscale image fusion based on finite discrete shearlet transform[J]. Computer Engineering, 2016, 42(12): 222-227. (in Chinese) DOI:10.3969/j.issn.1000-3428.2016.12.038
[8]	范九伦, 赵凤. 灰度图像的二维Otsu曲线阈值分割法[J]. 电子学报, 2007, 35(4): 751-755. FAN J L, ZHAO F. Two-dimensional Otsu's curve thresholding segmentation method for gray-level images[J]. Acta Electronica Sinica, 2007, 35(4): 751-755. (in Chinese) DOI:10.3321/j.issn:0372-2112.2007.04.029
[9]	CHAN T, VESE L. An active contour model without edges[C]//Proceedings of Conference on Scale-Space Theories in Computer Vision. Berlin, Germany: Springer, 1999: 141-151.
[10]	MUMFORD D, SHAH J. Optimal approximations by piecewise smooth functions and associated variational problems[J]. Communications on Pure and Applied Mathematics, 1989, 42(5): 577-685. DOI:10.1002/cpa.3160420503
[11]	ZHENG Y L, CHEN K. A hierarchical algorithm for multiphase texture image segmentation[J]. ISRN Signal Processing, 2012, 12: 53-62.
[12]	VESE L A, CHAN T F. A multiphase level set framework for image segmentation using the Mumford and shah model[J]. International Journal of Computer Vision, 2002, 50(3): 271-293. DOI:10.1023/A:1020874308076
[13]	MORAR A, MOLDOVEANU F, GRÖLLER E. Image segmentation based on active contours without edges[C]//Proceedings of the 8th International Conference on Intelligent Computer Communication and Processing. Washington D. C., USA: IEEE Press, 2012: 213-220.
[14]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2012, 60: 84-90.
[15]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-06-06]. https://arxiv.org/abs/1409.1556.
[16]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1-9.
[17]	HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2261-2269.
[18]	COUPÉ P, MANJÓN J V, FONOV V, et al. Patch-based segmentation using expert priors: application to hippocampus and ventricle segmentation[J]. NeuroImage, 2011, 54(2): 940-954. DOI:10.1016/j.neuroimage.2010.09.018
[19]	LI H M, YANG X, LIANG J M, et al. Contrastive rendering for ultrasound image segmentation [EB/OL]. [2021-06-06]. https://arxiv.org/abs/2010.04928.
[20]	PÉREZ-GARCÍA F, RODIONOV R, ALIM-MARVASTI A, et al. Simulation of brain resection for cavity segmentation using self-supervised and semi-supervised learning [EB/OL]. [2021-06-06]. https://arxiv.org/abs/2006.15693.
[21]	DING W B, LI L, ZHUANG X H, et al. Cross-modality multi-atlas segmentation using deep neural networks[C]// Proceedings of Medical Image Computing and Computer Assisted Intervention. Berlin, Germany: Springer, 2020: 233-242.
[22]	ALARIFS M M R, KNAPP K, SLABAUGH G. Shape-aware deep convolutional neural network for vertebrae segmentation[C]// Proceedings of Computational Methods and Clinical Applications in Musculoskeletal Imaging. Berlin, Germany: Springer, 2018: 12-24.
[23]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327. DOI:10.1109/TPAMI.2018.2858826
[24]	LI D, HU J, WANG C H, et al. Involution: inverting the inherence of convolution for visual recognition[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 12316-12325.
[25]	CHEN X, WILLIAMS B M, VALLABHANENI S R, et al. Learning active contour models for medical image segmentation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 11624-11632.
[26]	BRESSON X, ESEDOḠLU S, VANDERGHEYNST P, et al. Fast global minimization of the active contour/snake model[J]. Journal of Mathematical Imaging and Vision, 2007, 28(2): 151-167. DOI:10.1007/s10851-007-0002-0
[27]	FANG S, LI K Y, LI Z. Salient positions based attention network for image classification[EB/OL]. [2021-06-06]. https://arxiv.org/abs/2106.04996.
[28]	PEREIRA S, PINTO A, ALVES V, et al. Brain tumor segmentation using convolutional neural networks in MRI images[J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1240-1251. DOI:10.1109/TMI.2016.2538465
[29]	ZHENG Y L, CHEN K. A general model for multiphase texture segmentation and its applications to retinal image analysis[J]. Biomedical Signal Processing and Control, 2013, 8(4): 374-381. DOI:10.1016/j.bspc.2013.02.004
[30]	WOLTERINK J M, LEINER T, VIERGEVER M A, et al. Automatic segmentation and disease classification using cardiac cine MR images [EB/OL]. [2021-06-06]. https://link.springer.com/chapter/10.1007/978-3-319-75541-0_11.
[31]	BAUMGARTNER C F, KOCH L M, POLLEFEYS M, et al. An exploration of 2D and 3D deep learning techniques for cardiac MR image segmentation[EB/OL]. [2021-06-06]. https://www.semanticscholar.org/paper/An-Exploration-of-2D-and-3D-Deep-Learning-for-MR-Baumgartner-Koch/68353b0cfa6cd44b5ff97ce957084b72bc84934c.
[32]	YEONGGUL J, YOONMI H, SEONGMIN H, et al. Automatic segmentation of LV and RV in cardiac MRI[EB/OL]. [2021-06-06]. https://link.springer.com/chapter/10.1007/978-3-319-75541-0_17.
[33]	FABIAN I, PAUL F J, PETER M F, etal. Automatic cardiac disease assessment on cine-mri via time-series segmentation and domain specific features[EB/OL]. [2021-06-06]. https://www.xueshufan.com/publication/2727040849.