开放科学(资源服务)标志码(OSID):
图像分割是指将图像分成若干具有相似性质区域的过程。传统的分割方法包括阈值分割、边缘检测、聚类、遗传算法、区域生长分割法、深度学习等[1]。医学影像分割[2-3]作为医学影像分析的核心任务,需要有经验的医生对脏器、病灶进行精准分割。当图像存在多个目标物体时,深度学习分割多个目标就变成了语义解析的任务。在当前医学影像分割中,语义目标识别的主要任务是对主要骨结构(肋骨、椎骨、头骨等)、主要器官(肺部、心脏、肝脏等)以及一些解剖标记点(如肝脏顶部、主动脉弓)进行识别、配准和分割,采用深度学习进行医学影像分割时,需要区分病灶或器官。但是医学影像分割所需较高的分割精度和稳定性,不正确或不稳定的分割将会直接影响后续计算,从而失去分割意义。
全卷积网络(Fully Convolutional Network,FCN)[4]通过将深层网络的全连接层改为卷积层,从而保存分割的位置信息,分割结果取决于池化层输出的上采样倍数,分割精度与分割后语义信息呈负相关。文献[5]提出U-Net网络将跨越连接原理应用于分割问题,利用底层信息补充高层信息,有效提高分割精度。在心脏和大血管分割的问题上[6],稠密连接的卷积网络(DenseNet)[7]将任意两层网络连接起来,以最大程度地保存网络信息流和梯度流,降低参数量的同时也解决了梯度消失问题。
FCN、U-Net以及各种分割网络都基于卷积神经网络(Convolutional Neural Network,CNN)[8],而CNN本身存在着一定的弊端。CNN采用卷积-池化方式并不会保存特征相对于整体的空间依赖关系,即存在同变性和不变性问题,CNN对旋转是没有不变性的。不变性是指目标外观发生平移、旋转、光照等变化但人们依旧能够将其识别出来。这种相对的空间依赖关系对医疗图像识别、分割十分重要,例如,由左肺、右肺与心脏构成的X射线图像,这些图像在显示上相互重叠,并具有较严谨的空间位置关系。CNN利用池化操作不仅导致空间上相对信息丢失,而且有可能直接丢弃相关的信息。
FCN、U-Net等分割网络利用底层信息补充高层信息的方法解决CNN存在的问题。另一种方法是研究人员对数据进行处理,例如在训练数据集中加入旋转的图像,使网络进行学习,从而解决CNN对旋转、平移等不敏感的问题。传统CNN对于单一目标的旋转、平移(例如一幅图片中的眼睛与鼻子互换位置)仍会检测为正常目标。文献[9]提出的胶囊网络是一种在最低层的胶囊(即神经元)上包含目标位置、姿态等信息的神经网络,其能从本质上优化传统CNN。
本文结合U-Net网络与胶囊网络提出一种多标签语义分割网络UCaps,利用高斯混合模型与EM路由算法聚合低层胶囊对高层胶囊的概率推导过程,从而保留低层胶囊的精细度和各特征间位置、姿态的统一性,解决传统分割网络中卷积与池化分割轮廓不清晰的问题。
1 相关工作 1.1 U-Net网络U-Net网络[5]特点是U型的网络结构与跨越连接操作,通过下采样pooling与上采样反卷积操作得到显著特征,同时用跨越连接将前层图与后层图相叠加,尽可能少地丢失图像信息,将信息丢失多而特征明显的层与信息丢失少特征模糊的层叠加,平衡语义信息和图像精度。由于医学图像数据量通常只有几百幅,因此底层特征尤为重要。过多的训练会出现过拟合现象,需要尽量少的数据使其尽快收敛。U-Net网络结构如图 1所示。
![]() |
Download:
|
图 1 U-Net网络结构 Fig. 1 Structure of U-Net network |
U-Net网络作为医学图像分割领域效果较优的网络结构,模型代表有结合DenseNet原理的UNet++[10]、具有嵌套和Dense跨越连接结构的UNet3+[11]等。U-Net网络被证明在小数据集、高精度的医学影像分割中具有相对最优的结构,对构建UCaps网络结构具有启发作用。
1.2 胶囊网络文献[9]使用多维向量代替传统的标量,提出胶囊网络。与CNN相比,胶囊网络通过动态计算权重在每个正向通道上的耦合系数来对每个目标贡献不同的权重值。这种优化的机制即动态路由。胶囊网络与动态路由的基本原理是某一层的胶囊网络通过变换矩阵对更高级胶囊网络的实例化参数进行预测,当动态路由使多个预测都一致时,更高级胶囊网络将会活跃。
动态路由是一种聚类的迭代算法,胶囊网络的输出是对动态路由输入进行聚类的结果。整个动态路由的算法可以用其他聚类算法计算达到更优的效果。
文献[12]通过矩阵与激活值的方式代替向量并作为基础胶囊网络,使用高斯混合模型[13]与EM算法代替原本的动态路由算法,称为EM路由算法。EM路由算法利用聚类方法对胶囊网络进行分组,从而形成低层与高层之间的关系,通过聚类低层胶囊对高层胶囊进行推测,即使用EM路由算法将相应投票非常接近的胶囊网络进行聚类,得到更高一层的胶囊网络。胶囊网络是基于加权的欧氏距离构建高斯混合模型,其中欧氏距离进行聚类的特点在于聚类中心向量是类内向量加权平均。研究人员最早提出,利用向量簇构建胶囊网络,使用向量模长表示特征的显著程度,因此向量不适用于EM路由算法。胶囊结构在改为矩阵时,需要一个标量激活值作为衡量特征显著程度的标准。具有EM路由的胶囊网络结构如图 2所示。
![]() |
Download:
|
图 2 具有EM路由的胶囊网络结构 Fig. 2 Structure of capsule network with EM-Routing |
胶囊网络多用于解决分类问题。胶囊网络之间路由的原理是低级胶囊对高级胶囊形态推测的过程,同样可以应用于解决图像分割问题。文献[9]对两个手写体数字重叠的数据集进行识别,基于动态路由的胶囊网络对重叠数字的识别和分割效果较优。胶囊网络与其路由方法同样适用于图像分割领域。研究人员结合医学影像(例如肺癌筛查[14]、左心室分割[15])与胶囊网络在图像分割领域上取得较优的成果。文献[16]提出SegCaps将胶囊网络应用在二类分割任务中,通过实验对其改进后发现,SegCaps网络架构虽然大幅减少了训练参数,但在多标签分割任务上的准确率大幅下降。
因此,本文研究的重点是将胶囊原理和最适合分割的U型网络架构相结合,并融合全新的胶囊路由,使得胶囊网络在对多标签进行分割时效果较优。
2 UCaps网络结构设计UCaps使用共计14层的网络结构,其中有1个卷积胶囊层,9个EM路由胶囊层,3个上采样胶囊层,1个分类胶囊层。整体网络结构取自U-Net网络[5]。
UCaps网络结构如图 3所示,由下采样(左侧)和上采样(右侧)组成。UCaps网络结构的第1层使用卷积胶囊层,输入的图像卷积为包含[4, 4]的姿态矩阵和1个标量激活值的多个胶囊。
![]() |
Download:
|
图 3 UCaps网络结构 Fig. 3 Structure of UCaps network |
UCaps网络将胶囊网络输入EM胶囊层,胶囊网络进行深度可分离卷积,并将展开的胶囊网络乘视角不变的变换矩阵W得到投票矩阵V,最后通过EM算法[17]计算高层胶囊网络的输出姿态矩阵和激活值,并将结果保存在skip中用于准备后面跨越连接操作。在每个下采样步骤,UCaps网络使用与传统胶囊网络[18]相同结构,逐步抽象其特征,使得胶囊网络获取更高级的语义信息。下采样胶囊为3层,过大的层数会导致计算参数量太大,过少的层数使得模型缺少足够的表达能力。上采样胶囊层类似U-Net网络中上采样的过程。跨越连接操作在第4维度将skip胶囊与输出胶囊进行拼接,即将Caps层输出添加进DeCaps层的channel中。这种做法与U-Net网络上的通道拼接类似,形成更多的胶囊层,缺点在于使用concat操作比较占用显存,优点是融合多尺度维度信息。拼接后的胶囊层融合了同尺度的输出和上一层胶囊表达的信息。这样的连接贯穿整个网络,通过3次拼接使得UCaps网络同时保留低层胶囊的特征信息与高层胶囊的信息。上采样胶囊层与下采样对应,同样为3层。UCaps网络经过3个上采样层与胶囊层将结果输入分类胶囊层,分类胶囊层主要按照分割的种类将对应胶囊输出进行分类操作,输出每个胶囊所代表的图片像素对应的分割标签类别并预测投票值,进而得到整幅图的分割预测结果。
EM路由算法使用高斯分布进行聚类,利用高斯模型对高层胶囊的姿态矩阵进行建模。姿态矩阵为[4, 4],即使用16μ和σ的高斯模型。μ用于估算激活胶囊成本,成本越低越有可能激活高级胶囊。
2.1 上采样胶囊层本文在胶囊层基础上设计上采样算法作为上采样胶囊层。上采样胶囊层示意图如图 4所示。
![]() |
Download:
|
图 4 上采样胶囊层示意图 Fig. 4 Schematic diagram of up-sampling capsule layers |
上采样层过程如式(1)所示:
\begin{array}{l}{R}_{ij}=\left\{\begin{array}{l}0, i=2m-1, j=2n-1, \\ {x}_{mn}, i=2m, j=2n\end{array}\right.\\ \;\;\;\;n\in \left[1, \mathit{\boldsymbol{W}}\right], m\in \left[1, H\right]\end{array} | (1) |
将
\left\{\begin{array}{l}{R}_{ij}\leftarrow {R}_{ij}\times {a}_{i}^{\mathrm{a}\mathrm{c}\mathrm{t}}\\ {r}_{ij}\leftarrow \frac{{R}_{ij}}{\sum \limits_{i}{R}_{ij}}\\ {M}_{j}={\mu }_{j}\leftarrow \sum \limits_{i}{r}_{ij}{V}_{ij}\\ {\sigma }_{j}^{2}\leftarrow \sum \limits_{i}{r}_{ij}({V}_{ij}-{\mu }_{j}{)}_{}^{2}\\ {p}_{ij}=P\left({C}_{i}\right|{C}_{j})\leftarrow N({V}_{ij};{\mu }_{j}, {\sigma }_{j}^{2})\\ {c}_{j}^{\mathrm{c}\mathrm{o}\mathrm{s}\mathrm{t}}=\sum \limits_{i}-{r}_{ij}\mathrm{l}\mathrm{n}\left({p}_{ij}\right)\\ {a}_{j}^{\mathrm{a}\mathrm{c}\mathrm{t}}=\mathrm{l}\mathrm{o}\mathrm{g}\mathrm{i}\mathrm{s}\mathrm{t}\mathrm{i}\mathrm{c}\left(\lambda \left({\beta }_{\alpha }-({\beta }_{\mu }+\sum \limits_{l=1}^{d}\mathrm{l}\mathrm{n}{\sigma }_{j}^{l})\sum \limits_{i}{r}_{ij}\right)\right)\end{array}\right. | (2) |
期望E步骤的计算如式(3)所示:
{R}_{ij}\leftarrow \frac{{a}_{j}^{\mathrm{a}\mathrm{c}\mathrm{t}}{p}_{ij}}{\sum \limits_{j}{a}_{j}^{\mathrm{a}\mathrm{c}\mathrm{t}}{p}_{ij}} | (3) |
上采样胶囊层使用如下公式作为损失函数:
{L}_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}=\frac{1}{L\times W}\sum \limits_{j=1}^{L}\sum \limits_{k=1}^{W}\sum \limits_{i\ne t}^{}\left(\mathrm{m}\mathrm{a}\mathrm{x}\right(0, \mathrm{m}\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{i}\mathrm{n}-({a}_{jkt}^{\mathrm{a}\mathrm{c}\mathrm{t}}-{a}_{jki}^{\mathrm{a}\mathrm{c}\mathrm{t}}{\left)\right))}_{}^{2} |
margin值随着训练次数增加而增大(本文实验取0.2~0.9)。
高斯混合模型将数据点聚类为混合高斯分布,EM(期望最大化)路由的目的是使用聚类技术将胶囊分组形成一个部分-整体关系。文献[12]指出,高层胶囊表示其上一层低层胶囊的高斯分布期望,通过高斯混合模型拟合其最小化的损失函数。同层间不同的高斯混合模型反映了相同低层胶囊对不同高层胶囊的倾向性,即高斯混合模型集中了高层胶囊中的低层信息。EM路由通过训练视角不变的变换矩阵W,使得高层胶囊不仅包含低层胶囊的特征,同时保留低层胶囊间的位置信息,即使图片发生旋转,仍然能将相同位置关系的低层胶囊进行聚类。
3 实验 3.1 数据集与预处理数据集使用的是日本放射技术学会(Japanese Society of Radiological Technology,JSRT)数据库[19]。该数据库由JSRT与日本放射学会(JRS)合作创建的有无胸肺结节的标准数字图像构成。数据库共有154张有结节与94张没有结节的图像。图像分辨率为2 048像素×2 048像素,像素尺寸为0.175 mm。标签图像来自文献[20]中对JSRT数据集进行手动标注的肺部、心脏和锁骨的标签图,将图像压缩为128像素×128像素,并进行数据集拓展。数据集随机进行角度偏移、水平或竖直移动、缩放,拓展至2 726张。数据集图像与标签如图 5所示。
![]() |
Download:
|
图 5 数据集图像与标签 Fig. 5 Image and label of dataset |
本文使用设备CPU为4核32 GB内存,GPU使用Tesla-V100-SXM-32GB。实验环境Tensorflow 1.13.1+cuda10.0+cudnn7.4.5。
本文网络分别与以下基准网络进行实验对比:1)U-Net网络[5],使用CNN卷积操作的U-Net网络,线性上采样过程取代反卷积层,并用交叉熵评估损失;2)SegCaps网络[16],将两种类别分割的SegCaps分割网络改进为多标签分割,并使用weighted softmax损失函数进行评估;3)MatVec-Caps网络[21],使用MatVec-CapsNet网络进行多标签分割,MatVec-CapsNet采用双路由方法;4)UCaps-Dynamic Routing网络,使用文献[9]提出的Dynamic Routing的路由方法设计UCaps网络。
本文将UCaps网络与以上4种网络进行对比,从CNN与胶囊、多标签分割与单标签分割、EM路由与动态路由3个角度进行实验对比,评估UCaps网络的性能。
3.3 实验结果分析UCaps在数据训练后快速收敛,无论训练集还是测试集损失分布合理,并未出现欠拟合或过拟合现象。UCaps对左右肺原始图片中突出的部分进行分割的精度高,左右锁骨次之,而在心脏部分的分割准确率约为87%。心脏在图像中的位置相对不固定,其形状结构差异性较大,难以对其进行精确分割。随着训练迭代次数增多,UCaps在测试集上心脏部分的分割准确度有显著提高。UCaps网络在测试集上分割结果如图 6所示,图 6(a)和图 6(c)的底色为原始图像,图 6(b)和图 6(d)的底色为标签图。
![]() |
Download:
|
图 6 UCaps网络的分割结果 Fig. 6 Segmentation results of UCaps network |
U-Net、SegCaps、MaVec-Caps、UCaps网络的分割准确率对比如表 1所示。从表 1可以看出,所有网络在心脏分割部分上的识别率均低于90%。这可能与训练时间不足有关。本文实验的目的是在有限的数据集和迭代的情况下获得更快的收敛速度和更高的准确率。由于心脏在这5个分类标签中变化最大、形状最多,因此对本文的实验结果造成了一定的影响。SegCaps网络主要解决二分类分割问题,本文将其简单修改为解决多标签分割问题。修改后的SegCaps网络仅分割左右肺部和心脏,在相同迭代次数下对特征的识别性能较低。SegCaps网络简化了路由算法,减少了参数量,能分割更大图片的同时降低了特征的识别精度。UCaps网络的平均分割准确率为93.21%,优于其他网络。不同网络的分割结果对比如图 7所示。
![]() |
下载CSV 表 1 不同网络的分割准确率对比 Table 1 Segmentation accuracy comparison among different networks |
![]() |
Download:
|
图 7 不同网络的分割结果对比 Fig. 7 Segmentation results comparison among different networks |
在4 000次训练下,不同网络的测试结果对比如图 8所示。在训练初期,几种网络模型都快速收敛,但在将每个分割部位进行准确度测算时,由于左右锁骨部分与双肺重叠,因此无法定位。双肺分割精度收敛快,因心脏在图像中的位置关系不准确,导致分割精度较低。与其他网络相比,使用EM路由的UCaps网络能在较短时间内通过位置关系定位锁骨与心脏,在训练前期具有较优的表现。当使用像素为单位整体评价准确率时,几种网络测试准确率差距不明显,但对分割后的各部位单独进行对比时,UCaps网络表现十分优异。UCaps的胶囊网络[21]结构保证各部分间的位置形态关系,此外,EM路由与高斯聚类算法则保证UCaps在很少的数据集中具有更优的表现。
![]() |
Download:
|
图 8 4 000次训练后不同网络的测试结果对比 Fig. 8 Test results comparison among different networks after 4 000 trainings |
在不同训练次数下不同网络的右肺和右锁骨分割准确率对比如表 2与表 3所示。从表 2和表 3可以看出,在训练初期各网络的右肺分割准确率较高,但在训练初期不同网络对右锁骨分割时的准确率差距较大。结合EM路由的UCaps网络收敛速度远快于其他网络模型。
![]() |
下载CSV 表 2 不同网络的右肺分割准确率对比 Table 2 Segmentation accuracy of right lung comparison among different networks |
![]() |
下载CSV 表 3 不同网络的右锁骨分割准确率对比 Table 3 Segmentation accuracy of right clavicle comparison among different networks |
本文提出多标签语义分割网络UCaps,通过设计适用于胶囊网络的上采样胶囊算法,补充高层胶囊与低层胶囊的特征信息。在此基础上,将高斯混合模型与EM路由算法相结合,聚合底层特征对高层特征的推导过程。实验结果表明,相比U-Net、SegCaps、MaVec-Caps网络,UCaps网络具有较快的收敛速度和较高的分割精度,在边缘轮廓上的分割结果更清晰。后续将在图像分割领域中通过使用金字塔结构、引入注意力机制等方法,优化胶囊网络参数,进一步提高胶囊网络解决不变性与同变性问题的能力。
[1] |
王秋萍, 张志祥, 朱旭芳. 图像分割方法综述[J]. 信息记录材料, 2019, 20(7): 12-14. WANG Q P, ZHANG Z X, ZHU X F. Comprehensive summary of image segmentation[J]. Information Recording Materials, 2019, 20(7): 12-14. (in Chinese) |
[2] |
林瑶, 田捷. 医学图像分割方法综述[J]. 模式识别与人工智能, 2002, 15(2): 192-204. LIN Y, TIAN J. Survey of medical image segmentation method[J]. Pattern Recognition and Artificial Intelligence, 2002, 15(2): 192-204. (in Chinese) |
[3] |
ZHOU K. Medical image recognition, segmentation and parsing[M]. Cambridge, USA: Academic Press, 2015.
|
[4] |
王囡, 侯志强, 赵梦琦, 等. 结合边缘检测的语义分割算法[J]. 计算机工程, 2021, 47(7): 257-265. WAGN N, HOU Z Q, ZHAO M Q, et al. Semantic segmentation algorithm combined with edge detection[J]. Computer Engineering, 2021, 47(7): 257-265. (in Chinese) |
[5] |
RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
|
[6] |
KHENED M, ALEX V, KRISHNAMURTHI G. Densely connected fully convolutional network for short-axis cardiac cine MR image segmentation and heart diagnosis using random forest[C]//Proceedings of the 8th International Workshop on Statistical Atlases and Computational Models of the Heart. Berlin, Germany: Springer, 2018: 1-10.
|
[7] |
HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 4700-4708.
|
[8] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386 |
[9] |
SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 3856-3866.
|
[10] |
ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation[C]//Proceedings of International Workshop on Deep Learning in Medical Image Analysis. Berlin, Germany: Springer, 2018: 3-11.
|
[11] |
HUANG H, LIN L, TONG R, et al. UNet 3+: a full-scale connected unet for medical image segmentation[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2020: 1055-1059.
|
[12] |
SABOUR S, FROSST N, HINTON G. Matrix capsules with EM routing[C]//Proceedings of the 6th International Conference on Learning Representations. Vancouver, BC, Canada: [s. n.], 2018: 1-15.
|
[13] |
GIRI D, ACHARYA U R, MARTIS R J, et al. Automated diagnosis of coronary artery disease affected patients using LDA, PCA, ICA and discrete wavelet transform[J]. Knowledge-Based Systems, 2013, 37: 274-282. DOI:10.1016/j.knosys.2012.08.011 |
[14] |
MOBINY A, NGUYEN H V. Fast capsnet for lung cancer screening[EB/OL]. [2020-10-14]. https://arxiv.org/pdf/1806.07416.pdf.
|
[15] |
HE Y, QIN W, WU Y, et al. Automatic left ventricle segmentation from cardiac magnetic resonance images using a capsule network[J]. Journal of X-Ray Science and Technology, 2020, 28(3): 1-13. |
[16] |
LALONDE R, BAGCI U. Capsules for object segmentation[EB/OL]. [2020-10-12]. https://arxiv.org/abs/1804.04241v1.
|
[17] |
JORDAN M, JACOBS R. Hierarchical mixtures of experts and the EM algorithm[J]. Neural Computation, 1994, 6(2): 181-214. DOI:10.1162/neco.1994.6.2.181 |
[18] |
PATRICK M K, ADEKOYA A F, MIGHTY A A, et al. Capsule networks-a survey[EB/OL]. [2020-10-15]. https://www.sciencedirect.com/science/article/pii/S1319157819309322.
|
[19] |
SHIRAISHI J, KATSURAGAWA S, IKEZOE J, et al. Development of a digital image database for chest radiographs with and without a lung nodule: receiver operating characteristic analysis of radiologists' detection of pulmonary nodules[J]. American Journal of Roentgenology, 2000, 174(1): 71-74. DOI:10.2214/ajr.174.1.1740071 |
[20] |
GINNEKEN B V, STEGMANN M B, LOOG M. Segmentation of anatomical structures in chest radiographs using supervised methods: a comparative study on a public database[J]. Medical Image Analysis, 2006, 10(1): 19-40. DOI:10.1016/j.media.2005.02.002 |
[21] |
BONHEUR S, ŠTERN D, PAYER C, et al. Matwo-capsnet: a multi-label semantic segmentation capsules network[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2019: 664-672.
|