2. 河北大学 电子信息工程学院, 河北 保定 071002
2. Department of Electronic Information Engineering, Hebei University, Baoding, Hebei 071002, China
开放科学(资源服务)标志码(OSID):
结直肠癌是威胁人类健康的主要疾病之一[1]。患者应定期接受临床医生的结肠镜检查,及时发现息肉,从而降低结直肠息肉的癌变发生概率[2]。在结肠镜检查中,由于息肉的位置、形状、尺寸不同以及息肉与其周围黏膜之间的边界较模糊,因此对息肉的准确分割面临巨大的挑战。
近年来,卷积神经网络在计算机视觉领域中占据了重要的地位[3-4]。随着对内窥镜图像研究的不断深入,研究人员将深度卷积神经网络作为息肉分割网络模型,并提出改进的息肉分割网络模型。SAFAROV等提出A-DenseUNet[5],以U-Net[6]为基础架构,结合多尺度编码信息与不同空洞率卷积、注意力机制对息肉进行分割。WEI等提出针对息肉分割的浅层注意力网络[7],以提高息肉的分割准确性。刘佳伟等提出一种改进的双U型网络[8],以DoubleU-Net[9]为基础架构,引入注意力机制来提高息肉的分割精度。王亚刚等针对肠道息肉分割提出一种改进DeepLabv3+网络[10],通过优化数据处理阶段和网络结构来提高肠道息肉的检测率。然而,在内窥镜检查过程中,需要较优的方法来分割和检测息肉区域[11]。为提高息肉分割性能,以上这些方法多侧重于构建更复杂的结构,引入大量参数,导致计算量大幅提升,从而影响网络的计算效率。
本文提出全局与局部交互式注意力网络GLIA-Net。将U-Net作为网络架构,在其双层卷积后加入交互式注意力融合模块,并引入注意力机制,以兼顾局部与全局信息,使网络具有空间与通道、局部与全局语义信息的处理能力。结合高效通道注意力(Efficient Channel Attention,ECA)[12]和外部注意力(External Attention,EA)[13]的优点,在保证计算效率的同时提高分割精度。
1 本文算法本文算法流程如图 1所示,将Kvasir数据集(https://datasets.simula.no/kvasir/)分为训练和测试两部分,在训练阶段将数据集划分为训练集与验证集。在训练集中对原始图像进行中心裁剪、归一化等预处理,并将预处理后的图像输入到网络中。其中GLIA-Net中深色模块为双层卷积,浅色模块为GLIA模块,经过GLIA-Net处理后得到的输出结果与标签进行交叉熵损失计算,计算结果用于网络的反向传播,实现对网络的训练。利用验证集筛选出最优网络模型并将模型保存用于测试。在测试集中的数据经过归一化预处理后加载到最优网络模型中,用于损失值、平均交并比和准确率等指标的计算。
![]() |
Download:
|
图 1 本文算法流程 Fig. 1 Procedure of the proposed algorithm |
GLIA-Net网络结构如图 2所示,包括编码和解码部分。其中深色模块为双层卷积,浅色模块为GLIA模块,GLIA模块位于双层卷积之后,并在此结构上添加了残差连接[14],残差连接将经过GLIA模块处理后的特征图与进入双层卷积之前的特征图进行融合。GLIA模块结构如图 2中虚线框所示,主要由高效通道注意力模块和外部注意力模块组成。高效通道注意力模块侧重局部注意力且处理通道方向上特征图的关系,外部注意力模块侧重全局注意力且处理每一个像素点之间关系。该结构融合了高效通道注意力与外部注意力的优势,在实现局部与全局、通道与空间特征图处理的同时减少因引入注意力机制带来的计算量与参数量,在增强网络特征表达能力的基础上保证了模型的计算效率。
![]() |
Download:
|
图 2 GLIA-Net网络结构 Fig. 2 Structure of GLIA-Net network |
高效通道注意力模块是基于SENet[15]的变体结构,ECA模块的结构如图 3所示。相比其他基于SENet的变体,ECA模块的结构更简洁,将全连接替换为一维卷积的操作,减少了注意力计算的参数量,高效快速地提取注意力向量。一维卷积的局部连接形式也为之后的全局注意力计算提供了充分的局部特征信息,有效提升模型的特征表达能力。
![]() |
Download:
|
图 3 高效通道注意力模块结构 Fig. 3 Structure of efficient channel attention module |
输入的特征图经过ECA的全局平均池化后,得到特征图维度
外部注意力模块结构如图 4所示,是自注意力机制的变体。该结构解决了自注意力机制[16]存在的2个问题:1)计算量太大,并且计算复杂度与像素的平方相关联;2)在单个样本内捕获长距离依赖关系,缺乏对不同样本之间潜在关联的考虑。EA通过2个可学习的外部单元将模型的计算复杂度与像素数量由平方关系降低为线性关系,同时2个外部记忆单元对整个数据集共享,使得模型在进行注意力计算的过程中隐式地考虑了不同样本之间的关联关系,实现了不同样本之间数据的交流。
![]() |
Download:
|
图 4 外部注意力模块结构 Fig. 4 Structure of external attention module |
在EA模块中,输入的特征图通过一次卷积进行特征提取后维度为
\boldsymbol{A}=\text{Norm}(\boldsymbol{FM}_{k}^{\text{T}}) | (1) |
{\boldsymbol{F}}_{\mathrm{o}\mathrm{u}\mathrm{t}}=\boldsymbol{A}{\boldsymbol{M}}_{v} | (2) |
其中:
为验证GLIA模块的有效性,本文将实验数据分别输入到U-Net和GLIA-Net中进行处理。U-Net和GLIA-Net特征提取流程如图 5所示(彩色效果见《计算机工程》官网HTML版)。采用CAM[18]对U-Net和GLIA-Net中最后一个卷积层的输出特征图进行处理,得到两组热力图。热力图中红色区域为图像中的正常组织区域,蓝色区域为息肉区域,黄色箭头指向位置为息肉边缘与周围其他组织的临界区域,蓝色箭头指向位置为息肉内部区域。从图 5可以看出,相比U-Net,GLIA-Net处理的特征图经过CAM合成热力图中的冷色区域轮廓与原图上息肉轮廓具有一致性,黄色箭头指向的冷色区域轮廓边界更加清晰准确,说明息肉与周围临界组织区分度大,类间的不一致性得到增强。与此同时,相比原图上息肉轮廓内部区域,U-Net网络对应的热力图中蓝色箭头指向的区域存在明显缺失,像素值强度较低,不能有效识别息肉部分。而GLIA-Net网络对应的热力图中蓝色箭头指向的息肉内部像素值强度高,在息肉内部区域具有较高的识别度,说明息肉内部组织区域的区分度低,类内的一致性得到增强。类间不一致性和类内一致性的增强使得网络输出结果中误分割的像素点减少,以提升网络的分割准确率。
![]() |
Download:
|
图 5 U-Net和GLIA-Net特征提取流程 Fig. 5 Feature extraction procedure of U-Net and GLIA-Net |
从图 5可以看出,本文提出的GLIA模块与残差网络的结合可以使类间不一致性和类内一致性得到有效增强,从而在息肉分割任务中将息肉与其他组织进行明显区分,在保持息肉边缘分割完整的同时减少息肉内部的误分割,进而提升网络的分割性能。
2 实验与结果分析 2.1 数据预处理与实验细节本文实验数据集采用包含胃肠道图像的数据集Kvasir,其中训练集600张,验证集200张,测试集200张。为节约计算成本,本文实验对输入图像进行中心裁剪,图像尺寸为512×512像素。本文实验框架为Pytroch,设置的最大训练轮数为50,采取提前停止训练的策略防止过拟合现象的发生,采用Adam优化方法,初始学习率为0.000 1,并且每隔5轮训练将学习率降低1/2。实验均在Quadro RTX 8000平台上进行训练测试。
2.2 评估指标本文引入RRVD、DDice、IIoU、VVOE、SSP、SSE、PPC、ACC评价指标来评估网络的各项性能。DDice和IIoU用于衡量相似度,DDice∈(0,1),IIoU∈(0,1),DDice和IIoU值越接近1,网络分割性能越好。VVOE与RRVD用于衡量错误率,RRVD越接近0代表分割性能越好。SSP表示特异性,用于衡量网络对非感兴趣区域的正确判断能力,SSE表示敏感度,用于衡量网络对于感兴趣区域的分割性能,PPC表示准确率。评价指标如式(3)~式(9)所示:
{R}_{\mathrm{R}\mathrm{V}\mathrm{D}}=\frac{\left|A\right|-\left|B\right|}{\left|B\right|} | (3) |
{D}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=\frac{2\times \left|A\right|\bigcap \left|B\right|}{\left|A\right|+\left|B\right|} | (4) |
{I}_{\mathrm{I}\mathrm{o}\mathrm{U}}=\frac{\left|A\bigcap B\right|}{\left|A\bigcup B\right|} | (5) |
{V}_{\mathrm{V}\mathrm{O}\mathrm{E}}=2\times \frac{\left|A\right|-\left|B\right|}{\left|A\right|+\left|B\right|} | (6) |
{S}_{\mathrm{S}\mathrm{P}}=\frac{{T}_{\mathrm{T}\mathrm{N}}}{{T}_{\mathrm{T}\mathrm{N}}+{F}_{\mathrm{F}\mathrm{P}}} | (7) |
{S}_{\mathrm{S}\mathrm{E}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} | (8) |
{P}_{\mathrm{P}\mathrm{C}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}} | (9) |
其中:A和B分别表示预测标签图和真实标签图中像素值为1的像素个数;TTP、TTN、FFP与FFN分别表示真阳性、真阴性、假阳性与假阴性。
2.3 消融实验在实验环境相同的情况下,本文对基准网络U-Net、增加EA的UNet-EA和引入GLIA模块的GLIA-Net进行消融实验。本文消融实验结果如表 1所示。从表 1可以看出,UNet-EA网络与基准网络U-Net相比IoU和Dice平均提升5.6%和4.1%,GLIA-Net相比于基准网络U-Net的IoU和Dice平均提升了6.7%和5.1%,由此证明了GLIA模块的有效性。GLIA-Net的IoU和Dice分别为69.4%和80.7%,相比基准网络分别提升6.7%和5.1%,说明GLIA-Net可以有效提升息肉分割的精度。
![]() |
下载CSV 表 1 消融实验结果 Table 1 Ablation experiment results |
为验证本文所提网络的有效性,本文将GLIA-Net与ExfuseNet[19]、SegNet[20]、ResUNet[21]等网络进行对比。不同网络的评价指标对比如表 2所示,本文提出的GLIA-Net具有较优的性能指标。
![]() |
下载CSV 表 2 不同网络的评价指标对比 Table 2 Evaluation indexs comparison among different networks |
图 6所示为不同网络的精确度和收敛速度曲线对比,横轴为网络训练的轮次,纵轴为训练精度。从图 6可以看出,GLIA-Net的精确度最优,且相比其他网络能够更快趋于水平。因此,GLIA-Net在息肉分割精确度和收敛速度均优于其他网络。另外,U-Net被认为是医学图像分割中经典的网络,在本次实验中其参数量为17.27×106,而GLIA-Net的参数量为26.03×106,DeepLabv3+的参数量为54.94×106,ExfuseNet的参数量为86.07×106,SegNet的参数量为29.44×106,R2U-Net的参数量为39.09×106。本文提出的网络在尽量减少参数的情况下提高了网络计算效率且取得了更加显著的分割效果,充分证明了GLIA-Net在息肉分割任务中的优越性。
![]() |
Download:
|
图 6 不同网络的精确度对比 Fig. 6 Precision comparison among different networks |
本文在U-Net网络框架中的双层卷积后添加GLIA模块,在GLIA模块中,高效通道注意力模块是通道方向上特征图关系进行建模,侧重局部注意力,对通道维度上像素之间的关系进行处理。外部注意力模块是对每一个像素点之间的关系进行建模,侧重全局注意力,并处理空间维度上像素之间的关系。在两者结合的基础上,通过添加卷积操作和残差连接,以实现局部与全局,通道与空间的特征图处理。
图 7所示为GLIA-Net、UNet++、UNet3+、Deep Labv3+网络的分割结果对比(彩色效果见《计算机工程》官网HTML版)。图 7中红色区域是网络误分割的像素点。从图 7可以看出,在GLIA-Net对息肉区域进行分割时,无论是息肉边缘还是内部区域,误分割像素点明显少于其他3组网络分割结果,且息肉边缘区域的分割结果相似度更高,息肉内部分割区域更加清晰准确,没有出现缺失现象。对息肉和肿瘤的自动分割在临床诊断中起着重要的作用,GLIA-Net对Kvasir数据集上息肉的自动准确分割避免了手动分割的主观性和差异性,为放射科医生节省大量的时间,给医生对疾病的诊断和治疗提供帮助。
![]() |
Download:
|
图 7 不同网络的分割结果 Fig. 7 Segmentation results of different networks |
本文提出一种用于分割胃肠息肉的网络GLIA-Net,在U-Net编码和解码部分的双层卷积后加入GLIA模块,以捕捉图像中息肉的各种特征信息[26]。通过GLIA模块提取额外的局部与全局相结合的语义信息,增强网络的特征提取能力,同时在GLIA模块后加入残差连接,提升网络的鲁棒性。在Kvasir数据集上的实验结果表明,GLIA-Net在胃肠道息肉分割任务中的交并比和Dice分别为69.4%和80.7%,相比UNet++、UNet3+、ResUNet等网络,具有较优的分割性能。下一步将结合Transformer[27]与U-Net,设计轻量级的息肉分割网络,以提高分割准确率和分割效率,有效辅助医生对胃肠道疾病进行诊断和治疗。
[1] |
GUO Y B, MATUSZEWSKI B J. Polyp segmentation with fully convolutional deep dilation neural network[C]//Proceedings of Annual Conference on Medical Image Understanding and Analysis. Berlin, Germany: Springer, 2020: 377-388.
|
[2] |
VEMURI A S. Survey of computer vision and machine learning in gastrointestinal endoscopy[EB/OL]. [2021-08-25]. https://arxiv.org/abs/1904.13307.
|
[3] |
PATEL R, PATEL S. A comprehensive study of applying convolutional neural network for computer vision[J]. International Journal of Advanced Science and Technology, 2020, 29(6): 2161-2174. |
[4] |
李煌, 王晓莉, 项欣光. 基于文本三区域分割的场景文本检测方法[J]. 计算机科学, 2020, 47(12): 142-147. LI H, WANG X L, XIANG X G. Scene text detection based on triple segmentation[J]. Computer Science, 2020, 47(12): 142-147. (in Chinese) |
[5] |
SAFAROV S, WHANGBO T K. A-DenseUNet: adaptive densely connected UNet for polyp segmentation in colonoscopy images with atrous convolution[J]. Sensors, 2021, 21(4): 1441. DOI:10.3390/s21041441 |
[6] |
RONNEBERGER O, FISCHER P, THOMAS B. U-Net: convolutional networks for biomedical image segmentation[EB/OL]. [2021-08-25]. https://arxiv.org/pdf/1505.04597.pdf.
|
[7] |
WEI J, HU Y W, ZHANG R M, et al. Shallow attention network for polyp segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2021: 699-708.
|
[8] |
刘佳伟, 刘巧红, 李晓欧, 等. 一种改进的双U型网络的结肠息肉分割方法[J]. 光学学报, 2021, 41(18): 72-80. LIU J W, LIU Q H, LI X O, et al. Improved colonic polyp segmentation method based on double U-shaped network[J]. Acta Optica Sinica, 2021, 41(18): 72-80. (in Chinese) |
[9] |
JHA D, RIEGLER M A, JOHANSEN D, et al. DoubleU-net: a deep convolutional neural network for medical image segmentation[C]//Proceedings of the 33rd International Symposium on Computer-Based Medical Systems. Washington D. C., USA: IEEE Press, 2020: 558-564.
|
[10] |
王亚刚, 郗怡媛, 潘晓英. 改进DeepLabv3+网络的肠道息肉分割法[J]. 计算机科学与探索, 2020, 14(7): 1243-1250. WANG Y G, XI Y Y, PAN X Y. Method for intestinal polyp segmentation by improving DeepLabv3+ network[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(7): 1243-1250. (in Chinese) |
[11] |
POORNESHWARAN J M, SANTHOSH KUMAR S, RAM K, et al. Polyp segmentation using generative adversarial network[C]//Proceedings of the 41st Annual International Conference of Engineering in Medicine and Biology Society. Washington D. C., USA: IEEE Press, 2019: 7201-7204.
|
[12] |
WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 11531-11539.
|
[13] |
GUO M H, LIU Z N, MU T J, et al. Beyond self-attention: external attention using two linear layers for visual tasks[EB/OL]. [2021-08-25]. https://arxiv.org/abs/2105.02358v2.
|
[14] |
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
|
[15] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7132-7141.
|
[16] |
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2017: 5998-6008.
|
[17] |
GLOROT X, BORDES A, BENGIO Y. Deep sparse rectifier neural networks[C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. New York, USA: [s. n. ], 2011: 315-323.
|
[18] |
ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 2921-2929.
|
[19] |
ZHANG Z L, ZHANG X Y, PENG C, et al. ExFuse: enhancing feature fusion for semantic segmentation[EB/OL]. [2021-08-25]. https://arxiv.org/pdf/1804.03821.pdf.
|
[20] |
BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615 |
[21] |
HAN X. Automatic liver lesion segmentation using a deep convolutional neural network method[EB/OL]. [2021-08-25]. https://arxiv.org/pdf/1704.07239.pdf.
|
[22] |
ALOM M Z, YAKOPCIC C, TAHA T M, et al. Nuclei segmentation with recurrent residual convolutional neural networks based U-net(R2U-Net)[C]//Proceedings of National Aerospace and Electronics Conference. Washington D. C., USA: IEEE Press, 2018: 228-233.
|
[23] |
ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation[C]//Proceedings of International Workshop on Deep Learning in Medical Image Analysis. Berlin, Germany: Springer, 2018: 3-11.
|
[24] |
HUANG H M, LIN L F, TONG R F, et al. UNet 3+: a full-scale connected UNet for medical image segmentation[C]//Proceedings of International Conference on Acoustics, Speech and Signal Processing. Washington D. C., USA: IEEE Press, 2020: 1055-1059.
|
[25] |
CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 833-851.
|
[26] |
POZDEEV A A, OBUKHOVA N A, MOTYKO A A. Automatic analysis of endoscopic images for polyps detection and segmentation[C]//Proceedings of Conference of Russian Young Researchers in Electrical and Electronic Engineering. Washington D. C., USA: IEEE Press, 2019: 1216-1220.
|
[27] |
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]//Proceedings of International Conference on Learning Representations. San Diego, USA: [s. n. ], 2021: 1-9.
|