面向刻蚀图像分割的轻量可变形编解码网络

引用本文

尚佳童, 雷涛, 张栋, 等. 面向刻蚀图像分割的轻量可变形编解码网络[J]. 计算机工程, 2022, 48(12), 203-211, 217. DOI: 10.19678/j.issn.1000-3428.0065091.

SHANG Jiatong, LEI Tao, ZHANG Dong, et al. Lightweight Deformable Encoder-Decoder Network for Etched Image Segmentation[J]. Computer Engineering, 2022, 48(12), 203-211, 217. DOI: 10.19678/j.issn.1000-3428.0065091.

基金项目

国家自然科学基金（61871259）；陕西省自然科学基础研究计划（2021JC-47）；陕西省人工智能联合实验室资助项目（2020SS-03）；陕西省重点研发计划（2021ZDLGY08-07）

通信作者

雷涛（通信作者），教授、博士生导师

作者简介

尚佳童（1998—），女，硕士研究生，主研方向为计算机视觉、机器学习;
张栋，硕士研究生;
杜晓刚，副教授;
翟钰杰，硕士研究生

文章历史

收稿日期：2022-06-27
修回日期：2022-09-01

Contents Abstract Full text Figures/Tables PDF

面向刻蚀图像分割的轻量可变形编解码网络

尚佳童^1,2 , 雷涛^1,2 , 张栋^1,2 , 杜晓刚^1,2 , 翟钰杰^1,2

1. 陕西科技大学陕西省人工智能联合实验室, 西安 710021;
2. 陕西科技大学电子信息与人工智能学院西安 710021

收稿日期：2022-06-27；修回日期：2022-09-01

基金项目：国家自然科学基金（61871259）；陕西省自然科学基础研究计划（2021JC-47）；陕西省人工智能联合实验室资助项目（2020SS-03）；陕西省重点研发计划（2021ZDLGY08-07）

作者简介：尚佳童（1998—），女，硕士研究生，主研方向为计算机视觉、机器学习; 张栋，硕士研究生; 杜晓刚，副教授; 翟钰杰，硕士研究生.

通信作者：雷涛（通信作者），教授、博士生导师.

E-mail: 201606020706@sust.edu.cn

摘要：通过分割刻蚀图像计算驱油率是目前衡量油藏驱替技术的重要手段。由于刻蚀图像边缘模糊、噪声大且水油像素分散，目前主流的图像分割网络分割精度低、分割速度慢，难以获得较好的分割结果。提出一种用于刻蚀图像分割的轻量可变形编解码网络（LDNet）。在特征编码阶段利用偏移量学习水油目标形状和边缘特征，改善网络的特征表达能力，并通过深度卷积和逐点卷积有效降低网络参数量。在特征融合阶段设计协同耦合注意力模块，将通道注意力进行分解，并分别沿2个空间方向聚合特征，将特征图编码为方向和位置感知的特征图，从而将位置信息嵌入到通道注意力中，提升模型的鲁棒性。实验结果表明，LDNet网络的分割精度为89.94%，模型大小仅为16.63×10⁶，在资源受限的设备中有效提高刻蚀图像的分割精度，降低驱油率误差，加快模型的推理速度。

Lightweight Deformable Encoder-Decoder Network for Etched Image Segmentation

SHANG Jiatong^1,2 , LEI Tao^1,2 , ZHANG Dong^1,2 , DU Xiaogang^1,2 , ZHAI Yujie^1,2

1. Shaanxi Joint Laboratory of Artificial Intelligence, Shaanxi University of Science and Technology, Xi'an 710021, China;
2. School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xi'an 710021, China

Abstract: Calculating the oil displacement rate by segmenting the etching image is an essential approach for measurements in reservoir displacement technology.However, because of the blurred edges, strong noise, and scattered water and oil pixels in etched images, existing mainstream image segmentation networks, which have low segmentation accuracy and slow segmentation speed, are typically inefficient for etched image segmentation.To address this problem, A Lightweight Deformable Encoder-Decoder Network(LDNet) for etched image segmentation is proposed.First, the lightweight deformable feature encoder module not only uses offsets to learn shape and edge features for water and oil images to improve the feature representation but also decreases the number of model parameters by introducing depthwise and pointwise convolutions.Thus, the proposed Co-Coupling Attention Module(CCAM) can encode the channel attention feature maps with orientation-aware and position-aware information, improving the robustness of the network.Experiments demonstrate that the proposed network achieves improve segmentation results, with a mean dice of 89.94% for etched image segmentation, and the number of parameters is only 16.63×10⁶.The LDNet network can effectively improve the segmentation accuracy of etched images in a computer with low memory and enhance inference efficiency while minimizing the oil displacement error.

开放科学(资源服务)标志码(OSID)：

0 概述

随着国民经济的飞速发展，国内生产生活对能源的需求与日俱增，石油已成为我国需求量最大的能源之一。但目前我国油田逐渐进入中高含水期，开采十分困难。通过去离子水来驱使剩余油是目前最为有效且环保的油藏驱替方法之一^[1]。近年来，为提高能源利用效率，明确研究水驱剩余油的开采现状，提升我国石油资源在国际上的竞争力，国内外学者不断探索新方法来研究水驱剩余油的形成与分布机理，其中应用最广泛的技术是电脑断层（Computed Tomography，CT）扫描实验法^[2]和微观仿真模型法^[3]。

CT扫描实验法是利用X射线对岩石样本与孔隙不同的吸收率层析构建三维形状，在不改变岩心状态的条件下完成驱替实验。然而，CT扫描实验法通常面临扫描分辨率较低且实验数据获取困难的问题，导致实验数据误差较大。微观仿真模型法是研究人员使用最广泛的方法之一，该方法将玻璃刻蚀仿真模型与微观图像采集系统相结合，利用数值模拟测试将岩石还原在以聚二甲基硅氧烷^[4]为主材料的120 mm×120 mm刻蚀板上，用于模拟不同岩层的驱替情况。该方法通过使用去离子水和矿物油模拟水驱油过程，实现微观驱替动态可视化^[5]。对采集到的图像进行分析，可计算出不同流体黏度、不同注入速度、不同原始含水饱和度多方面因素对水驱油效果的影响，分析水驱前后的油水分布规律，对油藏水驱油机理具有重要的研究意义。

研究人员通常使用人工标记的方法分离油水像素，通过标记含油区域和含水区域来计算驱油率，主观性强且耗时耗力，对后续的研究造成了极大的困扰^[6]。受拍摄环境和芯片材质的影响，所采集到的驱替刻蚀图像往往存在图像模糊、色彩对比度低、噪声大等问题。此外，由于在驱替过程中往往存在水油交融的状态，导致水油界限不明确，呈现出非刚性的状态^[7]。

本文提出一种轻量可变形编解码网络（Lightweight Deformable Encoder-Decoder Network，LDNet），在特征编码阶段，通过设计轻量可变形特征编码（Lightweight Deformable Feature Encoder，LDFE）模块，实现对刻蚀图像的特征提取。将通道和空间充分解耦，以有效降低网络特征信息的冗余，加快网络的推理速度，进一步减少内存资源的消耗。在特征融合阶段，引入协同耦合注意力模块（Co-Coupling Attention Module，CCAM），通过将空间信息与通道信息融合，增强模型的鲁棒性。

1 相关研究

目前常用的图像分割方法主要分为传统方法和深度学习方法两类。传统的图像分割方法主要分为阈值分割法^[8-10]、区域生长法^[11]和聚类法^[12-13]。这些方法均依赖于严格的计算方法，且需要人工干预，针对简单场景下的分割任务效果较好。但由于其通常为人工设计的浅层特征，对复杂场景的分割效果较差。此外，传统方法对超参数较敏感，容易忽略图像像素属性间的相关性，导致对油藏驱替刻蚀图像分割效果较差。

随着深度学习的发展，卷积神经网络由于其强大的特征表达能力，目前已被广泛应用于图像分割领域。LONG等^[14]提出端到端的全卷积神经网络（Fully Convolutional Network，FCN），实现了像素级的图像分割。由于FCN网络对高低层特征融合较差，因此针对边缘分割结果较粗糙。为解决上述问题，RONNEBERGER等^[15]提出U-Net网络。因其采用完全对称的编解码结构，并使用跳跃连接实现了较好的高低层特征融合，因此U-Net成为图像分割任务的骨干网络。然而U-Net中卷积层和池化层的大量堆叠会造成全局信息的丢失和计算量的增加，且使用标准的方形卷积提取特征，限制了网络对几何形变较大目标的精准分割。虽然使用跳跃连接有助于获取不同层级的语义信息，但对图像细节的感知能力较差，导致分割精度较低。目前研究人员基于U-Net的改进主要分为特征编码结构设计和特征融合策略优化。

设计特征编码结构是为了更好地进行特征提取，解决下采样过程中不断堆叠卷积层和池化层带来的语义上下文信息丢失问题，其主要分为卷积层之间的连接方式以及卷积操作的改进。在卷积层之间的连接方式上，研究人员通常为了获取更多的上下文信息而构建更深层次的连接。例如H-DenseUNet^[16]和Res-UNet^[17]通过使用残差连接和密集连接策略，将浅层的输出和深层的输出求和或拼接作为下一阶段的输入，增加特征复用，从而缓解梯度消失问题，但其在检测细微的组织结构时性能较差。针对卷积操作的改进，常用方法是通过设计不同的卷积算子来扩大感受野，以获取更丰富的上下文信息。其中CE-Net^[18]利用不同尺度的空洞卷积构成4个级联分支来捕获更广泛的多尺度语义信息。但该网络使用空洞卷积容易丢失相邻像素的信息，进而造成网格效应，导致分割结果粗糙。为解决该问题，LI等^[19]提出Rednet网络，通过使用与卷积性质相反的内卷算子使其根据图像不同的空间位置自适应调整卷积核参数。另外，DefED-Net^[20]在编码阶段使用了可变形卷积，虽然解决了固定卷积核与分割目标形状不匹配的问题，但同时也引入了巨大计算量，导致内存需求变高。

为补充编码器和解码器路径之间的语义差距，U-Net++^[21]通过连接不同层级的特征，将编码器的细粒度特征与解码器的语义特征通过跳跃连接进行融合，从而获取网络的细节特征。另外，注意力机制可以自适应计算通道或空间域中的特征重要性，提取图像的关键信息，有效改善特征图融合效果。例如，Attention U-Net^[22]通过生成一个门控信号控制不同空间位置的重要性，提高模型的特征表达能力。SmaAt-UNet^[23]和CBAM^[24]通过在通道注意力后进行全局池化来引入空间注意力机制，从而增强特征的提取能力。但其对空间信息丢失严重且忽略了特征之间的关系，并且全局池化只能捕获局部信息，无法获得全局的上下文信息。

尽管以上研究解决了图像分割面临的部分难题，但将其应用于油藏刻蚀图像分割时仍然面临2个问题：

1）常规分割网络中使用几何形状固定的卷积核与刻蚀图像形状、结构复杂的特性无法匹配。标准卷积固定大小的感受野使网络对几何变换的建模能力大幅缩减，对细小目标如水油交融的边界区域分割较差。虽然已经有可变形卷积在图像分割领域的应用，但庞大的计算量与参数量导致网络优化困难。

2）目前的注意力网络虽然使用通道和空间注意力来增强特征，但没有考虑通道和空间之间的联系，导致分割结果较为粗糙。另外，现有的混合注意力模型大多使用全局平均池化，特征图在经过卷积后每个位置都包含了局部区域的信息，这些方法只考虑了局部特征，无法对视觉任务所必需的长距离依赖进行建模。但对于油藏刻蚀图像分割来说，全局的上下文信息对细小目标的分割至关重要。

本文提出LDNet网络，通过设计LDFE模块和引入CCAM模块，使用残差瓶颈模块及融合高层次语义信息，提高模型的分割精度和推理速度。

2 轻量可变形编解码网络

针对油藏驱替刻蚀图像的特点，本文提出轻量可变形编解码网络（LDNet），并将其应用于刻蚀图像分割以便于快捷有效地计算后续驱油率。如图 1所示（彩色效果见《计算机工程》官网HTML版），LDNet主要由LDFE模块、协同耦合注意力特征融合模块以及特征解码模块组成。在编码阶段，将U-Net的常规卷积替换为LDFE模块，使其根据油藏驱替图像的油相和水相的形状改变采样点的偏移量，获取更丰富的特征信息并减少固定大小感受野带来的全局信息损失，从而提高模型的特征表达能力。在特征融合阶段，使用本文提出的协同耦合注意力模块将空间信息与通道信息融合，以减少噪声的影响并得到更精细的特征。同时，为了解决可变形卷积训练困难的问题，本文引入残差连接加快网络拟合速度。解码阶段使用常规的U-Net上采样模块使特征图恢复至原图大小。

	Download: JPG larger image
图 1 轻量可变形编解码网络结构 Fig. 1 Structure lightweight deformable encoder-decoder network

2.1 轻量可变形特征编码模块

刻蚀图像背景复杂，油相与水相呈现出非刚性结构。常规的分割网络大多使用固定形状的方形卷积核进行特征学习，如CE-Net^[18]、mU-Net^[25]等。由于常规卷积单元在输入的特征图固定位置进行采样，对刻蚀图像上下文信息的提取能力较弱，因此大幅限制了其对形状丰富且复杂的油藏刻蚀图像的多尺度信息提取能力。

为此，本文提出LDFE模块，通过在卷积操作中增加一个偏移量，使卷积形变为不规则形状，以达到适应多变的水油形状的目的。为解决增加偏移量带来的参数冗余和训练困难的问题，如图 2所示，使用深度卷积和逐点卷积对卷积的空间和通道相关性进行解耦，在保证卷积层特征提取能力的同时降低参数量和计算量，提高模型的推理速度。为适应非刚性的水相与油相的特征，LDFE模块可实现卷积核在不同位置、不同尺度与形状的偏移。通过学习偏移位置，提供任意形状的卷积核，从而自适应地确定感受野的尺度并获得更好的定位能力。其中，一个LDFE模块包含卷积层、偏移量计算层、归一化层和激活层。输入特征图$ x $经过常规的卷积操作后，输出特征图$ y\left(·\right) $通常可被表示为式（1）所示：

$ {y}_{1}\left({m}_{0}\right)=\sum\limits _{{m}_{n}\in D}w\left({m}_{n}\right)x\left({m}_{0}+{m}_{n}\right) $

(1)

	Download: JPG larger image
图 2 轻量可变形特征编码模块 Fig. 2 Lightweight deformable feature encoder module

其中：$ D $表示在模型训练期间卷积核的感受野；$ {m}_{0} $代表目标像素点；$ {m}_{n} $表示目标像素点落入感受野中的位置；$ w\left(·\right) $代表卷积学习到的权重。

不同于常规卷积，特征图$ x $通过LDFE模块后，输出的特征图可被定义为式（2）所示：

$ {y}_{2}\left({m}_{0}\right)=\sum \limits_{{m}_{n}\in D}w\left({m}_{n}\right)x\left({m}_{0}+{m}_{n}+△{m}_{n}\right) $

(2)

其中：可学习偏移量$ \left\{△{m}_{n}|{m}_{n}\in D\right\} $使采样的位置变的不规则，$ {m}_{n} $通常为浮点型数据。为了确保获取到的偏置值均为整数，使用双线性插值确定采样位置的像素值，最终采样位置的像素值$ {y}_{p}\left({m}_{0}\right) $定义为式（3）所示：

$ {y}_{p}\left({m}_{0}\right)=H\left({e}_{i}\right., \left.{p}_{j}\right) $

(3)

其中：$ {e}_{i} $表示学习到的权重；$ {p}_{j} $表示卷积的邻域像素；$ H\left(·\right) $代表双线性插值操作。对于轻量可变形卷积的每一层，当卷积层的输入是$ N $个通道的特征图时，相应的偏置为$ 2N $个通道，这是因为每个通道分别包括$ x $和$ y $方向上的2个偏移映射。在获得所有采样位置的像素值后，将生成新的特征映射。在训练期间，网络同时学习生成输出特征图的轻量可变形卷积的权重和用于计算偏移量的卷积核权重。

为减少可变形卷积的计算复杂度，本文引入深度卷积与逐点卷积替代可变形卷积中每一层的常规卷积。在常规卷积中，通过跨通道维的卷积核实现空间与通道间相关性的联合映射，容易造成特征信息的冗余。而通过深度卷积与逐点卷积解耦空间与通道间相关性，能够在提高网络特征表达能力的同时减少计算复杂度，实现网络轻量化。

具体地，输出特征图$ x $的尺寸为$ H\times W\times N $，常规卷积核计算量为$ {K}^{2}\times M\times N\times H\times W $，可变形卷积的计算量为$ {K}^{2}\times M\times H\times W\times 2+{K}^{2}\times M\times N\times H\times W $，轻量可变形卷积的计算量为$ {K}^{2}\times M\times H\times W\times 2+H\times W\times M\times N $。与可变形卷积相比，本文提出的LDFE模块的计算量可缩减为可变形卷积的0.6倍，其中$ M $为输入特征的通道数，$ N $为输出特征的通道数，卷积核大小为$ K\times K $，$ H $、$ W $分别为输入特征的高度与宽度。此外，为获取到更精细的油水相分割结果，在每一LDFE模块后使用残差设计，从而避免网络层数过深带来的梯度消失现象，加速网络的收敛。

LDFE模块主要解决了油藏刻蚀图像中水相与油相的非刚性边界分割困难的问题，其感受野可以随着水油相的尺寸、大小和形状进行自适应调整，在提高分割精度的同时降低了网络的计算和内存开销。

2.2 协同耦合注意力模块

由于油藏刻蚀图像存在噪声大、水油交融边界模糊、区域几何形状复杂等问题，导致图像分割边缘粗糙，因此本文使用注意力机制增强模型的表征能力，通过聚焦于重要区域和通道，抑制噪声的影响，提高模型对输入噪声的鲁棒性^[26]，从而提高模型在图像边缘处的分割精度。当前主流的注意力机制可以分为空间注意力^[27]、通道注意力^[28]和混合注意力机制^[29]。通道注意力机制主要通过捕获任意2个特征图之间的通道依赖关系获得权重信息，通过对所有通道进行加权，从而提升网络的分割精度，但其忽略了空间位置信息。针对该问题，BAM和CBAM模块试图通过减少输入的通道维数，使用全局池化来对空间信息进行全局编码，以获取位置信息。但这些方法忽略了空间和通道维度的全局特征依赖关系，对于细小目标的特征提取能力有限。

对于形状与位置复杂的刻蚀图像分割任务，空间信息与通道信息的关系对精细目标的分割至关重要。为解决该问题，本文提出CCAM模块，其具体结构如图 3所示。由图 3可知，CCAM模块通过在通道注意力中耦合不同方向的空间位置信息，捕获位置信息和通道之间的关系，实现跨通道和空间的交互和信息整合，从而获取全局依赖关系和长程上下文信息，建立并提升模型的全局信息提取能力。

	Download: JPG larger image
图 3 协同耦合注意力模块 Fig. 3 Co-coupling attention module

具体地，协同耦合注意力机制通过将通道注意力分解为2个并行的一维特征编码，利用2个一维的特征编码分别沿垂直和水平方向将输入特征聚合为2个独立的位置映射。将这2个具有嵌入方向信息的特征图分别编码为两个注意图，每个注意图捕获输入特征中沿一个空间方向的长程依赖关系。最终，将得到的2个注意力权重与输入特征图相乘，以提高模型的定位能力，从而精准地识别水油区域。

在通道注意力中，通常使用全局池化对空间信息进行全局编码，然而该操作将全局空间信息压缩到通道信息中，难以保留位置信息。为了使注意力模块获得空间位置信息，首先使用尺寸为$ \left(h, 1\right) $或$ \left(w, 1\right) $的卷积核对输入特征图$ x $进行平均池化，使其沿水平坐标和垂直坐标对通道进行编码，水平方向的输出表达式如式（4）所示：

$ {z}^{h}=\frac{1}{w}\sum\limits _{0\le i\le w}{x}_{c}\left(h, i\right) $

(4)

其中：$ x $为给定的输入；$ h $为给定特征图的高度；$ c $为给定特征图的通道数。

同理可得，宽度为$ w $的第$ c $个通道的输出表达式如式（5）所示：

$ {z}^{w}=\frac{1}{h}\sum \limits_{0\le i\le h}{x}_{c}\left(j, w\right) $

(5)

将上述2个方向的变换分别沿空间方向聚合特征，得到一对方向感知的特征图，这与在通道注意力方法中产生单一特征向量的SE模块^[28]不同，其可通过注意力模块捕捉到沿着一个空间方向的长距离依赖关系，并保存沿着另一个空间方向的精确位置信息，有助于网络更准确地定位感兴趣的目标。

为更好地利用上述模块生成的注意力图，本文充分利用捕获到的位置信息，使通道与位置信息进行更充分的融合，使用2层共享的$ 1\times 1 $卷积进行变换，得到卷积变化函数$ {S}_{1} $水平方向和垂直方向空间信息的特征图$ f $，其表达式如式（6）所示：

$ f=\sigma \left({S}_{1}\left(\left[{z}^{h}, {z}^{w}\right]\right)\right) $

(6)

其中：$ \left[·\right] $表示沿空间维度的拼接运算；$ \sigma \left(·\right) $为非线性函数。为降低模型的复杂度，常以适当的通道压缩率$ r $来减少特征图的通道数。将特征图沿着空间维度切分为2个单独的张量$ {t}^{h}\in {\mathbb{R}}^{\frac{c}{r}\times h} $和$ {t}^{w}\in {\mathbb{R}}^{\frac{c}{r}\times w} $，进而得到：

$ {g}^{h}=\delta \left({S}_{h}\left({t}^{h}\right)\right) $

(7)

$ {g}^{w}=\delta \left({S}_{w}\left({t}^{w}\right)\right) $

(8)

其中：$ \delta $为sigmoid激活函数；$ {S}_{h} $为$ h $方向$ 1\times 1 $卷积变换；$ {S}_{w} $为$ w $方向$ 1\times 1 $卷积变换。最后将其作为权重叠加在原图上，得到协同耦合注意力，其表达式如式（9）所示：

$ {y}_{c}={x}_{c}\left(i, j\right)\times {g}^{h}\left(i\right)\times {g}^{w}\left(j\right) $

(9)

与只关注通道或空间重要性的注意力不同，本文提出的CCAM模块将位置信息嵌入到通道注意力中，并进行了充分融合。水平和垂直方向的注意力同时被施加到输入特征中，使协同耦合注意力更准确地定位感兴趣对象的确切位置，从而帮助模型实现更准确的目标定位。

3 实验结果与分析

为充分证明本文LDNet网络的有效性和泛化性，在刻蚀图像数据集上进行了消融实验和对比实验。设计的消融实验详细验证了LDFE模块和CCAM模块的优越性。通过与不同分割算法在油藏驱替刻蚀图像数据集上的对比分析，充分证明LDNet网络的有效性。

3.1 实验数据

本文用于实验的数据集共包含1 014张不同时刻、不同孔隙度与孔喉比大小的油藏驱替刻蚀图像，图像分辨率为5 120×5 120像素，每张图像对应一张人工标注结果，其中人工标注结果均来自于2名该领域的专家。根据3∶1∶2的比例，随机选取了507个图像作为训练集，169个图像作为验证集，剩余的338个图像作为测试集，部分测试图如图 4所示（彩色效果见《计算机工程》官网HTML版本）。为提高训练的效率和泛化能力，将所有图像尺寸裁剪为256×256像素，并进行随机水平翻转、旋转、添加噪声等操作，以增强数据。

	Download: JPG larger image
图 4 刻蚀图像数据集示例 Fig. 4 Examples of etched image dataset

3.2 评价指标

为评价刻蚀图像的分割结果，使用主流的图像分割算法指标来衡量模型的性能，主要包含分割精度（Dice）、交并比（mean Intersection over Union，mIOU）和召回率（Recall），这些评价指标定义如下：

$ {D}_{\mathrm{D}\mathrm{i}\mathrm{c}\mathrm{e}}=\frac{2\times {T}_{\mathrm{T}\mathrm{P}}}{\left({T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}\right)+\left({T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}\right)} $

(10)

$ {m}_{\mathrm{m}\mathrm{I}\mathrm{O}\mathrm{U}}=\frac{\sum \limits_{1}^{n}\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}}}{n} $

(11)

$ {R}_{\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(12)

其中：$ n $表示预测结果的类别数；T_TP表示分割正确的正类数目；T_TN是分割正确的负类数目；F_FP是指分割错误的正类数目；F_FN表示分割错误的负类数目。

分割精度是一种集合相似度度量指标，通常用于计算水油相2个样本的相似度。平均交并比是每一类分割结果和真实值的交集与并集的比值进行求和再平均的结果。召回率是分割正确的正例占总的正例的比重。以上3个指标值越大，代表分割效果越好。

3.3 损失函数

基于轻量可变形编码网络的框架是一个端到端的深度学习模型，为了量化特征图与标签数据之间的差异，采用交叉熵损失函数^[30]作为优化目标函数，表示如下：

$ {L}_{\mathrm{m}\mathrm{a}\mathrm{i}\mathrm{n}}\left(X, \theta \right)=\sum \limits_{{x}_{i}\in X}-\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}p\left({t}_{i}|{x}_{i};W\right) $

(13)

其中；$ \theta $表示分割网络中所有可学习参数；$ {t}_{i} $表示油藏图像；$ {x}_{i}\in X $对应真实标签。

3.4 实验参数

实验所使用的硬件配置如下：处理器Intel Core i9 9900X @ 3.5 GHz；内存128 GB；GPU为NVIDIA Geforce RTX 2080Ti 11 GB。在网络模型的训练中，使用Adam优化器来优化模型，将初始学习率（$ lr $）设置为0.001，并将训练期间学习率的衰减策略定义如下：

$ lr=lr\times {\left(1-\frac{i}{{t}_{i}}\right)}^{0.9} $

(14)

其中；$ i $表示训练的迭代次数；$ {t}_{i} $表示迭代总数。与普通卷积相比，LDFE模块需要2个学习速率。设置$ l{r}_{2}=lr\times 0.01 $，作为LDFE模块偏移卷积层的学习率。

3.5 消融实验

本文主要贡献是针对油藏驱替刻蚀图像数据集的特点提出LDNet网络，以提高图像的分割精度。LDNet网络主要包含LDFE模块和CCAM模块。LDFE模块可以实现自适应大小的感受野，从而解决水油相的大小、形状与尺度复杂的问题。CCAM模块同时考虑空间注意力和通道注意力之间的联系，增加模型的融合效率，降低信息的损失，从而提升分割效果。为证明这2个模块贡献的有效性，在刻蚀图像数据集上进行了一系列实验，结果如表 1所示。

下载CSV 表 1 消融实验结果 Table 1 Ablation experiment results

分析表 1可知：

1）LDFE模块的有效性验证。为验证LDFE模块的有效性，以U-Net作为骨干网络，将U-Net中的编码模块分别替换为标准可变形卷积（Deformable Convolution，DC）以及LDFE模块。如表 1所示，与U-Net网络相比，基于常规可变形卷积的U-Net网络（U-Net+DC）的分割精度提高了1.58个百分点。U-Net+LDFE网络的精度为86.68%，但该网络的参数量仅为16.16M，相比U-Net网络模型参数减少了53.18%。由此可以证明LDFE模块在减少参数量的前提下比传统卷积具有更强的自适应能力。图 5显示了U-Net、U-Net+DC和U-Net+LDFE在低渗透油藏刻蚀图库上的分割结果差异（彩色效果见《计算机工程》官网HTML版本）。其中红色与蓝色的前景为差异，黑色背景为相同的像素点。如图 5所示，可变形卷积和LDFE模块都可以帮助U-Net网络获取更多边缘信息，但LDFE模块通过深度卷积与逐点卷积可捕捉更大的感受野，并使用残差结构获得了更准确的轮廓预测。在图 5中U-Net+LDFE提供的特征图包含更多的细节信息，其结果最接近标签数据。

	Download: JPG larger image
图 5 不同网络在低渗透油藏刻蚀图库上的分割结果对比 Fig. 5 Comparison of segmentation results of different methods on the etched map library of low permeability reservoirs

2）CCAM模块的有效性验证。为验证CCAM模块和其他注意力模块的不同，本文以U-Net为骨干网络，分别添加CCAM模块、SENet网络中的通道注意力（Squeeze and Excitation，SE）模块、卷积注意力机制模块（Convolutional Block Attention Module，CBAM）及CCNet网络^[31]中的重复十字交叉注意力模块（Recurrent Criss Cross Attention Moudle，RCCA）。由表 1可知，相比于U-Net网络，增加CCAM模块可将准确率83.74%提高到86.77%，准确率提高了3.03个百分点。因此，CCAM模块在刻蚀图像中能更准确地定位水油交融状态下的确切位置，且能帮助网络分割更精细的水油目标。

图 6为添加不同注意力模块的可视化结果（彩色效果见《计算机工程》官网HTML版本），其中红色和蓝色分别表示关注度较高和较低的区域。可以看出，引入CBAM和RCCA模块较SE模块可以更好地帮助网络实现水油相提取。与CBAM模块相比，CCAM模块将通道信息与空间信息进行了充分耦合，对目标区域的感知能力更强，受噪声干扰小且对细小目标提取更精准，对于边缘信息的定位更准确。

	Download: JPG larger image
图 6 不同注意力模块的可视化结果对比 Fig. 6 Comparison of visual results of different attention modules

3.6 与主流分割网络的对比实验

为进一步证明本文LDNet网络的优越性，实验选用主流的分割网络作为对比，包括U-Net^[15]、U-Net++^[21]、CE-Net^[18]、DefED-Net^[20]、Attention U-Net^[22]、H-DenseUNet^[16]和Rednet^[19]，结果如表 2所示。

下载CSV 表 2 不同网络在刻蚀图像上的实验结果 Table 2 Experimental results of different networks on etched image

由表 2可知，本文LDNet网络的模型大小为16.63M，分割精度为89.94%，与其他对比网络相比表现最好。U-Net网络采用标准卷积，不能有效提取图像中的边缘细节信息，因此分割精度最低。UNet++网络相较于U-Net网络重新设计了跳跃连接方式，从而将分割精度提升至85.32%。CE-Net和Rednet网络均通过设计新的卷积算子分别将分割精度提升到86.82%和84.54%，但都带来了巨大参数量。DefED-Net、LDNet网络使用可变形卷积，对刻蚀图像的边缘提取效果更好。LDNet网络在可变形卷积中分别使用逐点卷积与深度卷积来减少计算量，并加入残差网络提取图像多尺度信息，采用CCAM模块融合上下文信息并建立长距离依赖关系，因此模型的分割精度更高。另外，由于可变形卷积对计算量有较大消耗，通过结合深度卷积与逐点卷积可大幅降低卷积的计算量与模型大小，提高计算效率。相较于DefED-Net网络，LDNet网络将模型计算量降低了56.27%，模型大小减少了72.72%。

图 7所示为不同网络分割刻蚀图像的可视化结果（彩色效果见《计算机工程》官网HTML版本）。可以看出，U-Net网络对刻蚀图像的分割效果较差。UNet++网络相比于U-Net网络能捕获更多细节信息，但难以分割边界模糊区域。H-DenseUNet网络使用了密集连接策略，相比于UNet++网络能够捕捉到更多细节信息，但其针对水油的边缘信息分割较差。CE-Net、Rednet网络在编码阶段改进了传统的卷积算子，对于模糊边界分割较为理想，但难以捕捉细小的水油信息。Attention U-Net网络通过添加注意力门控信息增强小目标的分割效果，但针对水油的边界位置分割较差。DefED-Net网络通过使用可变形卷积增强边缘细节信息，但该网络针对水油中的细小目标分割较差，且计算量与参数量庞大。与上述网络相比，本文LDNet网络能够更精准地分割边界及提取精细目标，实现了更好的特征编码和特征融合，以及刻蚀图像的高精度分割。

	Download: JPG larger image
图 7 不同分割网络对刻蚀图像的分割结果对比 Fig. 7 Comparison of etched images segmentation results by different segmentation networks

4 结束语

针对油藏刻蚀图像对比度低、边缘模糊、形状复杂等问题，本文提出一种面向刻蚀图像分割的轻量可变形编解码网络LDNet。通过使用LDFE模块实现自适应感受野，以适应刻蚀图像中目标形状多样、尺度复杂等问题。引入协同耦合注意力模块，并将位置信息耦合进通道注意力中，提升网络的鲁棒性，实现刻蚀图像的细小目标分割。实验结果表明，本文LDNet网络能在大幅减少参数量与计算量的前提下准确分割油藏刻蚀图像。下一步将深入研究自编码器在分割刻蚀图像上的应用，以解决样本标注获取难的问题。

参考文献

[1]	SONG R, PENG J J, SUN S Y, et al. Visualized experiments on residual oil classification and its influencing factors in waterflooding using micro-computed tomography[J]. Journal of Energy Resources Technology, 2020, 142(8): 13-21.
[2]	CHENG B Y, LI J J, JIANG S, et al. Pore-scale investigation of microscopic remaining oil variation characteristic in different flow rates using micro-CT[J]. Energies, 2021, 14(11): 3057-3064. DOI:10.3390/en14113057
[3]	SU J W, CHAI G L, WANG L, et al. Pore-scale direct numerical simulation of particle transport in porous media[J]. Chemical Engineering Science, 2019, 199: 613-627. DOI:10.1016/j.ces.2019.01.033
[4]	SHIN J, KO J, JEONG S, et al. Monolithic digital patterning of polydimethylsiloxane with successive laser pyrolysis[J]. Nature Materials, 2021, 20(1): 100-107. DOI:10.1038/s41563-020-0769-6
[5]	SU J W, CHAI G L, WANG L, et al. Direct numerical simulation of pore scale particle-water-oil transport in porous media[J]. Journal of Petroleum Science and Engineering, 2019, 180: 159-175. DOI:10.1016/j.petrol.2019.04.078
[6]	SU J W, WANG L, GU Z L, et al. Advances in pore-scale simulation of oil reservoirs[J]. Energies, 2018, 11(5): 1132-1142. DOI:10.3390/en11051132
[7]	YANG Y F, WANG K, ZHANG L, et al. Pore-scale simulation of shale oil flow based on pore network model[J]. Fuel, 2019, 251: 683-692. DOI:10.1016/j.fuel.2019.03.083
[8]	张磊, 王小龙, 刘畅. 联合显著性与MRF的SAR建筑物分割算法[J]. 计算机工程, 2022, 48(4): 284-291, 298. ZHANG L, WANG X L, LIU C. SAR building segmentation algorithm combining saliency and MRF[J]. Computer Engineering, 2022, 48(4): 284-291, 298. (in Chinese)
[9]	OTSU N. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66. DOI:10.1109/TSMC.1979.4310076
[10]	VERSACI M, MORABITO F C. Image edge detection: a new approach based on fuzzy entropy and fuzzy divergence[J]. International Journal of Fuzzy Systems, 2021, 23(4): 918-936. DOI:10.1007/s40815-020-01030-5
[11]	HUANG Z L, WANG X G, WANG J S, et al. Weakly-supervised semantic segmentation network with deep seeded region growing[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7014-7023.
[12]	雷涛, 张肖, 加小红, 等. 基于模糊聚类的图像分割研究进展[J]. 电子学报, 2019, 47(8): 1776-1791. LEI T, ZHANG X, JIA X H, et al. Research progress on image segmentation based on fuzzy clustering[J]. Acta Electronica Sinica, 2019, 47(8): 1776-1791. (in Chinese) DOI:10.3969/j.issn.0372-2112.2019.08.023
[13]	BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2/3): 191-203.
[14]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA. IEEE Press, 2015: 3431-3440.
[15]	RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[16]	LI X M, CHEN H, QI X J, et al. H-DenseUNet: hybrid densely connected UNet for liver and tumor segmentation from CT volumes[J]. IEEE Transactions on Medical Imaging, 2018, 37(12): 2663-2674. DOI:10.1109/TMI.2018.2845918
[17]	XIAO X, LIAN S, LUO Z M, et al. Weighted res-UNet for high-quality retina vessel segmentation[C]//Proceedings of the 9th International Conference on Information Technology in Medicine and Education. Washington D.C., USA: IEEE Press, 2018: 327-331.
[18]	GU Z W, CHENG J, FU H Z, et al. CE-net: context encoder network for 2D medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(10): 2281-2292. DOI:10.1109/TMI.2019.2903562
[19]	LI D, HU J, WANG C H, et al. Involution: inverting the inherence of convolution for visual recognition[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2021: 12316-12325.
[20]	LEI T, WANG R S, ZHANG Y X, et al. DefED-net: deformable encoder-decoder network for liver and liver tumor segmentation[J]. IEEE Transactions on Radiation and Plasma Medical Sciences, 2022, 6(1): 68-78. DOI:10.1109/TRPMS.2021.3059780
[21]	ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(6): 1856-1867. DOI:10.1109/TMI.2019.2959609
[22]	OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-net: learning where to look for the pancreas[EB/OL]. [2022-05-20]. https://arxiv.org/abs/1804.03999.
[23]	TREBING K, STAǸCZYK T, MEHRKANOON S. SmaAt-UNet: Precipitation nowcasting using a small attention-UNet architecture[J]. Pattern Recognition Letters, 2021, 145: 178-186. DOI:10.1016/j.patrec.2021.01.036
[24]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.
[25]	SEO H, HUANG C, BASSENNE M, et al. Modified U-net (mU-net) with incorporation of object-dependent high level features for improved liver and liver-tumor segmentation in CT images[J]. IEEE Transactions on Medical Imaging, 2020, 39(5): 1316-1325. DOI:10.1109/TMI.2019.2948320
[26]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2022-05-20]. https://arxiv.org/abs/1706.03762.
[27]	PARK J, WOO S, LEE J Y, et al. BAM: bottleneck attention module[EB/OL]. [2022-05-20]. https://arxiv.org/abs/1807.06514.
[28]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 7132-7141.
[29]	刘洋, 金忠. 一种结合非局部和多区域注意力机制的细粒度图像识别方法[J]. 计算机科学, 2021, 48(1): 197-203. LIU Y, JIN Z. Fine-grained image recognition method combining with non-local and multi-region attention mechanism[J]. Computer Science, 2021, 48(1): 197-203. (in Chinese)
[30]	ZHANG Z L, SABUNCU M R. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Incorporated, 2018: 8792-8802.
[31]	HUANG Z L, WANG X G, WEI Y C, et al. CCNet: criss-cross attention for semantic segmentation[C]//Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence. Washington D.C., USA: IEEE Press, 2019: 603-612.