2. 山东科技大学 电气与自动化工程学院, 山东 青岛 266427
2. College of Electrical Engineering and Automation, Shandong University of Science and Technology, Qingdao, Shandong 266427, China
开放科学(资源服务)标志码(OSID):
随着遥感传感器的快速发展,高空间分辨率遥感图像可以为目标物体提供更详细、更多样的几何结构描述[1]及丰富的细节和空间结构信息。但由于物体尺度变化的复杂性,遥感目标的识别仍然存在巨大挑战。
截止目前,国内外研究人员设计了诸多算法以检测和识别遥感图像中不同类型的物体[2-3]。早期的多尺度目标检测识别算法多基于人工参与的特征设计,如DALAL[4]、LOWE[5]等利用多尺度滑动窗口生成不同尺度的图像块,分别通过手工制作的HOG(Histogram of Oriented Gradient)和SIFT(Scale-Invariant Feature Transform)等特征描述符提取特征,并将提取的特征输入支持向量机(SVM)或条件随机场(CRF)中进行分类识别。TAO等[6]利用改进的SIFT匹配策略对机场中的目标物体进行检测。XIAO等[7]利用HOG的旋转不变性检测遥感图像中的飞机、汽车等大型目标。虽然手工制作的特征在特定的目标识别任务中表现良好,但其通用性和鲁棒性较差[1],且特征的设计耗时较长。
随着深度学习模型在自然语言处理、图像分割等领域的广泛应用,深度学习技术被研究人员应用于多尺度遥感目标识别和检测任务中以减少人工参与特征设计带来的误差[8]。如HAN等[9]使用Fast-RCNN检测高分辨率遥感图像中地理空间目标。CHEN等[10]结合转移学习方法,利用单一结构CNN和有限的训练样本以实现飞机识别。DENG等[11]采用级联整流线性单元(ReLU)和inception模块的CNN来捕获图像多尺度特征,并通过多个中间层生成类目标区域。ZHONG等[12]提出一种位置敏感平衡(Position-Sensitive Balancing,PSB)框架,有效解决特征提取中的平移不变性。DING等[13]采用密集卷积网络(Dene Convolution Networks)、多尺度表示和多种改进方案以增强VGG-16的特征提取能力,提高了检测精度。WANG等[14]提出一种多尺度的视觉注意网络以捕获多尺度空间的上下文语义,并突出目标区域的特征。
虽然上述的多尺度目标检测方法提高了目标检测或识别的精度,但这些多尺度结构多是建立在单一结构的卷积层上,受到卷积层数的限制且缺乏丰富的接收域,导致捕获的多尺度特征难以对极端尺度变化的目标对象进行建模,影响高空间分辨率遥感图像中超大和极小目标的识别精度。但是,如果仅通过叠加单一结构的卷积层来增强特征提取能力,就会随着网络层数的增加而出现拟合和梯度消失、爆炸等问题。
为缓解高空间分辨率遥感图像中目标对象的极端尺度变化问题,本文提出一种超尺度自导注意力网络(Hyper-Scale Self-Guided Attention Networks,HSSGAN)的目标识别框架。该网络在卷积层中构建多个轻量级多尺度结构,从多个卷积子空间组中捕获丰富的多尺度特征,根据组之间的连接将多尺度特征进行组合,形成极端尺度特征,即小尺度和超尺度特征。利用自导注意力网络逐层细化极端特征图,在极端尺度的局部和全局语义之间建立长期依赖关系,并解决冗余信息的重复使用问题以提高遥感图像中目标船舶的识别精度。
1 超尺度自导注意力网络的识别框架高空间分辨率遥感图像中目标物体的结构通常在尺度、纹理和形状上变化较大,且容易表现出类内和类间多样性。而传统卷积神经网络的接受域有限,产生的局部特征难以对超尺度的目标物体进行详细描述。为解决这些问题,提出一种超尺度自导注意力网络的遥感船舶识别框架,利用超尺度子空间组捕获目标船舶的局部和全局语义,并逐步细化超尺度特征图,自适应地建立长期依赖关系,滤除冗余信息以提高识别精度。HSSGAN的网络结构如图 1所示。
![]() |
Download:
|
图 1 HSSGAN的网络结构 Fig. 1 Network structure of HSSGAN |
在图 1中,
超尺度块[15]是由多个不同尺度的卷积层通过组连接构成的轻量级子空间模块,能够增强超尺度特征的表示能力。与传统卷积层通过提取多尺度特征以增强表征能力[16-17]不同,组连接为2个卷积层中组特性之间的连接,通过实现层间信息复用使该2层能获得更多细节信息。在卷积接收域有限的情况下,此方法可提高同尺度卷积特征的利用率,并增加层间细节信息的传递。
假设初始输入为
$ \left\{\begin{array}{l}{F}_{i}=\sum \limits_{g=1}^{M-1}\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\gamma }^{g}\right({x}_{i}), \cdots , {\gamma }^{M-1}({x}_{i}))\\ \gamma \left({x}_{i}\right)=\sum\limits _{g=1}^{M}{C}_{K}^{g}\left({x}_{i}\right)\odot {C}_{K}^{g+1}\left({x}_{i}\right)\end{array}\right. $ | (1) |
其中:
在不增加卷积层接收域的情况下,捕获的卷积特征按照组连接方式可提高特征的复用率,弥补有限接收域带来的局限性。继续对不同尺度卷积层捕获特征
$ \left\{\begin{array}{l}{F}_{\mathrm{H}\mathrm{S}}=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\sum \limits_{g=1}^{M-2}\left({F}_{g}^{\text{'}}\right({\mathit{x}}_{\mathit{i}}), \cdots , {F}_{M-2}^{\text{'}}({\mathit{x}}_{\mathit{i}}))\\ {F}^{\text{'}}\left({\mathit{x}}_{\mathit{i}}\right)=\sum \limits_{g=1}^{M-2}{F}_{g}\left({\mathit{x}}_{\mathit{i}}\right)\odot {F}_{g-1}\left({\mathit{x}}_{\mathit{i}}\right)\end{array}\right. $ | (2) |
其中:
由于相邻尺度组之间具有很强的关联性,对其进行组连接能有效增强特征的表征能力,且可实现不同尺度信息组之间的互补,有利于遥感目标的准确定位。
1.2 自导注意力模块超尺度块虽然能有效捕获目标船舶的超尺度信息,但是对图像进行编码时,容易忽略超端尺度上的细节信息以及重复使用不相关的冗余信息,导致相关信息的表征效果弱化。为解决此问题,引入自导注意力网络(Self-Guided Attention),对这些超尺度特征进行逐步细化有助于编码局部和全局语义,从而自适应地在局部和全局语义之间建立长期依赖关系,通过消除冗余信息以突出相关信息对目标船舶的表征。由于低层级特征包含大量的纹理细节信息,因此将超尺度特征
$ {A}_{\mathrm{S}}={G}_{\mathrm{G}\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{M}\mathrm{o}\mathrm{d}\mathrm{u}\mathrm{l}\mathrm{e}}^{{}_{S}}\left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\right({\mathit{F}}_{\mathrm{S}}^{\text{'}}, {F}_{\mathrm{H}\mathrm{S}}\left)\right) $ | (3) |
其中:
自导注意力模块由位置注意力(Position Attention,PA)[18-19]和通道注意力[20](Channel Attention,CA)构成,位置注意力能获得丰富的上下文表示,而通道注意力可被看作是特定类的响应,能加强不同语义信息之间的关联性。
设输入到注意力的特征图为
PA是特征图
$ {\alpha }_{i, j}^{\mathrm{P}\mathrm{A}}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({F}_{0, i}^{\mathrm{P}\mathrm{A}}, {F}_{1, j}^{\mathrm{P}\mathrm{A}})}{\sum \limits_{i=1}^{T}\mathrm{e}\mathrm{x}\mathrm{p}({F}_{0, i}^{\mathrm{P}\mathrm{A}}, {F}_{1, j}^{\mathrm{P}\mathrm{A}})}, T=W\times H $ | (4) |
其中:
$ {F}^{\mathrm{P}\mathrm{A}, j}=\lambda \sum\limits _{i=1}^{T}{\alpha }_{i, j}^{\mathrm{P}\mathrm{A}}{F}_{2, j}^{\mathrm{P}\mathrm{A}}+{F}_{j} $ | (5) |
通过位置注意力,进一步聚合了超尺度特征图的全局上下文语义。
CA是对输入特征图的通道进行重构,其注意力系
$ {\alpha }_{i, j}^{\mathrm{C}\mathrm{A}}=\frac{\mathrm{e}\mathrm{x}\mathrm{p}({F}_{0, i}^{\mathrm{C}\mathrm{A}}, {F}_{1, j}^{\mathrm{C}\mathrm{A}})}{\sum \limits_{i=1}^{\mathrm{C}\times \mathrm{C}}\mathrm{e}\mathrm{x}\mathrm{p}({F}_{0, i}^{\mathrm{C}\mathrm{A}}, {F}_{1, j}^{\mathrm{C}\mathrm{A}})} $ | (6) |
其中:
$ {F}^{\mathrm{C}\mathrm{A}, \mathrm{j}}=\kappa \sum \limits_{i=1}^{\mathrm{C}}{\alpha }_{i, j}^{\mathrm{C}\mathrm{A}}{F}_{2, j}^{\mathrm{C}\mathrm{A}}+{F}_{j} $ | (7) |
通过CA增加了超尺度特征对不同类之间差异性的区分能力。
由于自导注意力模块被应用在多个超尺度特征图上,因此自导损失为多个模块的损失之和,定义为
$ {\tau }_{G}=\sum\limits _{s=1}^{S}{\tau }_{i} $ | (8) |
其中:
该数据集由Kaggle提供,共4 000张80像素
为进一步验证该方法的正确性,采用精准率(Precision,P)、召回率(Recall,R)和F1-Score值(F1)等多种评测指标进行验证。计算公式如式(9)所示:
$ \left\{\begin{array}{c}P=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{P}}}\\ R=\frac{{T}_{\mathrm{T}\mathrm{P}}}{{T}_{\mathrm{T}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}}\\ \mathrm{F}1=\frac{2\times P\times R}{P+R}\end{array}\right. $ | (9) |
其中:TTP表示真阳性,即正确识别数;FFP表示假阳性,即错误识别次数;FFN表示假阴性。
2.2 实验参数设置使用Adam优化函数对网络进行训练,学习率为0.000 5,批处理设置为64,迭代次数为250次。为证明超尺度模块的有效性,对不同超尺度块的识别效果进行了验证,即设置为Hyper-1、Hyper-2、Hyper-3和Hyper-4。
为验证所提HSSGAN方法的优越性,与如下相关方法进行了比较。
1)HSF-Net[21]。该方法称之为嵌入深度多尺度特征的光学遥感船舶检测,主要是将不同尺度的特征映射到同一尺度空间,并使用端对端网络进行训练检测。
2)CF-SDN[22]。该方法为提高特征的表征能力,融合了不同层次的特征,由粗到精的对船舶进行了检测。
3)TP-FCN[23]。该方法主要对不同深度的层分配不同任务,深层提供检测功能,浅层补充捕获特征信息,以实现精确定位,可有效缓解精确定位与特征表征能力之间的权衡问题。
2.3 结果分析 2.3.1 不同超尺度块间的比较为验证本文所提HSSGAN方法的有效性,使用不同超尺度块在Kaggle实验数据集上进行测试验证。实验结果如表 1所示,其中:Hyper-1表示1个超尺度块;Hyper-2表示2个超尺度块;Hyper-3表示3个超尺度块,即本文所提HSSGAN方法;Hyper-4表示4个超尺度块,以此顺推。
![]() |
下载CSV 表 1 不同超尺度块的实验结果 Table 1 Experimental results of different super-scale blocks |
从表 1中可看出,随着超尺度块的增加,识别精度也随之增加。而当超尺度块为4,即Hyper-4时,识别精度开始下降,其F1值为0.939 58。而Hyper-11的识别精度最低为0.869 18,因为较少的超尺度块不能有效地捕获遥感船舶的细节信息,且不能获得足量的判别特征,导致影响船舶的识别精度。当超尺度块足够多时,可能会增加冗余信息的使用率及增加网络参数量,导致网络出现拟合现象,从而使识别精度下降。
HSSGAN方法迭代200次的精准率、损失率和混淆矩阵如图 2所示。图 2(a)表示训练和验证集的准确率(Accuracy);图 2(b)表示训练和验证集的损失率;图 2(c)表示测试集的混淆矩阵。
![]() |
Download:
|
图 2 HSSGAN的精准率、损失率和混淆矩阵 Fig. 2 Accuracy rate, obfuscation matrix and loss rate of HSSGAN |
从图 2中可看出,随着迭代次数的增加,精准率先增加然后处于稳定状态,损失率则下降一定程度后处于稳定状态。
HSSGAN方法对不同尺度船舶的检测效果如图 3所示。图 3(a)~图 3(c)的左部分为自导注意力对不同尺度变化船舶的热力图,右部分为识别结果。
![]() |
Download:
|
图 3 不同尺度的识别效果 Fig. 3 Recognition effects of different scales |
由图 3可看出,超尺度块能有效获取遥感船舶的超尺度特征,即对极端尺度的船舶特征具有较强的敏感性,特别是对尺度较小的船舶,如图 3(a)所示。这是因为超尺度块捕获了遥感船舶的高层语义,同时也融合了低层级信息。
自导注意力网络可对超尺度块的特征图逐步细化,并在局部和全局语义间建立长期依赖关系,同时进一步丰富上下文语义,强调相关特征的关联。该功能尤其对尺度较大的遥感船舶非常明显,如图 3(b)和图 3(c)所示。
2.3.2 与相关方法的比较为验证HSSGAN方法的优越性,与相关方法进行了对比,实验结果如表 2所示。
![]() |
下载CSV 表 2 与相关方法对比的实验结果 Table 2 Experimental results compared with relevant methods |
从表 2中可以看出,本文所提方法HSSGAN在精准率、召回率和F1-Score值上均取得最优效果,分别为0.961 58、0.973 01和0.966 78。这是因为超尺度块有效捕获了遥感船舶的超尺度特征,从多个尺度对目标船舶进行了描述,同时自导注意力网络使这些特征更加精细,让相关特征受到了更多关注。
相比于TP-FCN方法,CF-SDN和HSF-Net方法的识别效果更好,F1-Score值分别提高了0.095 81和0.117 34。因为这2种方法都采用了多尺度策略,从不同尺度对图像中的目标对象进行了描述,对比结果也证明了多尺度策略的有效性。
在小尺度上的识别效果如图 4所示,其中椭圆形圈表示该区域内无船舶。
![]() |
Download:
|
图 4 不同方法在小尺度上的识别效果 Fig. 4 Recognition effects of different methods on a small scale |
由图 4可知,TP-FCN方法虽然对椭圆形圈内的目标进行了精准识别,但对水中船舶的辨识度有待提高。CF-SDN和HSF-Ne方法将红色圈内的其他目标误识别成船舶,但对水上目标进行了正确识别。
2.3.3 自导注意力模块的研究为验证自导注意力网络对识别效果的影响,针对自导注意力网络进行了消融实验测试,结果如表 3所示,其中:Non-guided表示无自导注意力模块;PA-guided表示只使用了位置注意力模块;CA-guided表示只使用了通道注意力模块;加粗字体表示最大值。
![]() |
下载CSV 表 3 自导注意力模块的消融实验结果 Table 3 Ablation results of self-directed attention module |
从表 3中可以看出,无自导注意力模块的F1-Score值仅为0.942 20,识别效果最差。尽管位置注意力模块对船舶的识别效果有所提高,但通道注意力模块的识别效果要稍强于位置注意力模块,这证明在该数据集上通道注意力模块的贡献要高于空间注意力模块(PA-guided),即在船舶识别过程中,增加超尺度特征在类间的差异性能更好地提高识别效果,识别效果的可视化如图 5所示。
![]() |
Download:
|
图 5 识别效果的可视化 Fig. 5 Visualization of the recognition effect |
由图 5可知,图 5(b)和图 5(c)给出的识别效果一样,这是因为通道注意力模块的F1值仅比位置注意力模块提高了0.004 44,这进一步说明了两者共同使用的增强效果要高于单个组件,即所提的自导注意力模块细化的特征图更好地聚合了局部和全局语义。
3 结束语本文设计超尺度自导注意力识别框架,采用超尺度的子空间组捕获遥感船舶的超尺度特征和不同层级的结构信息,使用自导注意力模块逐步聚合相关的上下文语义及滤除冗余信息,增加特征在不同类之间的差异性,并突出相关信息的表征能力。实验结果表明,所提模型在定量和定性上均优于HSF-Net、CF-SDN、TD-FCN等其他相关方法。
[1] |
CHENG G, HAN J. A survey on object detection in optical remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 117(32): 11-28. |
[2] |
LI K, WAN G, CHENG G, et al. Object detection in optical remote sensing images: a survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159(45): 296-307. |
[3] |
LI W B, HE R. Remote sensing image aircraft target detection based on deep neural network[J]. Computer Engineering, 2020, 46(7): 268-276. (in Chinese) 李文斌, 何冉. 基于深度神经网络的遥感图像飞机目标检测[J]. 计算机工程, 2020, 46(7): 268-276. |
[4] |
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2005: 886-893.
|
[5] |
LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
[6] |
TAO C, TAN Y, CAI H, et al. Airport detection from large IKONOS images using clustered SIFT keypoints and region information[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 8(1): 128-132. |
[7] |
XIAO Z, LIU Q, TANG G, et al. Elliptic fourier transformation-based histograms of oriented gradients for rotationally invariant object detection in remote-sensing images[J]. International Journal of Remote Sensing, 2015, 36(2): 618-644. DOI:10.1080/01431161.2014.999881 |
[8] |
GIRSHICK R, DONAHUE J, DARRELL T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(1): 142-158. |
[9] |
HAN X, ZHONG Y, ZHANG L. An efficient and robust integrated geospatial object detection framework for high spatial resolution remote sensing imagery[J]. Remote Sensing, 2017, 9(7): 666. DOI:10.3390/rs9070666 |
[10] |
CHEN Z, ZHANG T, OUYANG C. End-to-end airplane detection using transfer learning in remote sensing images[J]. Remote Sensing, 2018, 10(1): 139. DOI:10.3390/rs10010139 |
[11] |
DENG Z, SUN H, ZHOU S, et al. Multi-scale object detection in remote sensing imagery with convolutional neural networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 3-22. DOI:10.1016/j.isprsjprs.2018.04.003 |
[12] |
ZHONG Y, HAN X, ZHANG L. Multi-class geospatial object detection based on a position-sensitive balancing framework for high spatial resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 138(23): 281-294. |
[13] |
DING P, ZHANG Y, DENG W J, et al. A light and faster regional convolutional neural network for object detection in optical remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 141(24): 208-218. |
[14] |
WANG C, BAI X, WANG S, et al. Multiscale visual attention networks for object detection in VHR remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 16(2): 310-314. |
[15] |
ZHENG Z, ZHONG Y, MA A, et al. HyNet: hyper-scale object detection network framework for multiple spatial resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166(14): 1-14. |
[16] |
HAQUE M R, MISHU S Z. Spectral-spatial feature extraction using PCA and multi-scale deep convolutional neural network for hyperspectral image classification[C]//Proceedings of the 22nd International Conference on Computer and Information Technology. Washington D.C., USA: IEEE Press, 2019: 1-6.
|
[17] |
SU B, LIU Y, FU J, et al. Reduction of motion artifacts in head CT exams using multi-scale convolutional neural network[EB/OL]. [2020-07-09]. https://www.researchgate.net/publication/339839413_Reduction_of_motion_artifacts_in_head_CT_exams_using_multi-scale_convolutional_neural_network.
|
[18] |
FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 3146-3154.
|
[19] |
YOU H F, TIAN S W, YU L, et al. Embedding remote sensing image detection segmentation based on Word Embedding[J]. Journal of Electronics, 2020, 16(1): 75-83. (in Chinese) 尤洪峰, 田生伟, 禹龙, 等. 基于Word Embedding的遥感影像检测分割[J]. 电子学报, 2020, 16(1): 75-83. DOI:10.3969/j.issn.0372-2112.2020.01.009 |
[20] |
LIU W, SUN Y, JI Q. MDAN-UNet: multi-scale and dual attention enhanced nested U-Net architecture for segmentation of optical coherence tomography images[J]. Algorithms, 2020, 13(3): 60-71. DOI:10.3390/a13030060 |
[21] |
LI Q, MOU L, LIU Q, et al. HSF-Net: multiscale deep feature embedding for ship detection in optical remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(12): 7147-7161. DOI:10.1109/TGRS.2018.2848901 |
[22] |
WU Y, MA W, GONG M, et al. A coarse-to-fine network for ship detection in optical remote sensing images[J]. Remote Sensing, 2020, 12(2): 246-253. DOI:10.3390/rs12020246 |
[23] |
LIN H, SHI Z, ZOU Z. Fully convolutional network with task partitioning for inshore ship detection in optical remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1665-1669. DOI:10.1109/LGRS.2017.2727515 |