2. 湖北省服装信息化工程技术研究中心, 武汉 430000
2. Engineering Research Center of Hubei Province for Clothing Information, Wuhan 430000, China
图像匹配是一种通过传感器获取不同条件下的待匹配图像,采用抽象形式提取图像特征并对特征进行参数描述,再运用所描述的参数进行匹配的方法[1],且作为计算机视觉领域的关键性技术而得到广泛应用。在影像医学方面,磁共振成像(Magnetic Resonance Imaging,MRI)技术因其良好的成像方式已成为一种常用和重要的疾病检测技术。利用MRI技术对人体的非均质柔性生物组织在不同情况状态下获得图像,并使用图像匹配技术计算出变形前后影像中的特征在目标图像上产生的精确位移,从而获得柔性生物组织弹性模量及泊松系数等物理参数,可应用于器官的损伤程度分析以及虚拟外科手术仿真过程中。
由于生物组织受力后形成的非规则、非线性变形场比器官蠕动、呼吸、肌肉伸缩等非线性医学影像配准[2]产生形变的程度更大且变形场更为复杂,并且柔性体变形场的测量精度要求高于影像配准。因此,实现快速、准确的图像特征点[3-5]描述是一项极具挑战性的难题。早期以手工特征为代表的尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)算法[6]在图像处理的实际应用中非常广泛,但是因其特征描述子维度过高会造成计算复杂度增加,难以满足实时要求且无法避免人工标注特征点带来的弊端以及特征表达欠缺的问题。
鉴于传统SIFT方法存在较为明显的局限性但易于融合其他方法进行相应改进[7-9]的特性,受图神经网络(Graph Neural Networks,GNN)[10]中每个实体(节点)间相互依赖的特性与注意力机制思想的启发,本文提出一种基于图神经网络与注意力机制相结合的特征描述方法。该方法利用多层感知机(Multi-Layer Perceptron,MLP)将特征点的位置信息映射到高维空间中,并通过与特征向量相结合,解决了将特征点构建到高维图结构中的问题。通过运用注意力机制的思想传递消息并更新各个节点的权重,利用线性投影得到的增强描述子来丰富描述特征的信息。
1 相关工作近年来,国内外研究人员在特征点描述方面做了大量工作与研究[11-13]。早期David Lowe教授提出的手工特征描述SIFT算法因其强大的优势而广泛应用至今,随后文献[14]提出的改进SURF算法有效提升了速度与实时性,文献[15]所提与深度学习相结合的特征描述算法SuperPoint在真实场景下表现出优异的性能。
虽然深度学习在欧氏空间中的数据方面取得了显著成绩,但是众多成功的案例表明,很多实际应用场景中的数据是从非欧式空间中生成的且需要进行有效分析。图神经网络是将深度学习应用在图数据上的一种神经网络结构,它借鉴了卷积网络、循环网络和深度自动编码器的思想,其中使用较为广泛的CNN是图卷积神经网络(Graph Convolutional Network,GCN)和图注意力网络(Graph Attention Networks,GAT)等。文献[16]首次将GCN用于图像语义分割并提出了Graph-FCN模型,因为使用卷积神经网络提取特征时,这些特征由于下采样的原因会导致局部位置信息的损失,而局部位置信息对于语义分割任务至关重要。网络层数的加深会使得感受野逐渐增大,此时网络不仅具备局部特征,而且可同时捕获到更加全面的特征,使得捕获的特征信息更加鲜明,该做法的优势是能够放大数据中最重要部分的影响,且该特性已被证明对机器翻译和自然语言理解等任务是有效的。文献[17]利用MLP对GNN提取的物品特征和节点特征进行评分预测推荐。随着融入注意力机制的模型数量持续增加,图神经网络在聚合过程中使用注意力可对多个模型的输出进行整合。文献[18]运用多层注意力神经网络对中文隐式篇章关系进行识别,并有效提高结果准确率。
目前,多数特征描述方法仅考虑特征点附近的局部特征信息,而忽视相邻关键点之间的联系,从而缺乏信息的丰富性并导致特征描述的信息缺失。为解决该问题,本文提出一种基于GAT的增强特征描述子。一方面通过消息传递机制可有效利用图神经网络中复杂的节点信息,另一方面运用注意力机制可摒弃无用和干扰信息,并有效完成对特征点的描述。
2 增强特征描述子 2.1 增强特征描述子基本框架本文提出一种基于注意力图神经网络的增强描述子,先运用多层感知机将关键点位置信息嵌入到高维空间中,再通过与初始描述子相结合来构建图神经网络模型。本文通过引入注意力机制来提高描述子生成模型的鲁棒性。借鉴人类视觉中的选择性视觉注意力机制,通过快速扫描源图像和目标图像来获取需要重点关注的相似目标区域,然后对该区域投入更多的计算资源,以获取更多需要关注的细节信息并抑制其他无用信息。本文增强特征描述框架如图 1所示。
|
Download:
|
| 图 1 本文所提增强特征描述框架 Fig. 1 Framework of the proposed enhanced feature description | |
关键点编码器利用多层感知机将图像中的关键点位置信息与关键点初始描述子相结合,并用于之后形成的复杂图结构。
在非均质柔性生物组织产生非线性形变时的二维MR影像上,采用高斯差分算子(Difference of Guassians,DoG)与Harris角点检测算子提取大量的特征点,并采用SIFT描述子对提取的特征点进行描述,从而得到初始描述子
| $ {\boldsymbol{x}}_{i}={\boldsymbol{d}}_{i}+\mathrm{M}\mathrm{L}\mathrm{P}\left({\boldsymbol{p}}_{i}\right) $ | (1) |
考虑到关键点在同一影像的空间和视觉关系,例如突出的关键点、自相似的关键点或相邻的关键点的同时,还应考虑从另一张目标图像中的局部特征获取信息。尤其是对比2个模棱两可的图片时,人们通常都会反复在2张图片之间查看,以筛选出试探性的匹配关键点,并通过寻找周围的线索来帮助区分相同与相似之处。基于此,本文在图神经网络中引入了注意力机制。在传统手工描述子的基础上,将图像内和图像间的特征进行聚合并得到增强描述子为
在由特征点构成的图结构中,节点为关键点,边则分为同一图像内关键点的边
| $ {}^{(L+1)}{\boldsymbol{x}}_{i}^{A}{=}^{\left(L\right)}{\boldsymbol{x}}_{i}^{A}+\mathrm{M}\mathrm{L}\mathrm{P}\left({[}^{\left(L\right)}{\boldsymbol{x}}_{i}^{A}\right|\left|{m}_{\varepsilon \to i}\right]) $ | (2) |
目标图像
| $ {m}_{\varepsilon \to i}=\sum\limits _{j:\mathrm{ }(i, j)\in \varepsilon }{w}_{ij}{v}_{j} $ | (3) |
其中,权重
键、查询和值被看作图神经网络深层特征的线性投影,则所要查询的关键点
| $ {\boldsymbol{q}}_{i}={w}_{1}^{\left(L\right)}{\boldsymbol{x}}_{i}^{Q}+{\boldsymbol{b}}_{1} $ | (4) |
| $ \left[\begin{array}{c}{\boldsymbol{k}}_{j}\\ {\boldsymbol{v}}_{j}\end{array}\right]=\left[\begin{array}{c}{w}_{2}\\ {w}_{3}\end{array}\right]{}^{\left(L\right)}\boldsymbol{x}_{i}^{S}+\left[\begin{array}{c}{\boldsymbol{b}}_{2}\\ {\boldsymbol{b}}_{3}\end{array}\right] $ | (5) |
在每一层
| $ {\boldsymbol{f}}_{i}^{A}=w{\cdot }^{\left(L\right)}{\boldsymbol{x}}_{i}^{A}+\boldsymbol{b} $ | (6) |
本文实验的主要步骤为:
步骤 1 对图像数据集进行预处理后,将大量源图像和形变图像输入到本文网络模型中。
步骤 2 采用DOG算子和Harris检测器分别从柔性生物组织形变前后的MR图像中提取出特征点。
步骤 3 对于步骤2得到的特征点,通过采用多层感知机将特征点位置信息编码并与特征点的初始描述符相结合,运用图注意力神经网络进行监督学习,并通过消息传递式来调整权值和偏置,以提升模型性能。
步骤 4 将源图像和形变图像的特征描述符作为结果进行输出。
与传统手工提取图片特征描述子方法相比,本文方法得到的特征描述子将包含更多的特征信息,且大幅提升特征描述子的健壮性。
3.2 实验数据 3.2.1 训练集对神经网络进行训练时,实验使用了多视图立体数据集(MVS)[19],它包含超过1.5M个64×64的灰度图像块以及来自不同视图的500K个3D点。同时,本文在该数据集基础上加入了两组真实采集的志愿者小腿的初始和变形MR图像,具体如图 2所示。在每对图像中,左图显示的是初始自然姿势,右图显示的是生物组织在一定力作用下的变形姿势。图 2(a)和图 2(b)分别显示了在脚背和脚趾上发生推力和挤压时小腿的变形情况。
|
Download:
|
| 图 2 志愿者小腿的初始和变形图像 Fig. 2 Initial and deformed images of the lower leg of volunteers | |
由于真实采集的志愿者MR图像样本容量较小,因此本文对图 2中的4张图片分别进行翻转、镜像、旋转、调节原图片亮度、对比度、高斯模糊、锐化以及添加噪声等操作,且每进行一种操作都将转化后的结果切分成64×64大小的图像块,具体如图 3所示。
|
Download:
|
| 图 3 经过一系列操作后得到的多个64×64图像块 Fig. 3 Multiple 64 × 64 image blocks are obtained after a series of operations | |
本文用真实采集的志愿者MR图像作为测试集。由于篇幅限制,这里仅显示4组测试图像并对其进行分析说明。如图 4所示,每组图像包括原图和变形后的图。图 4(a)为使用推力使腹部变形的图像;图(b)为使用压力使腹部变形的图像;图 4(c)和图 4(d)为志愿者在侧卧的情况下,腹部受到推压的变形影像。这些图像是由0.5 T的MRI设备拍摄的,其中的视野或FOV被设置为24 cm×24 cm,两个切片之间的距离是2 mm。
|
Download:
|
| 图 4 志愿者腹部的初始和变形图像 Fig. 4 Initial and deformed images of the abdomen of volunteers | |
本文系统采用MATLAB和Python混合编程技术实现。使用的工作环境包括一个2.60 GHz IntelⓇ CoreTM i7-9750H CPU和一个NVIDIA GeForce RTXTM 2060 GPU。
实验使用以下4个性能指标对实验结果进行评价:1)总匹配对的数量(NM);2)正确匹配对的数量(NCM);3)不正确匹配对的数量(NWM);4)检测率(DetectionRate),即正确匹配的对数占总匹配对数的百分比,其计算方法如式(7)所示:
| $ \mathrm{D}\mathrm{e}\mathrm{t}\mathrm{e}\mathrm{c}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\mathrm{R}\mathrm{a}\mathrm{t}\mathrm{e}\left(n\right)=\frac{\mathrm{N}\mathrm{C}\mathrm{M}}{\mathrm{N}\mathrm{M}}\times 100\mathrm{\%} $ | (7) |
由于在注意力模块中层数
|
Download:
|
| 图 5 层数L对检测率的影响 Fig. 5 Influence of the number of layers L on detection rate | |
图 6给出了不同L层数下的程序运行匹配所耗费的时间。从图 6可以看出,当
|
Download:
|
| 图 6 在不同层数L下程序运行耗费的时间 Fig. 6 The time of program running under different layers L | |
为验证本文设计模型的有效性与优越性,实验将本文提出的特征描述方法与SIFT、SURF、DAISY[20]与GIH[21]进行对比分析。其中SIFT和SURF都是基于高斯差分的描述子,且已经证明其对于仿射变换是健壮的。DAISY是面向稠密特征提取的可快速计算的局部图像特征描述子,它的本质思想和SIFT是一样的,但不同的是DAISY在分块策略上进行了改进,而GIH是专门为处理非刚性图像变形而设计的描述子。上述描述子均使用最近邻匹配方法进行比较。从图 7(a)和图 7(c)可以看出,本文算法和最近邻匹配方法相结合所获得的总匹配对数均多于其他方法,但正确匹配对数与SIFT方法相比尚显不足。从图 7(b)和图 7(d)可以看出,本文方法和最邻近匹配方法所获得的正确匹配对数明显优于其他方法,尤其是在图 7(b)的实验结果中,本文方法所获得的正确匹配对数明显高于其他方法,主要是因为在AbdPress实验中,下半部分所产生的形变较小,从而导致总匹配对数和正确匹配对数异常高。
|
Download:
|
| 图 7 5种方法在不同实验上的结果 Fig. 7 Results of five methods on different experiments | |
图 8给出了不同方法在不同实验上所得的检测率结果。在图 8(b)AbdPress实验结果和图 8(d)SAbdPush2实验结果中,本文方法获得的检测率均高于其他方法。由于SIFT方法对于形变程度较小的两幅图片匹配具有一定优势,因此在图 8(a) AbdPush的实验结果中,SIFT方法的检测率高于本文方法及其他方法。在8(c)SAbdPush1的实验结果中,DAISY方法因其对稠密特征的提取方法较为突出,使得其检测率高于其他方法。从实验总体可以看出,本文方法在实验中获得的检测率均处于较高水平且具有比较稳定的效果,但是相较于各种方法的优势之处仍有提高的空间。
|
Download:
|
| 图 8 5种方法在不同实验上的检测率 Fig. 8 Detection rate of five methods on different experiments | |
图 9是使用推力使腹部变形的图像初始图像和变形图像完整的实验结果,其中图 9中圆圈所标记出来的点是被DOG和Harris从初始图像中提取出来的107对特征点,白线是经过本文算法+NN得出的正确匹配点的连线。
|
Download:
|
| 图 9 Abdomen push(AbdPush)实验结果 Fig. 9 The experimental results of Abdomen push(AbdPush) | |
本文提出基于注意力图神经网络的增强描述子,该描述子将注意力机制融入图神经网络中,运用注意力机制中的自我注意和交叉注意方法设置适合的层数,并通过融合相邻节点信息来描述特征点。实验结果表明,与传统描述子相比,该描述子通过结合最近邻匹配算法可提升正确匹配对数和检测率,且对优化MR影像特征点的匹配具有重要的应用价值。下一步将通过加入零样本或少样本的思想方法来优化网络模型,以解决MR影像实际样本较为匮乏的问题。
| [1] |
HU Lichao, SHI Zaifeng, PANG Ke, et al. Improved Harris feature point detection algorithm for image matching[J]. Computer Engineering, 2015, 41(10): 216-220. (in Chinese) 扈立超, 史再峰, 庞科, 等. 用于图像匹配的改进Harris特征点检测算法[J]. 计算机工程, 2015, 41(10): 216-220. DOI:10.3969/j.issn.1000-3428.2015.10.040 |
| [2] |
BO Lianbin, DIAO Haifeng, SUN Dedi, et al. Multi-modality medical image registration based on gradient generalized nearest-neighbor graph[J]. Computer Engineering, 2012, 38(10): 200-202. (in Chinese) 卜令斌, 赵海峰, 孙登第, 等. 基于梯度广义近邻图的多模医学图像配准[J]. 计算机工程, 2012, 38(10): 200-202. |
| [3] |
HATTIS C G, STEPHENS M J. A combined corner and edge detector[EB/OL]. [2020-05-20]. https://max.book118.com/html/2017/0614/114991147.shtm.
|
| [4] |
MIKOLAJCZYK K, SCHMID C. A performance evaluation of local descriptors[J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630. DOI:10.1109/TPAMI.2005.188 |
| [5] |
LU Lai, WANG Junmin, FAN Rui. Binary descriptor for images based on Adaboost[J]. Computer Engineering, 2016, 42(6): 230-234, 240. (in Chinese) 卢来, 王军民, 范锐. 基于自适应增强的图像二值描述子[J]. 计算机工程, 2016, 42(6): 230-234, 240. DOI:10.3969/j.issn.1000-3428.2016.06.041 |
| [6] |
LOWE D G. Distinctive image features from scale invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 |
| [7] |
YIN Chunxia, XU De, LI Chengrong, et al. SIFT feature detection and matching based on salient map[J]. Computer Engineering, 2012, 38(16): 189-191. (in Chinese) 尹春霞, 徐德, 李成荣, 等. 基于显著图的SIFT特征检测与匹配[J]. 计算机工程, 2012, 38(16): 189-191. |
| [8] |
CHENG Dezhi, LI Yanjun, YU Ruixing. Image matching method based on improved SIFT algorithm[J]. Computer Simulation, 2011, 28(7): 285-289. (in Chinese) 程德志, 李言俊, 余瑞星. 基于改进SIFT算法的图像匹配方法[J]. 计算机仿真, 2011, 28(7): 285-289. DOI:10.3969/j.issn.1006-9348.2011.07.071 |
| [9] |
RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2012: 1-8.
|
| [10] |
WU Zonghan, PAN Shirui, CHEN Fengwen, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 99: 1-21. |
| [11] |
ROSTEN E, DRUMMOND T. Machine learning for high-speed corner detection[C]//Proceedings of the 9th European Conference on Computer Vision. Graz, Austria: [s. n. ], 2006: 430-443.
|
| [12] |
ROSTEN E, DRUMMOND T. Fusing points and lines for high performance tracking[C]//Proceedings of ICCV'05. Washington D.C., USA: IEEE Press, 2005: 1508-1511.
|
| [13] |
GUAN Shiyong, LIU Lizhong, YAN Bin, et al. An image feature descriptor based on stable region[J]. Computer Engineering, 2012, 38(18): 186-189. (in Chinese) 管士勇, 陆利忠, 闫镔, 等. 一种基于稳定区域的图像特征描述子[J]. 计算机工程, 2012, 38(18): 186-189. |
| [14] |
BAY H, TUYTELAARS T, VAN G L. SURF: speeded up robust features[C]//Proceedings of the 9th European Conference on Computer Vision. Graz, Austria: [s. n. ], 2006: 404-417.
|
| [15] |
DETONE D, MALISIEWICZ T, RABINOVOCH A. Superpoint: self-supervised interest point detection and description[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington D.C., USA: IEEE Press, 2018: 1-12.
|
| [16] |
LU Yi, CHEN Yaran, ZHAO Dongbin, et al. Graph-FCN for image semantic segmentation[J]. Advances in Neural Networks, 2019, 11554: 97-105. |
| [17] |
FAN Weiqi, MA Yao, LI Qing, et al. Graph neural networks for social recommendation[C]//Proceedings of the World Wide Web Conference. New York, USA: ACM Press, 2019: 417-426.
|
| [18] |
XU Sheng, WANG Tishuang, LI Peifeng, et al. Multi-layer attention network based on Chinese implicit discourse relation recognition[J]. Journal of Chinese Information Processing, 2019, 33(8): 12-19, 35. (in Chinese) 徐昇, 王体爽, 李培峰, 等. 运用多层注意力神经网络识别中文隐式篇章关系[J]. 中文信息学报, 2019, 33(8): 12-19, 35. DOI:10.3969/j.issn.1003-0077.2019.08.002 |
| [19] |
NI Tongguang. A study on classification and feature selection based on transfer learning and its application[D]. Wuxi: Jiangnan University, 2015. (in Chinese) 倪彤光. 基于迁移学习的特征选择与分类方法及其应用研究[D]. 无锡: 江南大学, 2015. |
| [20] |
TOLA E, LEPETIT V, FUA P. DAISY: an efficient dense descriptor applied to wide-baseline stereo[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(5): 815-830. DOI:10.1109/TPAMI.2009.77 |
| [21] |
LIANG H, JACOBS D W. Deformation invariant image matching[C]//Proceedings of the 10th IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2005: 1-9.
|
2021, Vol. 47

,