基于多模态特征融合的三维点云分类方法

引用本文

顾砾, 季怡, 刘纯平. 基于多模态特征融合的三维点云分类方法[J]. 计算机工程, 2021, 47(2), 279-284. DOI: 10.19678/j.issn.1000-3428.0057147.

GU Li, JI Yi, LIU Chunping. Classification Method of Three-Dimensional Point Cloud Based on Multiple Modal Feature Fusion[J]. Computer Engineering, 2021, 47(2), 279-284. DOI: 10.19678/j.issn.1000-3428.0057147.

基金项目

国家自然科学基金(61972059, 61773272);江苏省高等学校自然科学研究重大项目(19KJA230001)

作者简介

顾砾(1993-), 女, 硕士研究生, 主研方向为图像处理、三维点云;
季怡, 副教授、博士;
刘纯平, 教授、博士、博士生导师

文章历史

收稿日期：2020-01-07
修回日期：2020-02-07

Contents Abstract Full text Figures/Tables PDF

基于多模态特征融合的三维点云分类方法

顾砾 , 季怡 , 刘纯平

苏州大学计算机科学与技术学院, 江苏苏州 215006

收稿日期：2020-01-07；修回日期：2020-02-07

基金项目：国家自然科学基金(61972059, 61773272);江苏省高等学校自然科学研究重大项目(19KJA230001)

作者简介：顾砾(1993-), 女, 硕士研究生, 主研方向为图像处理、三维点云; 季怡, 副教授、博士; 刘纯平, 教授、博士、博士生导师.

E-mail: 20175227030@stu.suda.edu.cn

摘要：针对点云数据本身信息量不足导致现有三维点云分类方法分类精度较低的问题，结合多模态特征融合，设计一种三维点云分类模型。通过引入投影图对点云数据信息进行扩充，将点云数据与图像数据同时作为输入，对PointCNN模型提取的点云特征与CNN模型提取的投影图特征进行加权融合，从而得到最终分类结果。在ModelNet40数据集上的分类结果表明，该模型的分类精度达到96.4%，相比PointCNN模型提升4.7个百分点。

Classification Method of Three-Dimensional Point Cloud Based on Multiple Modal Feature Fusion

GU Li , JI Yi , LIU Chunping

School of Computer Science & Technology, Soochow University, Suzhou, Jiangsu 215006, China

Abstract: Existing three-dimensional point cloud classification methods suffer from low classification accuracy caused by the lack of information in point cloud data.To address the problem, this paper combines the multiple modal feature fusion to propose a three-dimensional point cloud classification model.This model expands the point cloud data information by introducing projection image, and takes point cloud data and image data as the input at the same time. The point cloud features extracted by PointCNN model and the projection image features extracted by CNN model are weighted and fused to obtain the final classification results.The classification results on the ModelNet40 dataset show that the classification accuracy of the proposed model reaches 96.4%, which is an increase of 4.7 percentage points compared with the PointCNN model.

0 概述

近年来，三维物体识别是计算机视觉领域的研究热点之一。常见的三维图像表示方法有点云、网格、体素与多视角图像等，其中点云是结构简单且接近原始采集数据的方法，在自动驾驶及机器人学等方面具有广泛的应用前景。由于Kinect等廉价三维获取设备的快速发展使得点云数据更易获取，因此三维点云识别逐渐成为计算机视觉领域的主要研究内容。

点云分类是点云识别的一项重要前置任务，且传统的点云分类方法^[1-3]通常采用人工构建的描述子提取其几何特征，通过将点云转换为体素形式^[4]，再使用二维图像中常用的卷积神经网络（Convolutional Neural Network，CNN）对特征进行提取，并用于完成后续任务。该方法具有较好的普适性，但是体素形式的数据表现精度依赖于体素分辨率，而高分辨率引起的庞大计算量将限制其发展。由于人工设计的限制，传统方法普遍存在精度瓶颈以及鲁棒性不足的问题，且随着神经网络在二维图像感知领域的快速发展，研究人员逐渐将其运用到三维点云上学习点云特征。文献[5]构建一种创新性模型，该模型可以直接对原始点云进行处理，且在分类和分割任务上均取得良好效果，但其缺乏提取点云局部特征的能力。针对该问题，文献[6-7]通过引入多尺度来优化局部特征的提取性能。文献[8]提出更为简单高效的点云特征提取PointCNN模型，使得分类精度得到大幅提升，但与采用多视角图像作为输入的MVCNN^[9]、GVCNN^[10]等模型相比，该模型的整体性能偏低，这主要是由点云数据的本身信息量有限导致的。

本文在多模态特征融合的基础上，设计一种三维点云分类模型。为解决点云数据信息量不足的问题，该模型引入投影图作为补充，同时使用点云与图像作为输入，利用点云与图像的特征提取模块得到其对应的分类特征，并对特征进行加权线性融合得到最终分类结果。

1 相关工作

传统的点云特征是针对特定需求而手工设计的，例如描述局部表面变化的点特征直方图（Point Feature Histogram，PFH）以及用于全局路径规划的方向区间柱图（Vector Field Histogram，VFH）。随着深度学习在三维领域的发展，研究人员开始尝试利用机器自动学习点云特征。PointNet模型具有开创性，该模型是首个直接将三维点云作为输入的模型，且在点云分类和分割任务上取得显著成果。后续涌现出很多点云深度学习模型，如PointCNN、Point2Seq等。除点云外，其他基于三维表示法的深度学习模型也发展迅速，如基于投影图的MVCNN、GVCNN以及基于体素的VoxNet。

点云深度学习的难点之一是点云数据的信息量有限，除了继续深入研究点云特征提取方法外，还可以考虑通过引入其他三维表示法的数据进行补充。以往研究多数选择体素和点云数据相融合，而体素是一种不能直接获得的三维表示方法，通常需要从点云数据开始转换，这意味着如果原始点云数据存在缺失，则体素对应部分也会缺失，因此不能很好地用作信息补充。

投影图表示法的优势在于图像特征提取技术与其他技术相比已经非常成熟，采用简单模型即可获得较好的效果，但一般需要利用多视角采集来克服遮挡问题，而点云数据可弥补该不足。因此，本文选择采用二维投影图对信息进行扩充，将通过PointCNN得到的点云特征和二维CNN得到的投影图特征在分类层上进行融合，从而提高模型的分类效果。

2 多模态特征融合模型

针对点云数据自身信息量不足的问题，本文依据文献[11]中从其他模态引入信息进行弥补的思想，提出将点云特征和图像特征相结合的分类算法，以提高分类精度。基于多模态特征融合的点云分类模型如图 1所示。从图 1可知，模型存在2个分支，一个分支用于提取点云数据的特征，另一个分支用于提取图像特征，且对每个实例同时输入点云和图像数据。点云特征分支的原始输入是一个包含N个点的三维点云，且每个点有其对应的x、y、z坐标。图像特征分支的输入是分辨率为n×n的投影图，且带有RGB特征通道。点云和图像通过对应的特征提取模块和logSoftmax函数得到各自的分类置信度矩阵，将2个矩阵进行加权线性融合，最终得到输入实例的预测类别。

	Download: JPG larger image
图 1 基于多模态特征融合的点云分类模型 Fig. 1 Point cloud classification model based on multiple modal feature fusion

2.1 图像特征提取

CNN^[12]是深度学习的代表算法之一，随着深度学习理论的提出和计算设备的更替，它得到了快速发展，并被广泛应用于自然语言处理、计算机视觉等领域。自AlexNet^[13]开始，得到GPU加速支持的复杂CNN普遍用于提取二维图像特征，其中，最具代表性且使用最多的是VGG^[14]、ResNet^[15]模型及其改进算法^[16]。

图像特征提取模块选择较为普遍使用的VGG11、ResNet50和ResNeXt101三种模型，采用其在ImageNet1K上的预训练模型对数据集进行微调，以提高分类精度。每个输入实例得到的是一个M为40维的分类特征矩阵，并统一记为A_img。

2.2 点云特征提取

传统卷积算法是基于结构化数据（如图像、音频等）作为输入而设计的，然而三维点云是典型的非结构化数据，因此并不能将上述CNN直接作用于其点云数据上。文献[8]依据传统CNN思想提出基于点云的X-Conv操作，示例如图 2所示。其中，点的数量表示对应的通道数目。X-Conv操作的主要思想是通过递归的卷积操作，将选定点邻域中其他点的特征聚集到该点上（9→5→2），使得选定点包含更多信息。

	Download: JPG larger image
图 2 X-Conv操作示例 Fig. 2 Example of X-Conv operation

PointCNN的输入是一个三维点云，可表示为F₁={（p₁_，i，f₁_，i）：i=1，2，…，N₁}，即一组点集{p₁_，i，p₁_，i∈$\mathbb{R}$^Dim}及每个点对应的特征集{f₁_，i，f₁_，i∈$\mathbb{R}$^C₁}，C₁表示初始特征通道深度。X-卷积算子的目的是将输入的F₁转换为F₂={（p₂_，i，f₂_，i）：f₂_，i∈$\mathbb{R}$^C₂，i=1，2，…，N₂}，其中，{p₂_，i}是从{p₁_，i}中选定的点子集，N₂ < N₁且C₂ > C₁，这说明经过X-卷积转换后的F₂包含的特征点数减少，而对应的特征通道数增加。X-卷积如算法1所示。

算法 1 X-卷积算法

输入 K，p，P，F

输出 F_p将输入特征聚集到p点上

1.P^*←P-p//得到输入P相对于点p的坐标P^*

2.F_δ←MLP_δ（P^*）//将每个点映射到C_δ维空间中并逐点//使用多层感知机（MLP）

3.F^*←[F_δ，F]//将F_δ和F拼接为k×（C_δ+C₁）维的矩阵F^*

4.X←MLP（P^*）//根据P^*预测k×k维的X转换矩阵

5.F_X←X×F^*//将X和F^*相乘得到转换后的特征矩阵F_X

6.F_p←Conv（K，F_X）//对特征矩阵F_X进行传统卷积，卷积//核为K

本文用p表示{p₂_，i}中的一个点，p对应的特征为f，N表示点p在{p₁_，i}中的k近邻集，则点p在X-卷积中的对应输入是一个无序点集S={（p_i，f_i），p_i∈N}。S可不失一般性地表示为k×Dim维矩阵P=（p₁，p₂，…，p_k）^T和k×C₁维矩阵F=（f₁，f₂，…，f_k）^T，K表示可训练的卷积核。经过X-Conv后得到的输出F_p是输入特征在点p上的投影或集合。

X-卷积算子可简写为：

$ {\mathit{\boldsymbol{F}}_p} = {\rm{X}} - {\rm{Conv}}\left( {\mathit{\boldsymbol{K}}, p, \mathit{\boldsymbol{P}}, \mathit{\boldsymbol{F}}} \right) = {\rm{Conv}}\left( {\mathit{\boldsymbol{K}}, MLP\left( {\mathit{\boldsymbol{P}} - p} \right) \times \left[ {{\rm{ML}}{{\rm{P}}_\delta }\left( {\mathit{\boldsymbol{P}} - p} \right), \mathit{\boldsymbol{F}}} \right]} \right) $

(1)

点云特征提取模块结构如图 3所示，该模块由4个X-Conv卷积层和3个全连接层组成。N代表输入的特征点数，初始输入N为1 024，C为每个特征点输出时对应的特征通道数，K为计算时选择的近邻点个数，D表示空洞卷积^[17]中卷积核的间隔数量。4层X-Conv卷积层的参数分别为：N₁=1 024，C₁=48，K₁=8，D₁=1；N₂=384，C₂=96，K₂=12，D₂=2；N₃=128，C₃=192，K₃=16，D₃=2；N₄=128，C₄=384，K₄=16，D₄=3。在每个X-Conv卷积层和前2个全连接层后均使用ReLU激活函数，并在第2个全连接层后加入参数值为0.5的随机失活，最终每个输入实例得到一个M为40维的分类特征矩阵A_pc。

	Download: JPG larger image
图 3 点云特征提取模块结构 Fig. 3 Structure of point cloud feature extraction module

2.3 多模态特征融合

对于每个输入实例，经过上述特征提取模块后得到2个分别对应于点云和图像分类的40维特征矩阵A_pc与A_img。使用logSoftmax函数对特征矩阵得到分类置信度进行线性融合操作，从而得到分类结果。Softmax函数主要用于多分类任务中，logSoftmax函数是Softmax的一个变种，具有更好的数值稳定性，可简写为：

$ \log {\rm{Soft}}\max \left( {{\mathit{\boldsymbol{x}}_i}} \right) = \ln \left( {\frac{{\exp \left( {{\mathit{\boldsymbol{x}}_i}} \right)}}{{\sum\limits_j {\exp \left( {{\mathit{\boldsymbol{x}}_j}} \right)} }}} \right), i = 1, 2, \cdots , j $

(2)

输出值范围为[-inf，0），表示输入x_i对应每个类的概率。

融合过程可总结为：

$ \Pr {\rm{ed}}\;{\rm{Class = max}}\left[ {\lambda \cdot {\mathop{\rm logSfotmax}\nolimits} \left( {{\mathit{\boldsymbol{A}}_{{\rm{pc}}}}} \right) + {\mathop{\rm logSfotmax}\nolimits} \left( {{\mathit{\boldsymbol{A}}_{{\rm{img}}}}} \right)} \right] $

(3)

其中，λ表示融合时点云特征的权重，由实验得λ=0.4为最优值。

3 实验结果与分析

为评估模型在分类任务上的效果，本文采用由普林斯顿大学提出的ModelNet40数据集^[18]及其扩展的投影图集。ModelNet40数据集共有12 311个人造物体的CAD模型，分为40类，其中，9 843个用于训练，2 468个用于测试。它扩展的投影图集来自马萨诸塞大学阿姆赫斯特分校的研究MVCNN-new^[19]，是对ModelNet40中的模型通过不同角度投影所得，分为12个视角，共147 732张图像。本文主要使用的是视角1，具体的实验环境与配置如表 1所示。

下载CSV 表 1 实验环境与配置 Table 1 Experimental environment and configuration

对于点云特征提取模块，优化器为Adam，初始学习率为0.001，样本大小为32，共训练200个epoch；对于图像特征提取模块，优化器为Adam，初始学习率为0.000 1，样本大小为64，共训练30个epoch。

输入的三维点云数据是对ModelNet40数据集中原始物体模型的网格面上均匀采样1 024个点而得到的，并将其归一化到一个单位球面^[20]。输入的投影图数据则是对原始物体模型在某个固定角度的投影，部分输入可视化结果如图 4所示。

	Download: JPG larger image
图 4 输入数据示例 Fig. 4 Input data example

实验对本文模型在ModelNet40数据集上的分类准确率与其他三维模型分类网络输出精度进行对比，结果如表 2所示。其中，“√”表示模型选择的输入，“—”表示模型未选择的输入。从表 2可以看出，本文模型在分类任务上表现最佳，总体分类精度比基于点云输入的PointCNN和Point2Seq^[21]提高4.7和3.8个百分点，比基于投影图输入的GVCNN和MVCNN提高3.3和1.4个百分点，这是因为本文模型同时选择了点云和图像作为输入，所以本文模型在ModelNet40数据集上的分类性能够有大幅提升。

下载CSV 表 2 7种模型在ModelNet40数据集上的分类精度对比 Table 2 Comparison of classification accuracy of seven models on ModelNet40 dataset

实验考察了权重取值对点云特征在融合时分类精度的影响，结果如表 3所示。从表 3可以看出，随着权重的增大，本文模型的分类精度呈现先增大后降低的趋势，且当权重为0.4时分类精度最大。

下载CSV 表 3 不同权重下本文模型的分类精度对比 Table 3 Comparison of classification accuracy of the proposed model under different weights

为更好地对本文模型的各模块作用进行评判，以及更深入地挖掘点云特征和图像特征间的关系，本文采用不同的图像特征提取模块进行消融实验，结果如表 4所示。其中，“—”表示未选择的该模块或权重。从表 4可以看出：仅采用PointCNN点云特征提取模块时，得到的初始精度为91.6%，当加入图像特征提取模块后，模型的整体性有大幅提高，且模块的总精度随着图像模块精度的提升而逐渐增大；采用ResNext101提取图像特征时，模块的最高总精度为96.4%，通过引入权重来优化模型，具体表现出2个模块对最终结果的影响，即模块之间形成互补关系，且以图像模块为主、点云模块为辅。

下载CSV 表 4 消融实验结果 Table 4 Ablation experiment results

图 5是本文模型在ModelNet40数据集上取得最高精度时的混淆矩阵。由图 5可知，除花盆（flower_pot）类之外，本文模型在其他39类上都取得良好效果，花盆类多数被错判为植物类（plant）和花瓶类（vase），这主要是由该数据集本身导致的。

	Download: JPG larger image
图 5 本文模型的混淆矩阵 Fig. 5 Confusion matrix of the proposed model

4 结束语

本文设计一种基于多模态特征融合的三维点云分类模型。该模型同时以点云数据与图像数据作为输入，分别采用其各自的特征提取模块提取分类特征，并对提取的分类特征进行加权线性融合得到分类结果，以提高模型的分类准确率。通过ModelNet40数据集上的实验评估来选择最优图像特征提取模型，并验证了该模型相比其他模型的分类性能与精度均有大幅提升。下一步将引入图卷积神经网络对点云特征提取模块进行优化，以得到更为完整的局部特征，从而增强本文模型的特征表征能力并提高其分类性能。

参考文献

[1]	RUSU R B, MARTON Z C, BLODOW N, et al.Learning informative point classes for the acquisition of object model maps[C]//Proceedings of the 10th International Conference on Control, Automation, Robotics and Vision.Washington D.C., USA: IEEE Press, 2008: 643-650.
[2]	RUSU R B, BRADSKI G, THIBAUX R, et al.Fast 3D recognition and pose using the viewpoint feature histogram[C]//Proceedings of 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems.Washington D.C., USA: IEEE Press, 2010: 2155-2162.
[3]	WANG Jinjiang, CHEN Yang, TIAN Qingguo, et al. A feature point detection method for scattered point cloud based on point signature[J]. Computer Engineering, 2014, 40(7): 174-178. (in Chinese) 王晋疆, 陈阳, 田庆国, 等. 一种基于点签名的散乱点云特征点检测方法[J]. 计算机工程, 2014, 40(7): 174-178. DOI:10.3969/j.issn.1000-3428.2014.07.034
[4]	MATURANA D, SCHERER S.VoxNet: a 3D convolutional neural network for real-time object recognition[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems.Washington D.C., USA: IEEE Press, 2015: 922-928.
[5]	CHARLES R Q, HAO S, MO K C, et al.PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 652-660.
[6]	QI C R, YI L, SU H, et al.Pointnet++: deep hierarchical feature learning on point sets in a metric space[EB/OL].[2019-12-01].https://arxiv.org/pdf/1706.02413.pdf.
[7]	ZHAO Zhongyang, CHENG Yinglei, SHI Xiaosong, et al. Terrain classification of LiDAR point cloud based on multi-scale features and PointNet[J]. Laser & Optoelectronics Progress, 2019, 56(5): 243-250. (in Chinese) 赵中阳, 程英蕾, 释小松, 等. 基于多尺度特征和PointNet的LiDAR点云地物分类方法[J]. 激光与光电子学进展, 2019, 56(5): 243-250.
[8]	LI Yangyan, BU Rui, SUN Mingchao, et al. PointCNN:convolution on X-transformed points[J]. Advances in Neural Information Processing Systems, 2018, 31: 820-830.
[9]	SU H, MAJI S, KALOGERAKIS E, et al.Multi-view convolutional neural networks for 3D shape recognition[EB/OL].[2019-12-01].http://de.arxiv.org/pdf/1505.00880.
[10]	FENG Yiyan, ZHANG Zizhao, ZHAO Xibin, et al.GVCNN: group-view convolutional neural networks for 3D shape recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 264-272.
[11]	HEGDE V, ZADEH R.Fusionnet: 3D object classification using multiple data representations[EB/OL].[2019-12-01].https://arxiv.org/pdf/1607.05695v3.pdf.
[12]	LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541
[13]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386
[14]	SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2019-12-01].https://arxiv.org/pdf/1409.1556.pdf.
[15]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
[16]	XIE S N, GIRSHICK R, DOLLAR P, et al.Aggregated residual transformations for deep neural networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2017: 1492-1500.
[17]	WANG P Q, CHEN P F, YUAN Y, et al.Understanding convolution for semantic segmentation[C]//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision.Washington D.C., USA: IEEE Press, 2018: 1451-1460.
[18]	WU Z R, SONG S R, KHOSLA A, et al.3D ShapeNets: a deep representation for volumetric shapes[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1912-1920.
[19]	SU J C, GADELHA M, WANG R, et al.A deeper look at 3D shape classifiers[EB/OL].[2019-12-01].https://arxiv.org/pdf/1809.02560.pdf.
[20]	CIGNONI P, CALLIERI M, CORSINI M, et al.Meshlab: an open-source mesh processing tool[EB/OL].[2019-12-01].https://www.ixueshu.com/document/d4e62e8106997b29318947a18e7f9386.html.
[21]	LIU X H, HAN Z Z, LIU Y S, et al.Point2Sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network[EB/OL].[2019-12-01].https://arxiv.org/pdf/1811.02565.pdf.