一种面向低采样率的点云数据处理网络

引用本文

张毅, 林云汉, 刘双元. 一种面向低采样率的点云数据处理网络[J]. 计算机工程, 2022, 48(11), 240-246. DOI: 10.19678/j.issn.1000-3428.0063204.

ZHANG Yi, LIN Yunhan, LIU Shuangyuan. A Point Cloud Data Processing Network Oriented to Low Sampling Rate[J]. Computer Engineering, 2022, 48(11), 240-246. DOI: 10.19678/j.issn.1000-3428.0063204.

基金项目

国家自然科学基金（62073249）；湖北省自然科学基金青年项目（2020CFB116）；湖北省技术创新专项重大项目（2019AAA071）

通信作者

林云汉(通信作者), 讲师、博士

作者简介

张毅(1997—), 男, 硕士研究生, 主研方向为三维视觉;
刘双元, 硕士研究生

文章历史

收稿日期：2021-11-11
修回日期：2021-12-27

Contents Abstract Full text Figures/Tables PDF

一种面向低采样率的点云数据处理网络

张毅^1,2 , 林云汉^1,2,3 , 刘双元^1,2

1. 武汉科技大学计算机科学与技术学院, 武汉 430065;
2. 智能信息处理与实时工业系统湖北省重点实验室, 武汉 430065;
3. 武汉科技大学机器人与智能系统研究院, 武汉 430081

收稿日期：2021-11-11；修回日期：2021-12-27

基金项目：国家自然科学基金（62073249）；湖北省自然科学基金青年项目（2020CFB116）；湖北省技术创新专项重大项目（2019AAA071）

作者简介：张毅(1997—), 男, 硕士研究生, 主研方向为三维视觉; 刘双元, 硕士研究生.

通信作者：林云汉(通信作者), 讲师、博士.

E-mail: yhlin@wust.edu.cn

摘要：在直接处理点云的三维神经网络中，采样阶段实现了对原始点云中关键点的筛选，对于整个网络的性能及网络的抗噪能力具有重要作用。目前主流的最远点采样（FPS）方法在处理大规模3D点云数据时计算量大且耗时，并且低采样率时经过FPS采样后模型性能下降明显。针对这两个问题，提出一种面向低采样率的点云数据处理网络AS-Net。设计一个新的采样模块代替原backbone中的FPS，其由两个Layer组成，每个Layer基于长短期记忆网络获取原始点云与采样点云之间的联系权重，从而高效提取关键信息，去除冗余信息。在此基础上，利用注意力机制选择特征值较高的原始点云作为采样点，采样点作为后序任务的关键点输入到网络，进一步提高网络模型性能。基于ModelNet40数据集的实验结果表明，在低采样率条件下，AS-Net仍可达到81.6%的分类准确率，与使用FPS作为采样方法的网络模型相比提高52.7%。此外，其对噪声干扰具有很强的鲁棒性，对于大场景的分割时间效率优于同类采样方法。

A Point Cloud Data Processing Network Oriented to Low Sampling Rate

ZHANG Yi^1,2 , LIN Yunhan^1,2,3 , LIU Shuangyuan^1,2

1. College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China;
2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan, 430065, China;
3. Institute of Robotics and Intelligent Systems, Wuhan University of Science and Technology, Wuhan 430081, China

Abstract: Point-cloud data sampling, grouping and fusion have been applied in several state-of-the-art networks to improve their segmentation and classification results.Among these, the sampling stage maintains the key points of the original point cloud, which plays an important role in the performance and anti-noise ability of the network.However, two defects limit the application of models based on Farthest Point Sampling(FPS) to large-scale 3D point-cloud data: (1) FPS requires considerable computation and time; (2) at low sampling rates, the performance of the model under FPS significantly decreases.To solve those two problems, a point cloud data processing network oriented to low sampling rate, AS-Net, is proposed, which uses a new sampling module to replace FPS in other backbones.The sampling module is composed of two layers: (1) a Long Short-Term Memory(LSTM) network structure; (2) an attention mechanism.LSTM is used as the feature extraction method to obtain the relational weight relative to the subsequent tasks, efficiently extract key information, and remove redundant information.The attention mechanism is used to select the original point cloud with a high eigenvalue point as the sampling point; sampling points are input to the network as key points of the subsequent tasks to improve the performance of the network model.Experiments show that the proposed method still achieves a classification accuracy of 81.6% on the ModelNet40 dataset at a low sampling rate, which is 52.7% higher than that of the same network using FPS.In addition, the proposed method has a strong robustness to noise interference, and its segmentation time efficiency for large scenes is better than that of similar algorithms.

开放科学（资源服务）标志码（OSID）：

0 概述

三维数据是一种空间立体图像，其不仅包含二维数据具有的颜色信息，而且还携带独有的深度信息，在自主导航^[1-2]、增强现实^[3]、物体识别^[4-5]、机器人^[6-7]等众多领域都有着广泛的应用。近年来，随着基于深度学习的方法在二维数据处理方面取得重大突破，众多研究者开始尝试利用深度学习算法来替代传统的算法实现高效的三维数据处理。不同于二维图像数据的规则排列方式，三维的点云数据是无序的，因此直接进行卷积时存在以下三个问题：一是点云的无序性，点云数据对数据的顺序不敏感，导致点云分布不规律；二是点云数据的排列不变性，不同的矩阵可以表示相同的点云数据；三是点云数量的差异性，对于同一幅图像，不同的传感器获取的点云数量可能存在很大差异。

现有基于深度学习处理点云数据的方法主要可以分为基于多视图、基于体素和直接处理三类。其中，直接处理点云的方法很好地解决了对点云数据直接进行卷积时存在的问题，受到了广泛的关注与研究。对点云进行直接处理的一系列网络主要由采样、分组和融合三个模块组成。其中，采样的算法包括最远点采样（Farthest Point Sampling，FPS）和随机采样（Random Sampling，RS）两种。例如，PointNet++^[8]和RSCNN^[9]使用FPS进行采样，RandLA-Net^[10]则是利用RS进行采样。经过FPS采样的点会均匀覆盖到物体表面，但是在点云密度分布不均匀的情况下，采样点不具有代表性，而且由于采样点对异常值敏感，在采样时会选中原始点云中距离物体表面较远的噪点作为采样点。此外，FPS的时间效率也较低，特别是在大规模场景下，采样效率无法满足网络实时性的要求。在普通电脑配置下，对10万个点进行采样，FPS所需时间量级是秒级，而RS的时间量级则是毫秒级，RS比FPS快至少1 000倍以上。对于RS，其应用前提是原始点云数据中点云被选择的概率相同。相比于FPS，虽然RS的速度很快，但是由于随机采样过程中所有点被选择的概率是相同的，因此最终采样的结果中会包含一些关键特征的点或者离群点，造成物体关键特征信息的缺失和算法对噪声点敏感。

为解决FPS算法时间效率和RS算法关键特征丢失问题，本文参考人类观察事物的注意力模式，提出一种基于注意力机制的采样网络。设计注意力采样（AS）模块用于收集语义和任务信息，有效提取原始点云数据中的关键点。在此基础上，提出一种易于合并到不同backbone中的注意力采样架构，构成面向低采样率的点云数据处理网络AS-Net。

1 相关工作

AS-Net网络结构如图 1所示，将n个点输入到网络，然后通过两个抽象阶段和一个任务阶段，再使用对称函数融合点的特征后，最终输出k个类的分类分数。其中，抽象阶段由注意力采样（AS）模块、分组（GP）模块和融合模块组成。

	Download: JPG larger image
图 1 AS-Net网络架构 Fig. 1 Network architecture of AS-Net

1.1 基于多视图的点云处理方法

2015年起，很多研究将处理二维图像过程中使用卷积神经网络的方式^[11-12]应用到点云的处理中，其核心思想是使用很多不同视角的二维图像来代替三维点云数据，之后再进行处理，例如MVCNN^[13]，该方法在ModelNet40上的分类准确率达到90.1%。GVCNN^[14]在MVCNN的基础上加入了对各视图间关系的考虑，在ModelNet40上的分类准确率达到93.1%。这类处理方法虽然具有大量的视角图像，但依然会丢失信息，无法将三维模型完全表示出来。而使用这类方法应考虑的另一个问题是如何聚合多个视图的特征以实现提取特征的利用率最大化。

1.2 基于体素的点云处理方法

基于体素的点云处理方法将点云转为体素网格来表示，以体素为单位进行卷积，使用三维滤波器来训练卷积神经网络，例如VoxNet^[15]。然而，当三维点云数据十分庞大时，三维卷积神经网络会处理得十分缓慢。因此，为保障网络的正常训练，通常会选择使用低分辨率的体素网格进行训练，但这样会带来大量的点云信息丢失，最终导致很大的误差。对于这类方法，如果体素化的数据分辨率设置过低，会给后续任务带来误差，而如果分辨率设置过高，则会导致计算复杂度太大，因此，很难在这两者之间取得平衡。

无论是基于多视图的方法还是基于体素的方法，都需要对原始数据进行转换，这种转换不仅会导致模型复杂度过高，而且还会造成三维几何信息的丢失。

1.3 直接点云处理方法

2017年，斯坦福大学的QI等^[16]提出了一种直接处理点云数据的神经网络PointNet，实现了对点云的直接特征提取。PointNet利用设计的T-Net处理点云的置换不变性问题，通过对称函数来获取全局的特征信息，解决点云的无序性问题，针对物体分类、部件分割以及场景语义分割等任务提出了统一框架。然而，虽然这种设计十分简单高效，但是却忽略了点云中的局部信息。同年，QI等^[8]在PointNet的基础上提出了PointNet++，通过学习不同尺度的上下文信息来融合局部特征。该算法的核心是多层次的特征提取结构。首先在输入点中选择一些点作为中心点，然后围绕每个中心点选择一个区域，再将每个区域作为PointNet的一个输入样本，得到一组区域特征。之后中心点不变，扩大区域，把上一步得到的区域特征输入PointNet，依此类推，最终得到一组全局的特征，用于后续任务。此外，PointNet++还使用了多尺度的方法，解决了样本不均匀的问题，在样本稀疏时具有鲁棒性。2019年，LIU等^[9]提出了RSCNN，其为一种基于点云之间几何关系的卷积神经网络，核心是建立点云间的拓扑约束关系，利用点云的形状关系数据学习出卷积核里面的参数。学习后的卷积核参数包含了点云的形状关系信息，可使整个网络对点云刚体变换更具鲁棒性。2020年，ZHAO等^[17]提出了基于Transformer的点云处理网络PAT，利用Transformer的置换不变性在不同的实验任务中取得了较好的效果。同年，朱威等^[18]提出了一种基于动态图卷积的深度学习网络，将PointNet中的特征学习模块替换为动态图卷积模块，提高了整个网络对局部信息的学习能力，在分类和分割的任务上具有很高的精度。2021年，顾砾等^[19]在PointCNN的基础上提出了一种基于多模态特征融合的网络模型^[20]，在对点云直接特征提取前提下，融入了投影图的特征信息，该网络模型在ModelNet40数据集上分类精度达到96.4%。2021年，田钰杰等^[21]提出深度神经网络RMFP-DNN，利用自注意力模块和多层感知机提取点云的局部特征和全局特征，并将提取的特征互相融合，提高了分类分割的鲁棒性。

在三维视觉的实际应用中，不仅要处理完整均匀且数据量较少的CAD数据集模型，而且还要处理数据量多的实际点云数据。PointNet++^[8]和RSCNN^[9]可以很好地处理像ModelNet40这样的CAD数据集，但是直接处理点云的三维神经网络大多包含了采样这个核心步骤，例如PointNet++和RSCNN中都包含最远点采样（FPS），对大规模实际点云的处理效率低下。除了高复杂度以外，FPS与三维网络训练是分开计算的，这意味着仅基于点云低级信息来选择关键点而不考虑对象语义和任务消息。本文主要的设计思想便是设计一个可以代替独立采样过程的采样层，并将该采样过程集成到其他任务网络中进行基于数据驱动的端到端训练。在此基础上，提出一种基于长短期记忆（Long Short-Term Memory，LSTM）网络和注意力机制的采样层AS Layer，然后将注意力采样层连接起来，形成一个可以设置采样率的注意力采样模块AS Module。将其他网络模型中的采样模块替换为AS Module，形成最终的网络AS-Net，即AS-Net由其他网络的backbone和AS Module组成。

LSTM网络是一种特殊结构的循环神经网络，能够很好地解决长期依赖的问题，在语音识别、文本建模、翻译、行为预测、视频理解等领域取得了成功应用。然而，LSTM存在一定局限性，当输入序列较长时，难以得到最终合理的向量表示。为了解决这个问题，注意力机制被提出。在注意力机制中，LSTM的中间结果被保留，然后通过新模型进行学习，最后与输出相关联以实现对信息的筛选^[22]。近年来，基于注意力机制的网络也被应用于三维数据的处理，例如：3D2SeqViews^[23]利用层次注意力的方法来处理视图中的海量信息以及视图之间的空间关系，有效融合了序列视图；SeqViews2SeqLabels^[24]引入了注意力机制以提高网络的判别能力并为每种形状类别添加相应的权重；Point2Sequence^[25]通过使用注意力机制将权重分配给不同的区域比例。在现有的3D网络中，注意力机制用于对网络中的特征信息进行加权，而基本方案还是基于二维多视图的图像处理。

本文提出的AS-Net是一种直接处理点云的三维网络。注意力机制用于构建下采样模块，对点云进行加权以获得原始点云数据的加权特征。经过本文设计的下采样模块采样的点，可以保留更多关键信息，特别是在处理大规模场景时可以保证网络的准确性。

2 本文方法

AS-Net网络结构如图 1所示，其中包括由本文设计的AS Layer构成的AS Module和其他网络的backbone。

2.1 AS Layer

AS Layer主要由LSTM组成，如图 2所示。

	Download: JPG larger image
图 2 AS Layer结构 Fig. 2 Structure of AS Layer

AS Layer的目的是生成点云的注意力图，这张注意力图将会引导之后的分组层和融合层专注于更加重要的点。采样方法如式（1）所示：

$ {P}_{t}=\mathrm{A}\mathrm{S}({P}_{t-1}, {H}_{t-1}, {C}_{t-1}, N) $

(1)

其中：P_t是采样后的点集；$ {P}_{t-1} $是输入的原始点云数据或者是上一层采样后的点云数据；$ {H}_{t-1} $和$ {C}_{t-1} $是上一层的隐藏层特征和细胞状态特征；N为LSTM的循环次数。在训练过程中，$ {H}_{t-1} $和$ {C}_{t-1} $的初始值均为0，N表示的是经过AS Module采样后的点云数目，可以手动设置为任意值。

本文使用LSTM网络中的“门”结构来对原始点云数据进行特征提取，并生成原始点云数据的注意力特征图。注意力特征图的大小和输入的原始点云的大小相同，通道数为1，经过Sigmoid激活函数之后，得到了每个点相对于后续任务的重要性，也就是注意力强度。本文设计的AS Layer包含以下4个主要的步骤：

步骤1 确定需要丢弃的信息，如式（2）所示：

$ {F}_{t}=\sigma \left({W}_{\mathrm{f}}\right[{H}_{t-1}, {F}_{t-1}^{p}]+{b}_{\mathrm{f}}) $

(2)

其中：$ {F}_{t} $指的是遗忘门输出；$ {H}_{t-1} $和$ {F}_{t-1}^{p} $分别是上个隐藏层的特征信息和输入点云的特征信息；W_f表示权重；b_f表示偏差。

步骤2 确定需要保留的信息以及状态的更新方法，如式（3）和式（4）所示：

$ I=\sigma \left({W}_{i}\right[{H}_{t-1}, {F}_{t-1}^{p}]+{b}_{i}) $

(3)

$ C={F}_{t}\odot {C}_{t-1}+{I}_{t}\times \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({W}_{\mathrm{c}}\right[{H}_{t-1}, {F}_{t-1}^{p}]+{b}_{\mathrm{c}}) $

(4)

首先，通过输入门保留数据并更新状态值。然后，计算上一层的状态$ {C}_{t-1} $与遗忘门f_t的乘积以放弃不必要的信息，例如离群点或者NaN点。最后，计算输入门与tanh激活层所构建的新候选向量的乘积，从而更新状态C_t。

步骤3 确定输出值，如式（5）和式（6）所示：

$ {O}_{t}=\sigma \left({W}_{\mathrm{o}}\right[{H}_{t-1}, {F}_{t-1}^{p}]+{b}_{\mathrm{o}}) $

(5)

$ {H}_{t}={O}_{t}\times \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({C}_{t}\right) $

(6)

利用上一个隐藏层的特征信息和输入点云的特征信息，先计算出输出门信息，然后根据输出门O_t和经过tanh激活层的状态C_t的乘积得到最终的输出值H_t。

步骤4 将输出值激活并映射到0到1之间，如式（7）所示：

$ {A}_{t}=\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}({W}_{t}\cdot {H}_{t}+{b}_{t}) $

(7)

其中：A值越大，表示该点对于后续任务的相关性越高，最终得到一份全局点云信息的注意力图。

2.2 AS Module

AS Module由多个AS Layer连接而成，每层Layer可以根据其输出的注意力图选择若干关键点，并将选择的关键点作为采样结果提供给下一层。AS Layer的层数和每层后的选择点数可根据实际需要设置。在本文中，综合考虑网络的时间性能和采样性能，经实验验证，采用两个AS Layer组成的AS Module性能最佳。AS Module结构如图 3所示。本文设计的AS Module的采样率是一个变量，这意味着可以根据实际采样需求手动设置不同的采样率。

	Download: JPG larger image
图 3 AS Module结构 Fig. 3 Structure of AS Module

3 实验与结果分析

本文通过分类实验和抗噪实验验证AS Module的有效性，设计消融实验验证AS Module中Layer参数选择的合理性，并在物体分类任务和大场景分割任务上验证AS-Net模型的准确性。对于AS Module的验证，在同一基准网络PointNet上执行不同的采样方法，以验证AS Module对物体分类的精度和对高斯噪声的鲁棒性。对于AS-Net的验证，包括三维物体分类和大场景分割两个方面的实验测试。本文实验使用Tensorflow框架，在11 GB内存的NVIDIA GeForce GTX 1080 Ti GPU上进行，操作系统为Ubuntu 16.04。

3.1 AS Module对物体分类的精度验证

在本节中，以PointNet为基准网络架构，分别使用FPS方法、RS方法以及AS Module对原始点云进行采样处理，测试不同的采样方法对原始数据的采样效果，以物体分类的精度作为评价指标。测试数据集为ModelNet40数据集，数据集包含40类物体的12 311个CAD模型，其中9 843个用于训练，2 468个用于测试。

本文使用FPS方法、RS方法和AS Module对原始数据进行下采样，将原始数据下采样到原始数据的1/2、1/4、1/8、1/16和1/32。然后，将采样点作为PointNet的输入来测试分类精度。测试结果如表 1和图 4所示，表中最优数据以加粗标注。

下载CSV 表 1 不同采样率下各采样方法的分类精度对比 Table 1 Classification accuracy comparison of each sampling method under different sampling rates

	Download: JPG larger image
图 4 本文方法与FPS、RS方法的分类精度对比 Fig. 4 Classification accuracy comparison among FPS, RS methods and the proposed method

表 1和图 4表明，当采样数据为原始数据的1/4时，基于FPS和RS的网络分类准确率分别为82.0%和75.0%，而基于AS Module的分类准确率仍达到87.1%。此外，当采样数据为原始数据的1/32时，基于FPS和RS的网络已经不能对物体准确分类，而AS Module的分类精度仍然在80%以上（81.6%），证明了基于AS Module的网络具有很强的鲁棒性。整体的实验结果表明，AS Module可以在无序点云中准确地找到与后续任务相关性高的采样点。

图 5~图 7展示了ModelNet40数据集中人型模型利用不同采样方法的可视化结果。可以看出，本文方法可以更好地保留原始模型中比较突出特征的关键点，准确分辨出球、头部以及四肢的形状。

	Download: JPG larger image
图 5 人模型采用RS方法的可视化结果 Fig. 5 Visualization results of humanoid model using RS method

	Download: JPG larger image
图 6 人模型采用FPS方法的可视化结果 Fig. 6 Visualization results of humanoid model using FPS method

	Download: JPG larger image
图 7 人模型采用AS Module方法的可视化结果 Fig. 7 Visualization results of humanoid model using AS Module method

3.2 AS Module对高斯噪声的鲁棒性验证

在每个点上添加均值为0、标准差为0.05 dB或0.1 dB高斯噪声，然后对比不同的采样方法对于PointNet分类准确率的影响，结果如表 2所示，表中最优数据以加粗标注。可以看出，在不同的采样率下，在标准差为0.05 dB或0.1 dB的高斯噪声下，AS Module都获得了更高的物体分类准确率。

下载CSV 表 2 不同采样方法对扰动噪声的鲁棒性测试结果 Table 2 Robustness test result of different sampling methods to disturbance noise

以上两个实验的结果证明，本文提出的AS Module可以很好地从原始点云数据中挑选出含有更多信息的关键点，可在整个三维网络中实现高精度的物体分类提供可靠保证。

3.3 三维物体分类

将主流的直接处理点云的网络中的采样方法替换成AS Module，形成不同的AS-Net。本节实验证AS-Net在三维物体分类上的性能，实验设定与PointNet一样，在ModelNet40数据集上进行评估并利用分类准确率作为评价指标。表 3对比了AS-Net与其他基于点的方法在物体分类任务上的准确率。可以看出，利用AS Module改进的RSCNN-ssg得到的AS-Net（RSCNN-ssg）优于其他所有网络，分类准确率从原始的RSCNN-ssg的92.2%提高到了92.54%，且投票后准确率可以达到92.77%。需要说明的是，RSCNN的多尺度模型目前还不稳定，作者没有公布源码，所以，本文仅对RSCNN的单尺度分类模型进行对比和分析。同样将PointNet++-ssg中的FPS换成AS Module得到AS-Net（PointNet++-ssg），将分类准确率从90.7%提高到了91.34%，证明了本文的采样方法相比于其他同类方法具有更好的采样性能。

下载CSV 表 3 ModelNet40数据集上的物体分类精度 Table 3 Object classification accuracy on ModelNet40 dataset

3.4 大场景分割

在大场景分割中，由于点云数量过多导致计算效率低下，因此，采样算法在大场景中具有重要的作用，可以在一定程度上缩短整个分割的时间。本节主要对AS Module在大场景分割下的效率和性能进行分析，其中大场景分割是在ScanNet上进行测试和评估，该数据是一个大规模的RGB-D数据集，其中包括1 513个扫描和重建的室内场景。

在测试过程中，输入点云数量为8 000，实验过程中测试并记录网络所需要的推理时间和浮点数数据量，通过测试的分割准确率来评估性能，以及记录的推理时间和浮点数数据量来评估网络的效率。由于GPU准备需要时间，因此忽略第一批测试时间，最终结果如表 4所示，其中最优数据以加粗标注。

下载CSV 表 4 ScanNet数据集上的语义分割结果 Table 4 Semantic segmentation results on ScanNet dataset

如表 4所示，通过将PointNet++中采样算法进行替换（将原来的FPS替换为本文提出的采样方法），在ScanNet数据集下的测试结果表明：替换前后的分割准确率虽然提高不明显，其参数数量和浮点数数量与原始的PointNet++-ssg基本相同。然而AS-Net将推理时间减少了50%，显示了其在大规模场景分割方面的巨大潜力。

3.5 消融实验

在消融实验中，通过改变AS Module中AS Layer的层数进行分析和验证。利用改变后的AS Module对原始点云数据进行采样，之后将采样点作为分类网络的PointNet的输入，测试物体的分类精度和时间效率。

不同层数下的分类准确率和测试时间如表 5和表 6所示，其中测试时间是通过计算ModelNet40测试集运行一次的时间。可以看出，当AS Module中Layer的层数为1时，低采样率下的分类准确率明显低于层数为2或3的AS Module，说明当Layer层数过低时，提取的特征信息不足以在后续过程中选择关键的采样点。当AS Module中的Layer层数的范围在2~4层且采样的点云数目相同时，不同的层数对最终的分类准确率的影响不超过1%。反而随着Layer层数增多，AS Module更加复杂，测试时间变慢。当Layer层数达到5层时，由于层数过多，深层Layer没有很好地学习到点云特征，难以优化。综上所述，建议将AS Module中的Layer层数设置为2层。

下载CSV 表 5 不同层数下的分类精度对比 Table 5 Comparison of classification accuracy under different layers

下载CSV 表 6 不同层数下的测试时间对比 Table 6 Comparison of test time under different layers

4 结束语

本文构建一种面向低采样率的点云数据处理网络，将注意力机制应用于三维网络对原始点云数据进行下采样，并提出AS-Net，其核心是本文设计的AS Module，可以有效地从原始点云数据中提取出有利于后续任务的关键点。在分类实验中，本文所提出的基于AS Module的AS-Net的分类准确度均高于其他网络。在分割任务中，也展现了对大场景点云任务进行高效处理的潜力。此外，AS Module是一种灵活的采样结构，可以很容易地集成到不同的backbone中，实现端到端的网络训练。下一步研究将把本文方法应用于更多包含采样的网络模型中，针对实际的应用领域或者实际的点云场景进行更全面的测试与验证。

参考文献

[1]	CHEN X, MA H, WAN J, et al. Multi-view 3D object detection network for autonomous[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2017: 652-660.
[2]	GEIGER A, LENZ P, URTASUN R, et al. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2012: 3354-3361.
[3]	MARCHAND E, UCHIYAMA H, SPINDLER F. Pose estimation for augmented reality: a hands-on survey[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(12): 2633-2651. DOI:10.1109/TVCG.2015.2513408
[4]	钟诚, 周浩杰, 韦海亮. 一种基于注意力机制的三维点云物体识别方法[J]. 计算机技术与发展, 2020, 30(4): 41-45. ZHONG C, ZHOU H J, WEI H L. A 3D point cloud object recognition method based on attention mechanism[J]. Computer Technology and Development, 2020, 30(4): 41-45. (in Chinese) DOI:10.3969/j.issn.1673-629X.2020.04.008
[5]	XU M, DING R, ZHAO H, et al. PAConv: position adaptive convolution with dynamic kernel assembling on point clouds[C]//Proceedings of 2021 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2021: 3173-3182.
[6]	COLLET A, MARTINEZ M, SRINIVASA S S. The MOPED framework: object recognition and pose estimation for manipulation[J]. The International Journal of Robotics Research, 2011, 30(10): 1284-1306. DOI:10.1177/0278364911401765
[7]	TREMBLAY J, TO T, SUNDARALINGAM B, et al. Deep object pose estimation for semantic robotic grasping of household objects[EB/OL]. [2021-10-11]. https://arxiv.org/abs/1809.10790.
[8]	QI C. R, YI L, SU H, GUIBAS L J. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of 2017 Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 5099-5108.
[9]	LIU Y, FAN B, XIANG S, et al. Relation-shape convolutional neural network for point cloud analysis[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2019: 8895-8904.
[10]	HU Q, YANG B, XIE L, et al. RandLA-Net: efficient semantic segmentation of large-scale point clouds[C]//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2019: 11108-11117.
[11]	XU D, ANGUELOV D, JAIN A, et al. PointFusion: deep sensor fusion for 3D bounding box estimation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2018: 244-253.
[12]	CHEN X, MA H, WAN J, et al. Multi-view 3D object detection network for autonomous driving[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2017: 1907-1915.
[13]	SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D. C, USA: IEEE Press, 2017: 945-953.
[14]	FENG Y, ZHANG Z, ZHAO X, et al. GVCNN: group-view convolutional neural networks for 3d shape recognition[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2018: 264-272.
[15]	MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real-time object recognition[C]//Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Washington D. C, USA: IEEE Press, 2018: 922-928.
[16]	CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C, USA: IEEE Press, 2017: 652-660.
[17]	ZHAO H S, JIANG L, JIA J Y, et al. Point transformer[EB/OL]. [2021-10-11]. https://arxiv.org/abs/2012.09164.
[18]	朱威, 绳荣金, 汤如, 等. 基于动态图卷积和空间金字塔池化的点云深度学习网络[J]. 计算机科学, 2020, 47(7): 192-198. ZHU W, SHENG R J, TANG R, et al. Point cloud deep learning network based on dynamic graph convolution and spatial pyramid pooling[J]. Computer Science, 2020, 47(7): 192-198. (in Chinese)
[19]	LI Y, BU R, SUN M, et al. PointCNN: convolution on x-transformed points[J]. Advances in Neural Information Processing Systems, 2018, 31: 820-830.
[20]	顾砾, 季怡, 刘纯平. 基于多模态特征融合的三维点云分类方法[J]. 计算机工程, 2021, 47(2): 279-284. GU L, JI Y, LIU C P. Classification method of three-dimensional point cloud based on multiple modal feature fusion[J]. Computer Engineering, 2021, 47(2): 279-284. (in Chinese)
[21]	田钰杰, 管有庆, 龚锐. 一种鲁棒的多特征点云分类分割深度神经网络[J]. 计算机工程, 2021, 47(11): 234-240. TIAN Y J, GUAN Y Q, GONG R. A robust deep neural network for multi-feature point cloud classification and segmentation[J]. Computer Engineering, 2021, 47(11): 234-240. (in Chinese)
[22]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of 2017 IEEE Conference on Neural Information Processing Systems. Washington D.C., USA: IEEE Press, 2017: 5998-6008.
[23]	HAN Z Z, LU H L, LIU Z B, et al. 3D2SeqViews: aggregating sequential views for 3D global feature learning by CNN with hierarchical attention aggregation[J]. IEEE Transactions on Image Processing, 2019, 28(8): 3986-3999.
[24]	HAN Z Z, SHANG M Y, LIU Z B, et al. SeqViews2SeqLabels: learning 3D global features via aggregating sequential views by RNN with attention[J]. IEEE Transactions on Image Processing, 2019, 28(2): 658-672.
[25]	LIU X, HAN Z, LIU Y S, et al. Point2sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network[C]//Proceedings of 2019 AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2019: 8778-8785.