一文尽览 | 基于点云、多模态的3D目标检测算法综述！（Point/Voxel/Point-Voxel）（上）-阿里云开发者社区

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式，本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法，下面展开讨论下~

3D检测任务介绍

3D检测任务一般通过图像、点云等输入数据，预测目标相比于相机或lidar坐标系的[x，y，z]、[h，w，l]，[θ，φ，ψ]（中心坐标，box长宽高信息，相对于xyz轴的旋转角度）。

3D检测相关数据集

下面汇总了领域常用的3D检测数据集，共计11种：

KITTI-3D: http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
Argoverse：https://www.argoverse.org/data.html#download-link
Lyft L5：https://level-5.global/download/
H3D：https://usa.honda-ri.com//H3D
A*3D：https://github.com/I2RDL2/ASTAR-3D
nuScenes：https://www.nuscenes.org/nuscenes#download
Waymo Open：https://waymo.com/open/download/
CityScapes-3D：https://www.cityscapes-dataset.com/downloads/
A2D2：https://www.a2d2.audi/a2d2/en/download.html
KITTI-360：http://www.cvlibs.net/datasets/kitti-360/download.php
Rope3D：https://thudair.baai.ac.cn/rope

3D检测在数据格式上的分类

基于激光雷达点云

基于point

PointRCNN

基于Point系列的3D点云检测器一般逐点检测采样，PointRCNN是领域中比较经典的一篇文章，基于原始密集点云数据直接进行特征提取和RPN操作。论文使用PointNet++网络实现前景与背景分割，主要分为两个阶段。第一阶段生成一大堆很冗余的bounding box。首先，对点云语义分割，对每个点的到一个预测label，比如现在：对所有判断是“车”的点（也叫做前景点），赋予label=1，其他点（也叫做背景点），赋予label=0。然后，用所有前景点生成bounding box，一个前景点对应一个bounding box，但是必须要保证语义分割结果的准确。作者使用了一些去除冗余的方法，继续减少bounding box的数目，这一阶段结束的时候只留下300个bounding box。第二阶段继续优化上一阶段生成的bounding box。首先，对前一阶段生成的bounding box做旋转平移，把这些bounding box转换到自己的正规划坐标系下（canonical coordinates）。然后通过点云池化等操作的到每个bounding box的特征，再结合第一阶段的到的特征，进行bounding box的修正和置信度的打分，从而的到最终的bounding box。网络结构如下所示（结果也是当年的SOTA！)：

3DSSD

3DSSD作者提出像PointRCNN这种基于原始点云的二阶段3D检测方法，在第一阶段往往利用Set Abstraction层（SA）进行不断的下采样、分组与特征提取，然后利用Feature Propagation层（FP）对SA的输出进行不断上采样与特征传播。利用语义分割获得了前景点后，这些方法以每个前景点为中心进行3D检测框的提议（第一阶段的粗提议）。粗提议结束后，对这些粗提议检测框内部点进行特征提取与处理，微调检测框，获得更精确的检测框（第二阶段的精炼过程）。然而上述的二阶段方法中的FP层和精炼过程在模型前向推理过程中往往会消耗一半以上的时间。那简单地将这些模块删除后（只剩下SA层），然后基于SA提取的特征直接进行单阶段提议是否可行？事实证明有人确实这么做了，但是该简单直接的方法造成了检测精度降低了不少。可能的原因有：现有一些方法在SA层的下采样步骤中用到了D-FPS方法（基于距离的最远点采样法）。该采样方法的特点是：以空间距离最大为原则，不断迭代采样场景的点云，采样后的点云基本覆盖了整个场景（避免了随机采样对密度较高点云簇的青睐）。因为场景中背景点数量偏多，且有些较远目标中的前景点较少，这样的采样方式几乎会过滤掉距离较远的物体的所有前景点。前景点都过滤完了，检测精度自然不会高到哪儿去。因此，作者希望有一个采样方式使得采样的点（记做representative points）既能铺满整个采样空间，又能尽可能地包含更多的前景点，也就是论文中的F-FPS。3DSSD，在精度和效率之间实现了良好的平衡，比前期基于点的检测算法速度提升近1倍，也超越了当时的单阶段所有基于voxel的方法！

Fast PointRCNN

Fast PointRCNN是PointRCNN的改进版，但是一种point-voxel方式检测器（为了方便先放置在这里一起讲了），PointRCNN在第一阶段太慢了，又是前景分割，又是前景点的RPN回归。Fast PointRCNN作者直接利用基于Voxel的数据处理方式进行点云结构化，然后利用三维卷积和二维卷积的堆叠实现Voxel特征的提取。（全三维卷积可以保留Z轴的信息，但是效率会比较低，因为运算量大。全二维卷积直接就忽略了Z轴的信息了，虽然速度快，但是精度也受到了影响。所以作者采用这种“三维卷积-二维卷积”的网络结构，先利用“三维卷积”保留Z轴的信息，然后为了提高效率，采用了"二维卷积”进行特征提取。实验表明，这种方式确实可以提高效率，而且精度也不会降低。）在基于图片的2D物体检测任务中，通常利用特征金字塔（FPN）的网络结构实现大小不同物体的proposal。YOLO V3的一个特点就是在三个不同尺度的特征图中，分别放置负责检测不同大小物体的预设框Anchor。底层的特征因为感受野小，负责小物体检测，因此放置较小的Anchor。反之，顶层的特征因感受野较大，负责大的物体的检测任务，因此放置较大的Anchor。受启于此，FastPointRCNN的作者也选择了这样的方式实现了对不同大小物体的同时检测，提出了一种叫做VoxelRPN的网络，实现第一阶段的候选框粗略提议。第一阶段完成proposal后，然后引入RefinerNet完成第二阶段的优化！网络流程如下图所示：

Lidar RCNN

Lidar RCNN是一个两阶段检测器，通常可以改进任何现有的3D检测器（无需re-training）。为了在实践中满足实时性和高精度要求，论文采用了基于点(point)的方法，而不是流行的基于voxel的方法。但是论文在以前的工作中发现了一个被忽视的问题：天真地应用基于PointNet的基于点的方法可能会使学习到的特征忽略proposals的尺度。为此，论文详细分析此问题，并提出几种补救方法，以带来显著的性能改进，论文给出了性能和耗时分析，综合性能突出！

IA-SSD

IA-SSD是CVPR2022最新提出的网络，论文针对三维激光雷达点云的有效目标检测问题开展了研究，为了减少内存和计算成本，现有的基于point的pipeline通常采用任务无关随机采样或最远点采样来逐步向下采样输入pointset，然而并非所有点对目标检测任务都同等重要。对于detector来说，前景点本质上比背景点更重要。基于此，论文提出了一种高效的单级基于point的3D目标检测器，称为IA-SSD。IA-SSD利用两种可学习的，面向任务、实例感知的下采样策略来分层选择属于感兴趣对象的前景点。此外，还引入了上下文质心感知模块，以进一步估计精确的实例中心。最后，为了提高效率，论文按照纯编码器架构构建了IA-SSD。在多个大规模检测benckmark上进行的实验证明了IA-SSD的优势。由于低内存占用和高度并行性，在KITTI数据集上单个RTX2080Ti GPU实现了每秒80多帧的速度。

基于Voxel

VoxelNet

基于Voxel的方法是领域研究热点，近年来也有非常多的paper，VoxelNet是开山之作，苹果公司提出！论文将三维点云划分为一定数量的Voxel，经过点的随机采样以及归一化后，对每一个非空Voxel使用若干个VFE(Voxel Feature Encoding)层进行局部特征提取，得到Voxel-wise Feature，然后经过3D Convolutional Middle Layers进一步抽象特征（增大感受野并学习几何空间表示），最后使用RPN(Region Proposal Network)对物体进行分类检测与位置回归。VoxelNet整个pipeline如下图所示：

SECOND

VoxelNet思路比较好，但速度上优势不大！SECOND全称为Sparsely Embedded Convolutional Detection，也就是稀疏卷积，SECOND的出现，让实时检测更近一步！考虑到VoxelNet通过Feature Learning Network后获得了稀疏的四维张量，而采用3D卷积直接对这四维的张量做卷积运算的话，确实耗费运算资源，SECOND作为VoxelNet的升级版，用稀疏3D卷积替换了普通3D卷积，如下图所示。

PointPillars

PointPillars是2019年出自工业界的一篇Paper，意义很大，该模型最主要的特点是检测速度和精度的平衡，平均检测速度达到了62Hz，最快速度达到了105Hz，遥遥领先了其它的模型（也是目前落地较多的方案）。论文提出了一种新的点云编码方法用于给PointNet提取点云特征，再将提取的特征映射为2D伪图像以便用2D目标检测的方式进行3D目标检测。尽管只使用激光雷达，但PointPillars在3D和鸟瞰KITTI基准方面，甚至在融合方法中，都显著优于最新技术，模型结构如下图所示：

Part-A2

Part-A2将PointRCNN扩展到一个新的、强大的基于点云的三维对象检测框架，即部件感知和聚合神经网络（part-A2网络），整个框架由部件感知阶段和部件聚合阶段组成。部件感知阶段利用3D GT bbox提供的信息，生成3D 分割的标注信息，分割前景点和背景点；对于所有的前景点，估计每一个前景点的相对位置（intra-object part location，认为该信息隐式编码3D目标的形状）；从原始点云生成3D proposals（包括anchor-free和anchor-based两种方法）。部件聚合阶段对于不同的proposals可能具有相同的点云信息，产生相同的特征带来的模糊性的问题，论文提出ROI-aware点云池化方案，它保留非空和空体素的所有信息，以消除点云池化方案的模糊性。利用空体素对bbox的几何图形信息进行编码，提升bbox的re-score和位置refine的性能。除此之外，进一步利用稀疏卷积和稀疏池化操作，逐步聚合每个3D proposals的池化后的part feature，实现准确预测；Part-A2网络优于当年所有的3D检测方法（仅利用激光雷达点云数据），在KITTI 3D目标检测数据集上实现了SOTA。

CIA-SSD

CIA-SSD这篇文章以SECOND为Backbone提出了一种基于体素的一阶段目标检测模型，其基本思想是校准单步目标检测中分类和定位两个任务，提出Confident IoU-Aware Single-Stage object Detector (CIA-SSD)。第一个是Spatial-Semantic Feature Aggregation（SSFA）模块，为了准确预测目标框和分类置信度，自适应地融合低端spatial feature和高端抽象semantic feature。而第二个是IoU-aware confidence rectification模块，对置信度进一步校准（rectified），使其和定位精度更加一致。最后采用Distance-variant IoU-weighted NMS获得更平滑的回归并避免冗余预测。

SE-SSD

SE-SSD提出了Self-Ensembling single-stage目标检测器(SE-SSD)，在户外点云中进行精确检测，其关注点是利用soft（teacher模型预测的）和hard（标注信息）的目标以及制定的约束来共同优化模型，且不在推理中引入额外计算。具体地说，SE-SSD包含一对teacher和student的SSD，并设计了一个有效的IOU-based的匹配策略来过滤teacher的soft目标，并制定一致性损失来使student的预测与它们保持一致。此外，为了最大限度地运用teacher的蒸馏知识，设计了一种新的数据增强方案来产生形状感知的增强样本来训练student SSD，以推断完整的目标形状。最后，为了更好地利用hard目标，还设计了一个ODIoU损失来监督约束预测的box中心和方向的student，速度可达30.56ms。

Voxel-RCNN

Voxel-RCNN指出一般point-based精度高但特征计算量大，voxel-based结构更适合特征提取，但精度下降；作者认为，点云数据的精确定位并不需要，而粗voxel粒度也能产生充分检测精度。论文提出的Voxel R-CNN是一个两步法，仍然达到和当前point-based方法可比的检测性能，但计算量降低较多。Voxel R-CNN主要包括3D主干网络，2D BEV RPN和检测头，其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。如下图所示，通过3D backbone提取3D特征，然后映射到BEV空间，生成proposal，通过Voxel ROI Pooling方式提取特征做优化。与现有的基于体素的方法相比，Voxel R-CNN提供了更高的检测精度，同时保持了实时帧处理速率，在NVIDIA RTX 2080 Ti GPU帧率为25！

CenterPoint

CenterPoint是Center-based系列工作（CenterNet、CenterTrack、CenterPoint）的扩展，于2020年作者在arxiv公开了第一版CenterPoint，后续进一步将CenterPoint扩充成了一个两阶段的3D检测追踪模型，相比单阶段的CenterPoint，性能更佳，额外耗时很少。本文的主要贡献是提出了一个两阶段的Center-based的目标检测追踪模型，在第一阶段（如下图中的a,b,c)，使用CenterPoint检测三维目标的检测框中心点，并回归其检测框大小，方向和速度。在第二阶段（如下图中的d)设计了一个refinement模块，对于第一阶段中的检测框，使用检测框中心的点特征回归检测框的score并进行refinement。在nuScenes的3D检测和跟踪任务中，单阶段的CenterPoint效果很好，单个模型的NDS为65.5,AMOTA为63.8。模型性能很好，但是论文中说该模型的速度是在Waymo上11FPS，在nuScenes上为16FPS；同时模型的速度实验是在TiTan RTX上做的，也就是在所有边缘计算设备上均达不到实时计算。

一文尽览 | 基于点云、多模态的3D目标检测算法综述！（Point/Voxel/Point-Voxel）（上）

3D检测任务介绍

3D检测相关数据集

3D检测在数据格式上的分类