一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(上)

简介: 目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~

3D检测任务介绍



3D检测任务一般通过图像、点云等输入数据,预测目标相比于相机或lidar坐标系的[x,y,z]、[h,w,l],[θ,φ,ψ](中心坐标,box长宽高信息,相对于xyz轴的旋转角度)。

640.png


3D检测相关数据集



下面汇总了领域常用的3D检测数据集,共计11种:


640.png


3D检测在数据格式上的分类



640.png


基于激光雷达点云



基于point


PointRCNN


基于Point系列的3D点云检测器一般逐点检测采样,PointRCNN是领域中比较经典的一篇文章,基于原始密集点云数据直接进行特征提取和RPN操作。论文使用PointNet++网络实现前景与背景分割,主要分为两个阶段。第一阶段生成一大堆很冗余的bounding box。首先,对点云语义分割,对每个点的到一个预测label,比如现在:对所有判断是“车”的点(也叫做前景点),赋予label=1,其他点(也叫做背景点),赋予label=0。然后,用所有前景点生成bounding box,一个前景点对应一个bounding box,但是必须要保证语义分割结果的准确。作者使用了一些去除冗余的方法,继续减少bounding box的数目,这一阶段结束的时候只留下300个bounding box。第二阶段继续优化上一阶段生成的bounding box。首先,对前一阶段生成的bounding box做旋转平移,把这些bounding box转换到自己的正规划坐标系下(canonical coordinates)。然后通过点云池化等操作的到每个bounding box的特征,再结合第一阶段的到的特征,进行bounding box的修正和置信度的打分,从而的到最终的bounding box。网络结构如下所示(结果也是当年的SOTA!):

640.png


3DSSD


3DSSD作者提出像PointRCNN这种基于原始点云的二阶段3D检测方法,在第一阶段往往利用Set Abstraction层(SA)进行不断的下采样、分组与特征提取,然后利用Feature Propagation层(FP)对SA的输出进行不断上采样与特征传播。利用语义分割获得了前景点后,这些方法以每个前景点为中心进行3D检测框的提议(第一阶段的粗提议)。粗提议结束后,对这些粗提议检测框内部点进行特征提取与处理,微调检测框,获得更精确的检测框(第二阶段的精炼过程)。然而上述的二阶段方法中的FP层和精炼过程在模型前向推理过程中往往会消耗一半以上的时间。那简单地将这些模块删除后(只剩下SA层),然后基于SA提取的特征直接进行单阶段提议是否可行?事实证明有人确实这么做了,但是该简单直接的方法造成了检测精度降低了不少。可能的原因有:现有一些方法在SA层的下采样步骤中用到了D-FPS方法(基于距离的最远点采样法)。该采样方法的特点是:以空间距离最大为原则,不断迭代采样场景的点云,采样后的点云基本覆盖了整个场景(避免了随机采样对密度较高点云簇的青睐)。因为场景中背景点数量偏多,且有些较远目标中的前景点较少,这样的采样方式几乎会过滤掉距离较远的物体的所有前景点。前景点都过滤完了,检测精度自然不会高到哪儿去。因此,作者希望有一个采样方式使得采样的点(记做representative points)既能铺满整个采样空间,又能尽可能地包含更多的前景点,也就是论文中的F-FPS。3DSSD,在精度和效率之间实现了良好的平衡,比前期基于点的检测算法速度提升近1倍,也超越了当时的单阶段所有基于voxel的方法!

640.png640.png



Fast PointRCNN


Fast PointRCNN是PointRCNN的改进版,但是一种point-voxel方式检测器(为了方便先放置在这里一起讲了),PointRCNN在第一阶段太慢了,又是前景分割,又是前景点的RPN回归。Fast PointRCNN作者直接利用基于Voxel的数据处理方式进行点云结构化,然后利用三维卷积和二维卷积的堆叠实现Voxel特征的提取。(全三维卷积可以保留Z轴的信息,但是效率会比较低,因为运算量大。全二维卷积直接就忽略了Z轴的信息了,虽然速度快,但是精度也受到了影响。所以作者采用这种“三维卷积-二维卷积”的网络结构,先利用“三维卷积”保留Z轴的信息,然后为了提高效率,采用了"二维卷积”进行特征提取。实验表明,这种方式确实可以提高效率,而且精度也不会降低。)在基于图片的2D物体检测任务中,通常利用特征金字塔(FPN)的网络结构实现大小不同物体的proposal。YOLO V3的一个特点就是在三个不同尺度的特征图中,分别放置负责检测不同大小物体的预设框Anchor。底层的特征因为感受野小,负责小物体检测,因此放置较小的Anchor。反之,顶层的特征因感受野较大,负责大的物体的检测任务,因此放置较大的Anchor。受启于此,FastPointRCNN的作者也选择了这样的方式实现了对不同大小物体的同时检测,提出了一种叫做VoxelRPN的网络,实现第一阶段的候选框粗略提议。第一阶段完成proposal后,然后引入RefinerNet完成第二阶段的优化!网络流程如下图所示:


640.png


Lidar RCNN


Lidar RCNN是一个两阶段检测器,通常可以改进任何现有的3D检测器(无需re-training)。为了在实践中满足实时性和高精度要求,论文采用了基于点(point)的方法,而不是流行的基于voxel的方法。但是论文在以前的工作中发现了一个被忽视的问题:天真地应用基于PointNet的基于点的方法可能会使学习到的特征忽略proposals的尺度。为此,论文详细分析此问题,并提出几种补救方法,以带来显著的性能改进,论文给出了性能和耗时分析,综合性能突出!


640.png640.png


IA-SSD


IA-SSD是CVPR2022最新提出的网络,论文针对三维激光雷达点云的有效目标检测问题开展了研究,为了减少内存和计算成本,现有的基于point的pipeline通常采用任务无关随机采样或最远点采样来逐步向下采样输入pointset,然而并非所有点对目标检测任务都同等重要。对于detector来说,前景点本质上比背景点更重要。基于此,论文提出了一种高效的单级基于point的3D目标检测器,称为IA-SSD。IA-SSD利用两种可学习的,面向任务、实例感知的下采样策略来分层选择属于感兴趣对象的前景点。此外,还引入了上下文质心感知模块,以进一步估计精确的实例中心。最后,为了提高效率,论文按照纯编码器架构构建了IA-SSD。在多个大规模检测benckmark上进行的实验证明了IA-SSD的优势。由于低内存占用和高度并行性,在KITTI数据集上单个RTX2080Ti GPU实现了每秒80多帧的速度。


640.png


基于Voxel


VoxelNet


基于Voxel的方法是领域研究热点,近年来也有非常多的paper,VoxelNet是开山之作,苹果公司提出!论文将三维点云划分为一定数量的Voxel,经过点的随机采样以及归一化后,对每一个非空Voxel使用若干个VFE(Voxel Feature Encoding)层进行局部特征提取,得到Voxel-wise Feature,然后经过3D Convolutional Middle Layers进一步抽象特征(增大感受野并学习几何空间表示),最后使用RPN(Region Proposal Network)对物体进行分类检测与位置回归。VoxelNet整个pipeline如下图所示:

640.png


SECOND


VoxelNet思路比较好,但速度上优势不大!SECOND全称为Sparsely Embedded Convolutional Detection,也就是稀疏卷积,SECOND的出现,让实时检测更近一步!考虑到VoxelNet通过Feature Learning Network后获得了稀疏的四维张量,而采用3D卷积直接对这四维的张量做卷积运算的话,确实耗费运算资源,SECOND作为VoxelNet的升级版,用稀疏3D卷积替换了普通3D卷积,如下图所示。

640.png


PointPillars


PointPillars是2019年出自工业界的一篇Paper,意义很大,该模型最主要的特点是检测速度和精度的平衡,平均检测速度达到了62Hz,最快速度达到了105Hz,遥遥领先了其它的模型(也是目前落地较多的方案)。论文提出了一种新的点云编码方法用于给PointNet提取点云特征,再将提取的特征映射为2D伪图像以便用2D目标检测的方式进行3D目标检测。尽管只使用激光雷达,但PointPillars在3D和鸟瞰KITTI基准方面,甚至在融合方法中,都显著优于最新技术,模型结构如下图所示:


640.png


Part-A2


Part-A2将PointRCNN扩展到一个新的、强大的基于点云的三维对象检测框架,即部件感知和聚合神经网络(part-A2网络),整个框架由部件感知阶段和部件聚合阶段组成。部件感知阶段利用3D GT bbox提供的信息,生成3D 分割的标注信息,分割前景点和背景点;对于所有的前景点,估计每一个前景点的相对位置(intra-object part location,认为该信息隐式编码3D目标的形状);从原始点云生成3D proposals(包括anchor-free和anchor-based两种方法)。部件聚合阶段对于不同的proposals可能具有相同的点云信息,产生相同的特征带来的模糊性的问题,论文提出ROI-aware点云池化方案,它保留非空和空体素的所有信息,以消除点云池化方案的模糊性。利用空体素对bbox的几何图形信息进行编码,提升bbox的re-score和位置refine的性能。除此之外,进一步利用稀疏卷积和稀疏池化操作,逐步聚合每个3D proposals的池化后的part feature,实现准确预测;Part-A2网络优于当年所有的3D检测方法(仅利用激光雷达点云数据),在KITTI 3D目标检测数据集上实现了SOTA。

640.png


CIA-SSD


CIA-SSD这篇文章以SECOND为Backbone提出了一种基于体素的一阶段目标检测模型,其基本思想是校准单步目标检测中分类和定位两个任务,提出Confident IoU-Aware Single-Stage object Detector (CIA-SSD)。第一个是Spatial-Semantic Feature Aggregation(SSFA)模块,为了准确预测目标框和分类置信度,自适应地融合低端spatial feature和高端抽象semantic feature。而第二个是IoU-aware confidence rectification模块,对置信度进一步校准(rectified),使其和定位精度更加一致。最后采用Distance-variant IoU-weighted NMS获得更平滑的回归并避免冗余预测。

640.png


SE-SSD


SE-SSD提出了Self-Ensembling single-stage目标检测器(SE-SSD),在户外点云中进行精确检测,其关注点是利用soft(teacher模型预测的)和hard(标注信息)的目标以及制定的约束来共同优化模型,且不在推理中引入额外计算。具体地说,SE-SSD包含一对teacher和student的SSD,并设计了一个有效的IOU-based的匹配策略来过滤teacher的soft目标,并制定一致性损失来使student的预测与它们保持一致。此外,为了最大限度地运用teacher的蒸馏知识,设计了一种新的数据增强方案来产生形状感知的增强样本来训练student SSD,以推断完整的目标形状。最后,为了更好地利用hard目标,还设计了一个ODIoU损失来监督约束预测的box中心和方向的student,速度可达30.56ms。


Voxel-RCNN


Voxel-RCNN指出一般point-based精度高但特征计算量大,voxel-based结构更适合特征提取,但精度下降;作者认为,点云数据的精确定位并不需要,而粗voxel粒度也能产生充分检测精度。论文提出的Voxel R-CNN是一个两步法,仍然达到和当前point-based方法可比的检测性能,但计算量降低较多。Voxel R-CNN主要包括3D主干网络,2D BEV RPN和检测头,其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。如下图所示,通过3D backbone提取3D特征,然后映射到BEV空间,生成proposal,通过Voxel ROI Pooling方式提取特征做优化。与现有的基于体素的方法相比,Voxel R-CNN提供了更高的检测精度,同时保持了实时帧处理速率,在NVIDIA RTX 2080 Ti GPU帧率为25!

640.png


CenterPoint


CenterPoint是Center-based系列工作(CenterNet、CenterTrack、CenterPoint)的扩展,于2020年作者在arxiv公开了第一版CenterPoint,后续进一步将CenterPoint扩充成了一个两阶段的3D检测追踪模型,相比单阶段的CenterPoint,性能更佳,额外耗时很少。本文的主要贡献是提出了一个两阶段的Center-based的目标检测追踪模型,在第一阶段(如下图中的a,b,c),使用CenterPoint检测三维目标的检测框中心点,并回归其检测框大小,方向和速度。在第二阶段(如下图中的d)设计了一个refinement模块,对于第一阶段中的检测框,使用检测框中心的点特征回归检测框的score并进行refinement。在nuScenes的3D检测和跟踪任务中,单阶段的CenterPoint效果很好,单个模型的NDS为65.5,AMOTA为63.8。模型性能很好,但是论文中说该模型的速度是在Waymo上11FPS,在nuScenes上为16FPS;同时模型的速度实验是在TiTan RTX上做的,也就是在所有边缘计算设备上均达不到实时计算。


640.png

相关文章
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1878 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
12月前
|
数据采集 人工智能 自然语言处理
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
433 4
|
人工智能 机器人 测试技术
3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
北京大学研究团队提出Lift3D框架,通过增强2D预训练模型的隐式与显式3D机器人表示,实现鲁棒的3D操作策略。核心包括任务感知掩码自编码器和2D模型提升策略,有效提高3D空间感知能力。实验表明,Lift3D在模拟与真实场景中性能优越,但计算成本较高且未涉及语言条件理解。未来可结合多模态模型优化应用。
286 30
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
947 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
算法
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
988 15
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
612 9
|
人工智能 算法 安全
【独家解密】如何在一个多月内高效完成多模态算法备案?一次性通过攻略大公开
在AI高速发展的时代,算法备案是产品上线的必备资质。本文分享了如何在短短一个多月内一次性通过算法备案的成功经验。筹备阶段包括网站注册、公司资料准备、算法制度及安全保障的制定;技术资料准备阶段确保算法描述清晰、流程精确、风险防控到位;提交后耐心等待审核结果,最终成功公示。关键在于充分准备和团队协作,希望这些经验能助你顺利通过备案。
|
机器学习/深度学习 存储 人工智能
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
483 4
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。

热门文章

最新文章