摘要
基于激光雷达的3D检测和全景分割是自动驾驶汽车和机器人感知系统中的两项关键任务。本文提出了一种基于LiDAR的多任务框架——一体感知网络(AOP-Net),该框架结合了3D检测和全景分割。论文开发了双任务3D主干,以从输入的LiDAR点云中提取全景和检测级特征。此外,还设计了一个新的2D主干,将多层感知器(MLP)和卷积层交织在一起,以进一步提高检测任务性能。最后提出了一种新的模块,通过恢复在3D主干中的下采样操作期间丢弃的有用特征来引导检测头。该模块利用估计的实例分割掩码从每个候选目标中恢复详细信息。AOP-Net在nuScenes基准上为3D目标检测和全景分割任务实现了最先进的性能。此外,实验表明,论文的方法很容易适应任何基于BEV的3D目标检测方法,并显著提高了其性能。
总结来说,论文的主要贡献如下:
- 提出了一种基于LiDAR的3D目标检测和全景分割的多任务框架。在这种方法中,两个任务都可以实现性能提升,因为它们彼此受益;
- 深度和高效的2D主干,混合MLP和卷积层用于3D检测;
- IFR模块增强检测头并基于全景分割估计恢复有用的丢弃多尺度特征;
- 实验表明,每个新组件都提供了有效的性能增益,并且所提出的框架很容易适应并提高了任何基于BEV的3D目标检测方法的性能。
相关工作
3D检测
有效的3D检测方法使用小体素网格量化3D空间并在BEV平面上操作。然后提取特征以对每个体素进行编码。VoxelNet[1]设计了一个可学习的体素特征编码器(VFE)层,对每个体素内的点云进行编码,然后利用3D CNN跨体素网格提取特征。SECOND[12]提出了3D稀疏卷积层,通过利用体素网格的稀疏性来减少3D卷积的计算。PointPillars[2]通过将沿高度维度的体素数减少到1,并使用2D CNN处理生成的伪图像,进一步提高了推断速度。CenterPoint[10]是一种anchor-free目标检测方法,解决了anchor-based的方法带来的挑战。CenterPoint设计了一种center-based的检测头,用于检测BEV平面中3D box的中心。这种方法显著提高了检测精度,因为它不需要将轴对齐的框适配到旋转的目标。
3D全景分割
3D全景分割方法通常从基于RV的语义分割网络扩展而来,具有将前景点云分组为簇的附加机制,每个簇表示一个分割的实例。LPSAD[7]使用具有两个解码器的共享编码器,其中第一个解码器预测语义标签,第二个解码器预测每个前景点云的中心偏移,随后它使用外部算法(如BFS和HDBSCAN[14])将附近的移位点云聚类到同一簇中。Panoster[13]使用可学习的聚类方法为每个点云分配实例标签。CPSeg[6]是一种无簇全景分割方法,该方法通过根据学习到的嵌入对点云进行柱化并通过成对嵌入比较找到连接的pillars来分割目标。
3D多任务感知
很少有人尝试利用分割和检测任务的互补性。PointPainting[27]和FusionPainting[38]将来自预训练的分割网络的语义类分数附加到点云,然后再馈送到3D检测模型。最近引入了与论文的框架类似的方法[30],其中全景分割模型和目标检测模型被联合训练。其级联特征融合模块分别融合来自检测和全景分割主干的BEV和RV特征。其class-wise前景注意力模块将预测的前景语义得分嵌入检测特征中。在[30]中,尽管全景分割被用来改善目标检测,但这两项任务并不能互惠互利。
方法
概览
论文提出了一个框架,该框架联合实现3D检测和全景分割,如图1所示。在该多任务方法中,基于BEV的3D检测模型和基于RV的3D全景分割模型被深度集成,因此两个任务的性能都可以显著提高。由于其实时性能和高精度,论文开发了简化版本的CPSeg[6],这是一种具有两个任务特定解码器的U-Net架构,用于全景分割。对于目标检测,论文依赖于CenterPoint[10]的检测头,以获得卓越的性能。
为了将这两个任务集成到一个统一的框架中,论文提出了一个双任务3D主干来从体素化的点云中提取多尺度特征。这些特征被压缩并投影到RV平面,通过三个卷积Bottleneck注意力模块(CBAM)[22]与直接从RV投影点云提取的一组特征融合,并被馈送到全景head。这种轻量级操作有效地增强了全景head的检测级别特征。为了将全景级特征引入到检测中,论文利用了[30]中的级联特征融合和逐类前景关注模块,如图1中的多视图特征融合所示。
来自双任务3D主干的最低分辨率体素特征被投影到用于检测任务的BEV。除了检测级别信息之外,这些特征还编码实例和语义级别信息。此外受[15]的启发,提出了一种更有效的2D主干,该主干将MLP与卷积层混合,以处理检测头的特征。此外,新颖的IFR模块通过利用预测的实例掩码来恢复在双任务3D主干中的下采样操作期间丢失的相关对象特征,从而增强了检测头。
双任务3D主干
如图2所示,论文的方法中使用的3D主干负责从3D体素中提取特征。
为了有效地将特征从3D主干传输到目标检测任务,论文遵循[1]、[12]、[10],并以最粗分辨率将3D特征映射到BEV,进而将其馈送到2D主干。然而与以前的方法不同,嵌入两组更高分辨率体素特征中的详细目标信息稍后将在IFR模块中恢复。此外,三组更高分辨率体素特征被投影到RV,通过相应的CBAM与直接从RV投影点云提取的特征融合,并由CPSeg的RV编码块处理。这些基于多尺度体素的特征增强了基于RV的全景head。同时这种增强还加强了3D主干,以开发一组更丰富的语义和实例级特性。
简化ConvMLP(SC)主干
最近基于MLP的视觉骨干因其在密集视觉预测任务中比全卷积的骨干具有竞争能力甚至表现更好而受到更多关注[17]、[18]、[19]、[16]、[15]。
受图像域中使用的ConvMLP[15]的启发,论文提出了该架构的简化版本,以处理来自3D主干的BEV投影特征,然后将其馈送到检测头。简化的ConvMLP(SC)块和提出的2D主干架构如图3所示。与原始ConvMLP块相比,删除了最后一个MLP层,并在卷积层上添加了跳跃连接,以进一步简化梯度流。在这种架构中,MLP块实现了每个空间位置中特征的交互,而随后的深度卷积实现了有效的空间交互。在主干中首先应用连续的Conv块(每个块由卷积层组成,随后是BN和ReLU)来增强空间上的特征交互。然后,生成的特征通过第一组SC块发送,下采样,并馈送给另一组SC块。然后这两组SC块的输出被匹配并连接为2D特征的最终集合,其被馈送到检测头。
与[2],[10]中的常规2D主干相比,所提出的2D主干提高了检测性能,而不会大幅增加模型复杂度。更具体地说,与常规3x3卷积层相比,SC块需要的内存减少54.6%,FLOP减少54.8%。因此,通过用更轻的SC块替换常规卷积,可以在单个分辨率中构建更多的连续卷积,从而实现更大的感受野,而无需进一步下采样。此外,与使用单个1x1卷积层进行通道深度调整的其他CNN不同,该架构广泛使用MLP块来强调每个BEV平面位置内的特征提取。
Instance-based Feature Retrieval(IFR)
为了增强SC主干提取的粗尺度特征,可以有效利用双任务3D主干中的下采样操作期间丢弃的特征。为此提出了IFR模块,如图4所示。该模块从双任务3D主干中的和分辨率特征图中恢复每个候选目标的多尺度详细特征。然后构造一组新的特征来增强检测头。
首先为了降低计算复杂性,在所有BEV平面位置上,沿着高度维度的体素特征被平均以形成平均体素特征。然后,提出了一种基于全景头估计的实例掩码来选择平均体素的选择策略。具体而言,给定BEV平面上相同比例的第l比例平均体素特征和实例掩码,计算每个实例的平均X和Y坐标。这将给出每个实例的质心位置。然后,从表示每个实例的所有BEV位置中,选择距离每个实例质心最近的平均体素。
在对每个实例的Ksl平均体素进行采样之后,计算每个采样的平均体素在x-轴和y-轴上与其实例质心的相对坐标,并将其连接到相应的特征向量作为相对位置嵌入。这允许IFR模块了解每个实例的采样平均体素的几何结构。这些特征向量连续经过VFE[1]和MLP层。然后,使用最大和平均池层合并每个实例的结果特征向量,并将其连接起来。以下等式说明了这一点:
每个生成的单个特征向量对其对应的第i个实例的采样平均体素特征进行编码和汇总。在馈送到VFE层之前,使用级联连接将较高分辨率中实例的提取特征与较低分辨率中该实例的每个采样平均体素特征向量连接。这使得实例的较低分辨率平均体素能够利用同一实例的较高分辨率编码特征。最后,将不同分辨率的每个实例的所得编码特征向量连接起来,并根据粗略尺度实例掩码将其分布到对应于该实例的所有BEV位置。然后,将这组新的特征映射连接到来自2D主干的输出特征,并馈送到检测头。通过这样做,论文通过恢复和处理对每个实例唯一且通常在2D主干之前丢失的多尺度信息,有效地增强了检测头。
实验
数据集
论文在nuScenes和Waymo数据集上展开实验。
结果
1)3D检测:在表I和表II中,论文比较了所提出的方法和CenterPoint在nuScene和Waymo验证集上的评估结果。AOP-Net基于CenterPoint第一阶段。如图所示,所提出的方法在nuScenes的mAP和NDS得分上显著优于CenterPoint,Waymo的mAP与mAPH得分显著优于CenterPoint。正如消融中所阐述的,SC主干和IFR模块分别可以提高对大目标和小目标的检测能力。
AOP-Net与nuScene测试集上其他已发布的最先进3D目标检测方法之间的比较如表III所示。可以看出,在NDS和表示目标框估计质量的所有五个误差度量方面,速度(mAVE)和属性(mAAE)。这一改进可归因于全景分割模块提供的指导,包括直接(利用IFR中的全景分割预测)和间接(主干中全景损失的反向传播)。
2)3D全景分割:在表IV中,将AOP-Net与nuScene测试集上其他最先进的已发布方法进行比较,论文验证了AOP-Net获得了更高的平均PQ。与第二行相比,第二行是最初包含在AOP-Net中的CPSeg的独立简化版本,AOP-Net接受了多尺度检测级别特征的额外输入,这导致了显著更好的全景性能。
在图5中,统一的多任务框架对全景分割的好处是显而易见的。在示例(a)中,独立的CPSeg难以预测远处点云的语义,导致三个假阳性和一个假阴性。在(b)中,CPSeg在左侧的段下方,在顶部附近的段上方,因为它对大量点云后面不太可见的区域不太自信。在这两种情况下,AOP-Net中的双任务3D主干提供了有效的多尺度3D特征,以防止这些错误。
消融实验
1) 每个模块的效果:AOP-Net模块的贡献如表V所示。可以看出,这些模块的每个和组合都很好地适应了基线,并提供了强大的性能增益。
具体而言,在表VI中可以看出,结合双任务3D主干显著提高了两个任务的性能。特别是,AOP-Net在全景分割中的改进主要归功于该模块。由于3D主干取决于两个任务,因此学习的特征被丰富,并提供了关于前景目标的额外线索。此外3D主干捕获特征,而不存在RV平面中特征提取常见的遮挡或比例变化问题。当投影到RV并与已经提取的基于RV的特征融合时,这些特征集在分割被遮挡和远处的目标时更为可靠和有用。这些因素导致mIOU和PQ的显著改善。
在表VII中,论文证明了大类目标检测的改进可以归因于扩大的感受野和从SC骨干中更广泛的通道式特征提取。
在表VIII中,可以看出IFR在更好地检测小的孤立目标方面发挥了重要作用。这是因为IFR影响检测头更加关注与前景目标相关的多尺度特征。通过在3D主干中重新引入在下采样过程中丢失的信息,检测头提高了精度(通过细化可能的候选)和召回(检索在RV全景分割中更好地检测到的丢失目标)。
2)ConvMLP主干的变体:在表IX中,使用原始ConvMLP的类似大小的网络(根据#参数)具有更少的连续层和更低的性能。此外,比较具有5个和10个SC块的第2-4行在性能和复杂性方面给出了最佳权衡。
3) 提出的框架中的其他基于BEV的3D目标检测器:为了证明AOP-Net也可以与基于锚点的检测方法一起工作,论文通过将AOP-Net适配于PointPillars[2]和SECOND[12]进行了实验。这些实验的结果如表X所示。此外,论文增加了PointPillars和SECOND的模型复杂性,并将它们命名为Complex PointPillar和Complex SECOND。可以看出,通过简单地增加模型复杂性,性能提升要么不存在,要么有限。然而,在所提出的框架下,mAP和NDS显著改善。图6显示了拟议框架的普遍效果。可以看出,在示例(a)和(b)中,由于在下采样期间丢失了精细尺度特征,PointPillars无法检测到小目标。另一方面,在所提出的方法中,这些目标被基于RV的分割模块识别,并且它们的精细尺度特征被IFR模块恢复,从而允许它们的检测。此外,在示例(b)中,PointPillars从远处产生了两个假阳性,而AOP-Net由全景级信息正确引导并避免了这些错误。
结论
论文提出了AOP-Net,这是一个用于基于LiDAR的联合3D检测和全景分割的一体式感知框架。在此框架中,论文设计了双任务3D主干,以同时考虑场景的语义和实例级信息,从而增强了基于BEV的检测头和基于RV的全景头。此外,由该主干产生的多尺度3D体素特征用于在全景分割任务中增强单尺度RV特征图。此外,基于简化的ConvMLP(SC)块,提出了一种深度和高效的2D主干,这促进了检测的改进。最后为了恢复在双任务3D主干中的下采样操作期间丢失的特征,提出了一种新的基于实例的特征检索(IFR)模块,该模块依赖于预测的实例掩码并恢复特征以增强检测主干。在nuScenes和Waymo数据集上的实验结果表明,在所提出的框架下,3D全景分割和目标检测任务都有显著的改进,同时表明,使用所提出的策略可以提高任何基于BEV的3D对象检测的检测精度。
参考
[1] AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)