诺亚最新!AOP-Net:一体式3D检测和全景分割的感知网络

简介: 本文提出了一种基于LiDAR的多任务框架——一体感知网络(AOP-Net),该框架结合了3D检测和全景分割。论文开发了双任务3D主干,以从输入的LiDAR点云中提取全景和检测级特征。此外,还设计了一个新的2D主干,将多层感知器(MLP)和卷积层交织在一起,以进一步提高检测任务性能。最后提出了一种新的模块,通过恢复在3D主干中的下采样操作期间丢弃的有用特征来引导检测头。该模块利用估计的实例分割掩码从每个候选目标中恢复详细信息。AOP-Net在nuScenes基准上为3D目标检测和全景分割任务实现了最先进的性能。此外,实验表明,论文的方法很容易适应任何基于BEV的3D目标检测方法,并显著提高了其性

摘要



基于激光雷达的3D检测和全景分割是自动驾驶汽车和机器人感知系统中的两项关键任务。本文提出了一种基于LiDAR的多任务框架——一体感知网络(AOP-Net),该框架结合了3D检测和全景分割。论文开发了双任务3D主干,以从输入的LiDAR点云中提取全景和检测级特征。此外,还设计了一个新的2D主干,将多层感知器(MLP)和卷积层交织在一起,以进一步提高检测任务性能。最后提出了一种新的模块,通过恢复在3D主干中的下采样操作期间丢弃的有用特征来引导检测头。该模块利用估计的实例分割掩码从每个候选目标中恢复详细信息。AOP-Net在nuScenes基准上为3D目标检测和全景分割任务实现了最先进的性能。此外,实验表明,论文的方法很容易适应任何基于BEV的3D目标检测方法,并显著提高了其性能。


总结来说,论文的主要贡献如下:


  • 提出了一种基于LiDAR的3D目标检测和全景分割的多任务框架。在这种方法中,两个任务都可以实现性能提升,因为它们彼此受益;
  • 深度和高效的2D主干,混合MLP和卷积层用于3D检测;
  • IFR模块增强检测头并基于全景分割估计恢复有用的丢弃多尺度特征;
  • 实验表明,每个新组件都提供了有效的性能增益,并且所提出的框架很容易适应并提高了任何基于BEV的3D目标检测方法的性能。


相关工作



3D检测


有效的3D检测方法使用小体素网格量化3D空间并在BEV平面上操作。然后提取特征以对每个体素进行编码。VoxelNet[1]设计了一个可学习的体素特征编码器(VFE)层,对每个体素内的点云进行编码,然后利用3D CNN跨体素网格提取特征。SECOND[12]提出了3D稀疏卷积层,通过利用体素网格的稀疏性来减少3D卷积的计算。PointPillars[2]通过将沿高度维度的体素数减少到1,并使用2D CNN处理生成的伪图像,进一步提高了推断速度。CenterPoint[10]是一种anchor-free目标检测方法,解决了anchor-based的方法带来的挑战。CenterPoint设计了一种center-based的检测头,用于检测BEV平面中3D box的中心。这种方法显著提高了检测精度,因为它不需要将轴对齐的框适配到旋转的目标。


3D全景分割


3D全景分割方法通常从基于RV的语义分割网络扩展而来,具有将前景点云分组为簇的附加机制,每个簇表示一个分割的实例。LPSAD[7]使用具有两个解码器的共享编码器,其中第一个解码器预测语义标签,第二个解码器预测每个前景点云的中心偏移,随后它使用外部算法(如BFS和HDBSCAN[14])将附近的移位点云聚类到同一簇中。Panoster[13]使用可学习的聚类方法为每个点云分配实例标签。CPSeg[6]是一种无簇全景分割方法,该方法通过根据学习到的嵌入对点云进行柱化并通过成对嵌入比较找到连接的pillars来分割目标。


3D多任务感知


很少有人尝试利用分割和检测任务的互补性。PointPainting[27]和FusionPainting[38]将来自预训练的分割网络的语义类分数附加到点云,然后再馈送到3D检测模型。最近引入了与论文的框架类似的方法[30],其中全景分割模型和目标检测模型被联合训练。其级联特征融合模块分别融合来自检测和全景分割主干的BEV和RV特征。其class-wise前景注意力模块将预测的前景语义得分嵌入检测特征中。在[30]中,尽管全景分割被用来改善目标检测,但这两项任务并不能互惠互利。


方法



概览


论文提出了一个框架,该框架联合实现3D检测和全景分割,如图1所示。在该多任务方法中,基于BEV的3D检测模型和基于RV的3D全景分割模型被深度集成,因此两个任务的性能都可以显著提高。由于其实时性能和高精度,论文开发了简化版本的CPSeg[6],这是一种具有两个任务特定解码器的U-Net架构,用于全景分割。对于目标检测,论文依赖于CenterPoint[10]的检测头,以获得卓越的性能。

640.png


为了将这两个任务集成到一个统一的框架中,论文提出了一个双任务3D主干来从体素化的点云中提取多尺度特征。这些特征被压缩并投影到RV平面,通过三个卷积Bottleneck注意力模块(CBAM)[22]与直接从RV投影点云提取的一组特征融合,并被馈送到全景head。这种轻量级操作有效地增强了全景head的检测级别特征。为了将全景级特征引入到检测中,论文利用了[30]中的级联特征融合和逐类前景关注模块,如图1中的多视图特征融合所示。


来自双任务3D主干的最低分辨率体素特征被投影到用于检测任务的BEV。除了检测级别信息之外,这些特征还编码实例和语义级别信息。此外受[15]的启发,提出了一种更有效的2D主干,该主干将MLP与卷积层混合,以处理检测头的特征。此外,新颖的IFR模块通过利用预测的实例掩码来恢复在双任务3D主干中的下采样操作期间丢失的相关对象特征,从而增强了检测头。


双任务3D主干


如图2所示,论文的方法中使用的3D主干负责从3D体素中提取特征。


640.png


为了有效地将特征从3D主干传输到目标检测任务,论文遵循[1]、[12]、[10],并以最粗分辨率image.png将3D特征映射到BEV,进而将其馈送到2D主干。然而与以前的方法不同,嵌入两组更高分辨率体素特征中的详细目标信息稍后将在IFR模块中恢复。此外,三组更高分辨率体素特征被投影到RV,通过相应的CBAM与直接从RV投影点云提取的特征融合,并由CPSeg的RV编码块处理。这些基于多尺度体素的特征增强了基于RV的全景head。同时这种增强还加强了3D主干,以开发一组更丰富的语义和实例级特性。


简化ConvMLP(SC)主干


最近基于MLP的视觉骨干因其在密集视觉预测任务中比全卷积的骨干具有竞争能力甚至表现更好而受到更多关注[17]、[18]、[19]、[16]、[15]。


受图像域中使用的ConvMLP[15]的启发,论文提出了该架构的简化版本,以处理来自3D主干的BEV投影特征,然后将其馈送到检测头。简化的ConvMLP(SC)块和提出的2D主干架构如图3所示。与原始ConvMLP块相比,删除了最后一个MLP层,并在卷积层上添加了跳跃连接,以进一步简化梯度流。在这种架构中,MLP块实现了每个空间位置中特征的交互,而随后的深度卷积实现了有效的空间交互。在主干中首先应用连续的Conv块(每个块由卷积层组成,随后是BN和ReLU)来增强空间上的特征交互。然后,生成的特征通过第一组SC块发送,下采样,并馈送给另一组SC块。然后这两组SC块的输出被匹配并连接为2D特征的最终集合,其被馈送到检测头。


640.png


与[2],[10]中的常规2D主干相比,所提出的2D主干提高了检测性能,而不会大幅增加模型复杂度。更具体地说,与常规3x3卷积层相比,SC块需要的内存减少54.6%,FLOP减少54.8%。因此,通过用更轻的SC块替换常规卷积,可以在单个分辨率中构建更多的连续卷积,从而实现更大的感受野,而无需进一步下采样。此外,与使用单个1x1卷积层进行通道深度调整的其他CNN不同,该架构广泛使用MLP块来强调每个BEV平面位置内的特征提取。


Instance-based Feature Retrieval(IFR)


为了增强SC主干提取的粗尺度特征,可以有效利用双任务3D主干中的下采样操作期间丢弃的特征。为此提出了IFR模块,如图4所示。该模块从双任务3D主干中的image.png和分辨率特征图中恢复每个候选目标的多尺度详细特征。然后构造一组新的特征来增强检测头。

640.png

首先为了降低计算复杂性,在所有BEV平面位置上,沿着高度维度的体素特征被平均以形成平均体素特征。然后,提出了一种基于全景头估计的实例掩码来选择平均体素的选择策略。具体而言,给定BEV平面上相同比例的第l比例image.png平均体素特征和实例掩码,计算每个实例的平均X和Y坐标。这将给出每个实例的质心位置。然后,从表示每个实例的所有BEV位置中,选择距离每个实例质心最近的image.png平均体素。


在对每个实例的Ksl平均体素进行采样之后,计算每个采样的平均体素在x-轴和y-轴上与其实例质心的相对坐标,并将其连接到相应的特征向量作为相对位置嵌入。这允许IFR模块了解每个实例的采样平均体素的几何结构。这些特征向量连续经过VFE[1]和MLP层。然后,使用最大和平均池层合并每个实例的结果特征向量,并将其连接起来。以下等式说明了这一点:

640.png

每个生成的单个特征向量image.png对其对应的第i个实例的采样平均体素特征进行编码和汇总。在馈送到VFE层之前,使用级联连接将较高分辨率image.png中实例的提取特征与较低分辨率中该实例的每个采样平均体素特征向量连接。这使得实例的较低分辨率image.png平均体素能够利用同一实例的较高分辨率编码特征。最后,将不同分辨率的每个实例的所得编码特征向量连接起来,并根据粗略尺度实例掩码将其分布到对应于该实例的所有BEV位置。然后,将这组新的特征映射连接到来自2D主干的输出特征,并馈送到检测头。通过这样做,论文通过恢复和处理对每个实例唯一且通常在2D主干之前丢失的多尺度信息,有效地增强了检测头。


实验



数据集


论文在nuScenes和Waymo数据集上展开实验。


结果


1)3D检测:在表I和表II中,论文比较了所提出的方法和CenterPoint在nuScene和Waymo验证集上的评估结果。AOP-Net基于CenterPoint第一阶段。如图所示,所提出的方法在nuScenes的mAP和NDS得分上显著优于CenterPoint,Waymo的mAP与mAPH得分显著优于CenterPoint。正如消融中所阐述的,SC主干和IFR模块分别可以提高对大目标和小目标的检测能力。

640.png640.png



AOP-Net与nuScene测试集上其他已发布的最先进3D目标检测方法之间的比较如表III所示。可以看出,在NDS和表示目标框估计质量的所有五个误差度量方面,速度(mAVE)和属性(mAAE)。这一改进可归因于全景分割模块提供的指导,包括直接(利用IFR中的全景分割预测)和间接(主干中全景损失的反向传播)。

640.png


2)3D全景分割:在表IV中,将AOP-Net与nuScene测试集上其他最先进的已发布方法进行比较,论文验证了AOP-Net获得了更高的平均PQ。与第二行相比,第二行是最初包含在AOP-Net中的CPSeg的独立简化版本,AOP-Net接受了多尺度检测级别特征的额外输入,这导致了显著更好的全景性能。

640.png


在图5中,统一的多任务框架对全景分割的好处是显而易见的。在示例(a)中,独立的CPSeg难以预测远处点云的语义,导致三个假阳性和一个假阴性。在(b)中,CPSeg在左侧的段下方,在顶部附近的段上方,因为它对大量点云后面不太可见的区域不太自信。在这两种情况下,AOP-Net中的双任务3D主干提供了有效的多尺度3D特征,以防止这些错误。

640.png


消融实验


1) 每个模块的效果:AOP-Net模块的贡献如表V所示。可以看出,这些模块的每个和组合都很好地适应了基线,并提供了强大的性能增益。

640.png



具体而言,在表VI中可以看出,结合双任务3D主干显著提高了两个任务的性能。特别是,AOP-Net在全景分割中的改进主要归功于该模块。由于3D主干取决于两个任务,因此学习的特征被丰富,并提供了关于前景目标的额外线索。此外3D主干捕获特征,而不存在RV平面中特征提取常见的遮挡或比例变化问题。当投影到RV并与已经提取的基于RV的特征融合时,这些特征集在分割被遮挡和远处的目标时更为可靠和有用。这些因素导致mIOU和PQ的显著改善。


在表VII中,论文证明了大类目标检测的改进可以归因于扩大的感受野和从SC骨干中更广泛的通道式特征提取。

640.png


在表VIII中,可以看出IFR在更好地检测小的孤立目标方面发挥了重要作用。这是因为IFR影响检测头更加关注与前景目标相关的多尺度特征。通过在3D主干中重新引入在下采样过程中丢失的信息,检测头提高了精度(通过细化可能的候选)和召回(检索在RV全景分割中更好地检测到的丢失目标)。


640.png

2)ConvMLP主干的变体:在表IX中,使用原始ConvMLP的类似大小的网络(根据#参数)具有更少的连续层和更低的性能。此外,比较具有5个和10个SC块的第2-4行在性能和复杂性方面给出了最佳权衡。

640.png


3) 提出的框架中的其他基于BEV的3D目标检测器:为了证明AOP-Net也可以与基于锚点的检测方法一起工作,论文通过将AOP-Net适配于PointPillars[2]和SECOND[12]进行了实验。这些实验的结果如表X所示。此外,论文增加了PointPillars和SECOND的模型复杂性,并将它们命名为Complex PointPillar和Complex SECOND。可以看出,通过简单地增加模型复杂性,性能提升要么不存在,要么有限。然而,在所提出的框架下,mAP和NDS显著改善。图6显示了拟议框架的普遍效果。可以看出,在示例(a)和(b)中,由于在下采样期间丢失了精细尺度特征,PointPillars无法检测到小目标。另一方面,在所提出的方法中,这些目标被基于RV的分割模块识别,并且它们的精细尺度特征被IFR模块恢复,从而允许它们的检测。此外,在示例(b)中,PointPillars从远处产生了两个假阳性,而AOP-Net由全景级信息正确引导并避免了这些错误。


image.png


结论



论文提出了AOP-Net,这是一个用于基于LiDAR的联合3D检测和全景分割的一体式感知框架。在此框架中,论文设计了双任务3D主干,以同时考虑场景的语义和实例级信息,从而增强了基于BEV的检测头和基于RV的全景头。此外,由该主干产生的多尺度3D体素特征用于在全景分割任务中增强单尺度RV特征图。此外,基于简化的ConvMLP(SC)块,提出了一种深度和高效的2D主干,这促进了检测的改进。最后为了恢复在双任务3D主干中的下采样操作期间丢失的特征,提出了一种新的基于实例的特征检索(IFR)模块,该模块依赖于预测的实例掩码并恢复特征以增强检测主干。在nuScenes和Waymo数据集上的实验结果表明,在所提出的框架下,3D全景分割和目标检测任务都有显著的改进,同时表明,使用所提出的策略可以提高任何基于BEV的3D对象检测的检测精度。


参考



[1] AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
13天前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
57 5
|
20天前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。
|
14天前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。
|
1月前
|
网络架构
.NET 网络唤醒
【9月更文挑战第5天】在网络管理中,.NET 可以实现 Wake-on-LAN,即通过发送特定数据包(魔术包)唤醒睡眠或关机状态的计算机。首先需引入命名空间(System.Net, System.Net.Sockets),然后编写 WakeUpComputer 方法,构造并发送含有目标计算机 MAC 地址的魔术包,最后调用此方法即可。使用前,请确认目标计算机及网络设备支持此功能。
21 12
|
1月前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
40 3
|
2月前
|
计算机视觉
在yolov5项目中如何使用自带摄像机不用网络摄像机进行实时检测?
这篇文章讨论了在yolov5项目中,如何避免使用网络摄像机而改用自带的本地摄像机进行实时目标检测,并提供了解决摄像头打开错误的具体步骤和代码示例。
在yolov5项目中如何使用自带摄像机不用网络摄像机进行实时检测?
|
2月前
|
机器学习/深度学习 运维 监控
|
2月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
55 0
|
2天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益严重。本文将从网络安全漏洞、加密技术和安全意识三个方面,探讨如何保护个人信息和网络安全。我们将通过实例分析,了解网络攻击者如何利用安全漏洞进行攻击,以及如何运用加密技术防止数据泄露。同时,我们还将讨论提高个人和企业的安全意识的重要性。
|
3天前
|
SQL 存储 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享##
网络安全与信息安全是当今数字化世界中的重要议题,涉及网络漏洞、加密技术和安全意识等方面。本文将探讨这些关键问题,旨在提升读者对网络安全的认知和应对能力。通过了解常见的网络安全漏洞类型及其影响,掌握加密技术的基本原理和应用,以及培养良好的安全意识和行为习惯,我们可以有效保护自己的隐私和数据安全。网络安全不仅仅是技术问题,更是每个人都应该关注和参与的重要事项。希望通过这篇文章的分享,读者能够增强自身的网络安全意识,共同构建一个更加安全的网络环境。 ##