3D目标检测改进提升 | PointPillar在域自适应的改进DASE-ProPillars(二)

简介: 3D目标检测改进提升 | PointPillar在域自适应的改进DASE-ProPillars(二)

4、方法


本文设计了一个实时激光雷达的3D目标检测器(DASE-ProPillars),可以应用于现实场景来解决领域迁移问题。设计的DASE-ProPillars模型的体系结构如图所示。

4.1、Normalization

由于类的边界框在半合成数据集和A9数据集中不同,因此这些框被归一化为每个类的边界框的平均大小。由于手动标记的数据通常会导致边界框的长度、宽度和高度不正确,因此会使用合成标签的标准化边界框。

对于合成数据,可以直接从模拟中提取精确的尺寸。借助于标准化,可以改进各个类之间的区别,这对于“van”和“car”类是有用的。此外,在域自适应中使用归一化大小来将源域数据调整为目标域数据。

4.2、Voxelization

在将原始点云输入神经网络之前,将其分成垂直pillars。这些是不沿垂直轴分割的特殊体素。pillars比体素有几个优点。由于网格单元较少,基于pillars的主干比基于体素的主干更快。耗时的3D卷积中间层也被消除,取而代之的是2D卷积。

这里也不需要沿着z方向超参数手动调整容器大小。如果pillars包含的点比阈值中指定的点多,则使用最远点采样将这些点子采样到阈值。如果pillars包含的点少于阈值,则会用零填充以使尺寸一致。由于人烟稀少,大多数pillars都是空的。作者根据pillars中心的索引记录非空pillars的坐标。在特征提取期间不考虑空pillars,直到所有pillars被散射回用于2D卷积的伪图像。

4.3、Stacked Triple Attention

Stacked Triple Attention模块用于更健壮和有区别的特征表示。最初由Liu等人在TANet中引入的Stacked Triple Attention模块增强了对难以检测到的对象的学习,并更好地处理噪声点。该方法可以应用于体素和基于pillars的点云。

本模块中的注意力机制遵循Squeeze-and-Excitation模式。如果对具有形状(H×W×C)的输入张量应用通道注意力,则首先使用全局池化操作(最大池化)将张量池化为形状(1×1×C),称为Squeeze操作。然后,将两个完全连接(FC)层应用于压缩张量注意力得分,称为Excitation操作。在两个FC层之间,特征维度被降低,然后以形成瓶颈结构的降低比率被恢复。之后,应用Sigmoid函数来获得注意力得分。最后,将(1×1×C)张量逐元素相乘,以获得原始(H×W×C)特征。

模块的输入是(P×N×C)张量,其中P是非空pillars的数量,N是每个pillars中的最大点数,C是输入逐点特征的维数。首先,有一个9维(C=9)特征向量,其中,和是点的坐标,是强度,、和是pillars内所有点的算术平均值的距离,和是pillars距pillars中心的位置。Triple Attention(TA)模块使用点式、通道式和体素式注意力提取每个pillars内的特征。所有Triple Attention得分组合在一起形成最终的输出特征。

为了进一步利用多级特征注意力,将2个Triple Attention模块堆叠在一起,其结构类似于ResNet中的跳跃连接。第一个模块将原始点云9维特征作为输入,而第二个模块处理提取的高维特征。对于每个TA模块,输入与输出相连或相加,以融合更多特征信息。每个TA模块后面都有一个完全连接的层,以增加特征尺寸。在TA模块中,注意力机制只对特征进行重新加权,但不会增加特征的尺寸。

4.4、Pillar Feature Net

选择PointPillars作为基线,以牺牲推断时间为代价提高其3D检测性能。在没有TensorRT加速的情况下,PointPillars的推断速度为42 Hz。由于速度和准确度之间存在权衡,可以通过加入额外的模块来进一步提高准确度,而不会过分牺牲推理速度。

图1所示的Pillar Feature Net(PFN)将Pillar 作为输入,提取Pillar 特征,并将Pillar映射回伪图像,用于中间层的2D卷积操作。Pillar Feature Net充当Stacked Triple Attention模块的附加特征提取器。来自具有形状(P×N×C)的Stacked Triple Attention模块的逐Pillar组织特征被馈送到一组PFN层。每个PFN层都是简化的PointNet,它由线性层、Batch Norm、ReLU和最大池化组成。最大池化特征被连接回ReLU的输出,以保持每个Pillar内的逐点特征尺寸,直到最后一个FPN层。

最后一个FPN层进行最终最大池化,并输出一个(P×C)特征作为Pillar特征。然后将Pillar特征分散回原始柱位置,形成(C×H×W)伪图像,其中H和W是Pillar栅格的高度和宽度。这里空Pillar的位置用零填充。

4.5、Attentive Hierarchical Middle Layers

将PointPillars的默认主干与Attentive Hierarchical backbone交换,以对来自Pillar特征网的伪图像执行2D卷积。在第一阶段,伪图像的空间分辨率通过三组卷积逐渐下采样。每组包含三个卷积层,其中第一个层的步幅为2,用于下采样,随后的两个层仅用于特征提取。在下采样之后,应用反卷积操作来恢复空间分辨率。反卷积层(用星号标记)用stride=2恢复特征图的大小,并按元素将其添加到上分支。

剩余的三个反卷积层使所有三个分支具有相同的大小(原始特征图的一半)。然后,最后三个特征图通过add来组合,以融合空间和语义特征。注意力的添加使用了简单的注意力机制。所有三个特征图都经过卷积运算,并按通道连接为注意力得分。softmax函数生成注意力分布,特征图与相应的分布权重相乘。最后的逐元素相加给出了最终的注意力输出,即(C×H/2×W/2)特征图。

4.6、Multi-task Head

Multi-task Head输出最终类别(基于置信分数)、3D框位置(x,y,z)、尺寸(l,w,h)、旋转(θ)和检测到的目标的方向。对方向(前/后)进行分类,以解决正弦误差损失无法区分翻转框的问题。4个卷积层分别在特征图上操作。

4个头之一是IoU预测头,用于预测GT边界框和预测框之间的IoU。在CIA-SSD中引入了该方法,以处理预测边界框与相应分类置信图之间的偏差。未对准主要是因为这两个预测来自不同的卷积层。基于此IoU预测,使用置信函数(CF)来校正置信图,并使用距离变量IoU加权NMS(DI-NMS)模块对预测的边界框进行后处理。

距离变量IoU加权NMS旨在处理远距离预测,更好地将远边界框与GT对齐,并减少假阳性预测。如果预测的框接近透视原点,会给那些IoU高的框预测更高的权重。如果预测的框很远,会给出相对均匀的权重,以获得更平滑的最终框。

4.7、Data Augmentation

数据增强已被证明是一种有效的方法,可以更好地利用训练数据集并帮助模型更加通用。本文使用SE-SSD提出的形状感知数据增强方法。该模块简化了对同一类中目标的部分遮挡、稀疏性和不同形状的处理。一些传统的增强方法也在形状感知增强之前应用,例如旋转、翻转和缩放。

为了生成半合成数据,还采用了几种数据增强技术来增加点云的方差。因此,在每第二帧中,所有点的0-20%被丢弃,并且σ为0.2的高斯噪声被添加到所有点的20-40%。这些技术增加了点云的方差,并提供了更健壮和多样的数据。数据增强在领域自适应方法中起着重要作用,因为它被多种方法使用。

值得注意的是,目标域的点密度比源域的点浓度更重要。随后,裁剪和删除点,分别进行点云上采样是将源集的点数调整为目标集的重要步骤。源域数据集和目标域数据集的统计数据都是根据总点云的点数计算的,如果目标域数据有注释数据,则计算每个对象的平均点数。

然后,使用数据增强技术,将源域数据集与目标域数据集进行匹配。为了更好地说明这一效果,在第五节中应用了从合成A9数据集(源域)到Regensburg Next项目数据集(目标域)的域自适应。

4.8、Self-Ensembling Training Framework

此外,作者还引入了自融合训练框架来进行后期训练:首先训练没有自融合的模型,然后将预训练的模型作为教师模型来训练具有相同网络结构的学生模型。教师模型的预测可以用作软监督。结合来自实际情况的严格监督,可以为学生模型提供更多信息。学生模型和教师模型用相同的预训练参数初始化。训练学生模型的总体损失包括:

其中,是box分类的Focal loss损失,是边界框回归的OD IoU损失,是方向分类的交叉熵损失,是一致性损失,即边界框损失和分类损失之和,ωω、和是损失的权重。

在后期训练期间,使用指数移动平均(EMA)策略基于学生模型的参数更新教师模型的参数。


5、实验


5.1、A9-Dataset

5.2、Regensburg Next Dataset


6、参考


[1].Real-Time and Robust 3D Object Detection Within Road-Side LiDARs Using Domain Adaptation.

相关文章
|
机器学习/深度学习 数据采集 算法
四足动物模型控制中的模型自适应神经网络
翻译:《Mode-Adaptive Neural Networks for Quadruped Motion Control》
106 0
|
8天前
|
机器学习/深度学习 编解码 测试技术
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
21 2
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
|
9天前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效
YOLOv11改进策略【Neck】| 2023 显式视觉中心EVC 优化特征提取金字塔,对密集预测任务非常有效
30 8
|
9天前
|
机器学习/深度学习 编解码 测试技术
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
21 0
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
|
9月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
193 13
|
8月前
|
算法 API 计算机视觉
【原理解密】多角度、多尺度、多目标的边缘模板匹配
【原理解密】多角度、多尺度、多目标的边缘模板匹配
207 0
|
存储 传感器 编解码
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割
147 0
|
9月前
|
机器学习/深度学习 XML 编解码
ENVI实现最小距离法、最大似然法、支持向量机遥感图像监督分类与分类后处理操作
ENVI实现最小距离法、最大似然法、支持向量机遥感图像监督分类与分类后处理操作
356 1
|
机器学习/深度学习 算法 计算机视觉
基于多注意力融合的抗遮挡目标跟踪算法综述
基于多注意力融合的抗遮挡目标跟踪算法综述
689 0
基于多注意力融合的抗遮挡目标跟踪算法综述
|
机器学习/深度学习 编解码 索引
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》