不引入任何 可学习参数或训练,是否可以直接实现 3D 点云的分类、分割和检测?
本文提出了一个用于 3D 点云分析的非参数网络 Point-NN,它仅由纯不可学习的组件组成:最远点采样(FPS)、k 近邻(k-NN)、三角函数(Trigonometric Functions)以及池化(Pooling)操作。不需要参数和训练,它能够在各种 3D 任务上都取得不错的准确率,甚至在 few-shot 分类上可以大幅度超越现有的完全训练的模型。
基于 Point-NN 的非参数框架,这项研究对于当前 3D 领域的贡献如下:
1、首先,我们可以通过插入简单的线性层,来构建 Point-NN 的参数化网络,Point-PN。由于 Point-NN 具有强大的非参数基础,所构建出的 Point-PN 仅需要少量可学习参数就可以表现出优秀的 3D 分类和分割性能。
2、其次,由于 Point-NN 不需要训练的属性,我们可以将其作为一个即插即用的增强模块,去增强现有已经训练好的 3D 模型。通过提供互补知识,Point-NN 可以在各种 3D 任务上提升原本的 SOTA 性能。
一、引言
1. 动机
3D 点云的处理和分析是一项具有挑战性的任务,并且在学术界和工业界都取得了广泛的关注。自从 PointNet++ 起,后续的 3D 模型为了提升性能,一方面设计了更加复杂的局部空间算子,一方面增大了网络的可学习参数量。然而,除了不断更新的可学习模块,他们基本都沿用了同一套潜在的多尺度网络框架,包括最远点采样(FPS)、k 近邻(k-NN)和池化(Pooling)操作。目前,还几乎没有研究去探索这些非参数组件的潜力;因此,本文提出并探索了以下问题:这些非参数组件对于 3D 理解的贡献有多大?仅仅使用非参数组件,能否实现无需训练的 3D 点云分析?
2. 贡献
为了解决以上问题,本文首次提出了一个非参数化(Non-Parametric)的 3D 网络,Point-NN,整体结构如上图所示。Point-NN 由一个用于 3D 特征提取的非参数编码器(Non-Parametric Encoder)和一个用于特定任务识别的点云记忆库(Point-Memory Bank)组成。非参数编码器采用了多阶段的结构设计,使用了最远点采样(FPS)、k 近邻(k-NN)、三角函数(Trigonometric Functions)和池化(Pooling)来逐步聚合局部几何图形,为点云生成一个高维度的全局特征。我们仅仅采用了简单的三角函数来捕捉局部空间几何信息,没有使用任何可学习算子。接下来,我们使用此编码器,去提取到所有训练集点云的特征,并缓存为点云记忆库。进行测试时,点云记忆库通过对测试点云和训练集点云的特征,进行相似度匹配,来输出特定任务的预测。
不需要任何训练,Point-NN 可以在多种 3D 任务中实现优越的性能,例如 3D 分类、分割、检测,甚至可以超过一些现有的经过完全训练的模型。基于此,我们进一步提出了两点 Point-NN 对于现今 3D 领域的贡献,如下图(a)和(b)所示:
1)以 Point-NN 为基础框架,我们通过在 Point-NN 的每个阶段插入简单的线性层,引入了其 parameter-efficient 的变体 Point-PN,如上图 (a) 所示。Point-PN 不包含复杂的局部算子,仅仅包含线性层以及从 Point-NN 继承的三角函数算子,实现了效率和性能的双赢。
2)我们将 Point-NN 作为一个即插即用的模块,为各种 3D 任务中训练好的模型提供互补知识,并在推理过程中可以直接提升这些训练模型的性能,如上图 (b) 所示。
二、方法 1.Point-NN
Point-NN 由一个 Non-Parametric Encoder (EncNP) 和一个 Point-Memory Bank (PoM) 组成。对于输入的点云,我们使用 EncNP 提取其全局特征,并通过 PoM 的特征相似度匹配,来输出分类结果,公式如下图所示:
接下来,我们依次介绍 Point-NN 中的这两个模块。
(1)非参数编码器 (Non-Parametric Encoder)
非参数编码器首先将输入点云进行 Raw-point Embedding,将 3 维的原始点坐标转化为高维度特征,再经过 4 个阶段的 Local Geometry Aggregation 逐步聚合局部特征得到最终的点云全局特征,如下图所示。
a. 原始点云映射 (Raw-point Embedding)
我们参考了 Transformer 中的 positional encoding,对于输入点云的一个点,利用三角函数将它嵌入到一个维向量中:
其中分别表示三个轴的位置编码。以为例,对于通道索引,具体的位置编码公式如下:
其中,α,β 分别控制了尺度和波长。通过这种三角函数的编码,我们可以将点云的绝对位置信息映射到高维度的特征空间中,并通过后续的点乘操作可以根据权重获取不同点之间的相对位置信息,并捕获三维形状的细粒度结构变化。
b. 局部几何特征的聚合 (Local Geometry Aggregation)
对于每一个点云尺度的处理,我们分为三个步骤。
首先是特征扩维 (Feature Expansion)。我们使用 FPS 进行点云数量的下采样,对于下采样后得到的每一个中心点,我们采用 k-NN 去找到他的 k 个邻域点以及对应的特征。基于此,我们将中心点特征和在特征维度进行拼接,实现特征扩维,这样可以在更深的网络层中编码更多的语义信息:
其次是几何信息提取 (Geometry Extraction)。我们先使用均值和标准差对的坐标进行归一化,并使用三角函数进行相对位置的编码,来获取的相对几何权重,标记为。之后,我们通过下面的公式得到加权后的邻域特征。
最后是局部特征聚和 (Feature Aggregation)。我们利用最大池化和平均池化来进行局部特征聚合。
在完成 4 个阶段的 Local Geometry Aggregation 后,我们再次运用最大池化和平均池化来得到点云的全局特征。
(2)点云记忆库 (Point-Memory Bank)
在经过非参数编码器 (Non-Parametric Encoder) 的特征提取后,由于 Point-NN 不含任何可学习参数,我们没有使用传统的可学习分类头,而是采用了无需训练的 point-memory bank。首先,我们使用非参数编码器去构造关于训练集的 bank,接着在推理过程通过相似度匹配输出预测,如下图所示。
a. 记忆构建 (Memory Construction)
Point memory 包括一个 feature memory和一个 label memory。以点云分类任务为例,假设给定的训练集包含 K 个类别的 N 个点云。通过 Non-Parametric Encoder 可以得到 N 个训练集点云的全局特征,同时将对应的分类标签转换为 one-hot 编码,接着将它们沿着样本维度进行拼接,缓存为两个矩阵。
b. 基于相似度的预测 (Similarity-based Prediction)
在推理阶段,我们利用构造好的 bank 进行两个矩阵乘法来完成分类。首先,我们通过 Non-Parametric Encoder 来计算测试点云的全局特征,并计算与 feature memory 之间的余弦相似度。
接下来,将 label memory 中的 one-hot 标签与进行加权,越相似的 feature memory 对最终的分类 logits 贡献越大,反之亦然。
通过这种基于相似性的计算,point-memory bank 可以在不经过任何训练的情况下,学习到从训练集中提取的知识,在推理过程自适应地完成不同任务。
2.Point–NN 在其他 3D 任务的拓展
以上主要是对 Point-NN 在分类任务中的应用的介绍,Point-NN 也可以被用于 3D 的部件分割和 3D 目标检测任务。
(1)部件分割 (3D Part Segmentation)
与分类任务对全局特征进行提取再进行分类不同的是,部件分割需要对每个点进行分类。因此,论文采用了一个接在 non-parametric encoder 后的对称的 non-parametric decoder,进行点云特征的上采样,恢复至输入时的点数量。具体来说,在 decoder 的每个阶段,我们将局部中心点的特征通过相对位置加权,来扩散到周围的领域点。对于 point-memory bank,首先使用 encoder 和 decoder 得到训练集的每个点的特征,为了节省显存消耗,对于每一个物体,我们将每个部件的特征取平均值,再作为 feature memory 存入到 bank 中。
(2)目标检测 (3D Object Detection)
对于检测任务,我们将 Point-NN 作为一个 3D 检测器的分类头使用。当预训练好的检测器产生 3D proposal 后,Point-NN 与分类任务相似,使用 non-parametric encoder 来获取被检测物体的全局特征。在构建 point-memory bank 时,我们在训练集中对在每个 3D 框标签内的点云进行采样,将采样后的每个物体的全局特征进行编码得到 feature memory。特别的是,我们没有像其他任务一样对每个物体的点云坐标进行归一化,这是为了保留在原始空间中的 3D 位置信息,实现更好的检测性能。
3. 从 Point–NN 延伸 (Starting from Point-NN)
(1)作为结构框架构建 Point-PN (As Architectural Frameworks)
我们讲 Point-NN 视为一个良好的非参数化框架,在其中插入简单的可学习线性层,来构建参数化的 3D 网络,Point-PN。Point-PN 相比于现有的 3D 网络,不含有复杂的局部算子,以极少的可学习参数量实现了优秀的 3D 性能。
我们构建 Point-PN 的步骤如下:首先,将 point-memory bank 替换为传统的可学习的分类头,如上图(A)所示;在 ModelNet40 的分类任务上,这一步将分类性能从 Point-NN 的 81.8% 提高到了 90.3%,且仅仅使用了 0.3M 的参数量。接着,我们将 raw-point embedding 替换为线性层(B),可以将分类性能进一步提高到 90.8%。为了更好地提取多尺度层次特征,我们接着将线性层插入到每一阶段的 non-parametric encoder 中。具体来说,在每个阶段,两个线性层分别被插入到 Geometry Extraction 的前后来捕捉高层空间信息,如图中(C、D、E)所示。这样,最终的 Point-PN 可以仅仅使用 0.8M 的参数量达到 93.8% 的性能,且只包括三角函数和简单的线性层。这说明,与现有的高级的操作算子或者大参数两相比,我们可以从非参数框架出发,来获取一个简单高效的 3D 模型。
(2)作为即插即用模块 (As Plug-and-play Modules)
Point-NN 可以在不进行额外训练的情况下增强现有 3D 预训练模型的性能。以分类任务为例,我们直接将 Point-NN 与预训练模型预测的分类 logits 进行相加,来提供互补的 3D 知识提升性能。如下图对特征的可视化所示,Point-NN 主要提取的是点云的低层次高频特征,在尖锐的三维结构周围产生了较高的响应值,例如飞机的翼尖、椅子的腿和灯杆;而经过训练的 PointNet++ 更关注的是点云的高层次语义信息,通过对它们的 logits 相加可以得到互补的效果,例如,飞机的机身、椅子的主体和灯罩。