0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA(2)

简介: 0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA

三、实验    1.Point-NN 和 Point-PN    (1)3D 物体分类 (Shape Classification)


对于 2 个代表性的 3D 物体分类数据集,ModelNet40 和 ScanObjectNN,Point-NN 都获得了良好的分类效果,甚至能够在 ScanObjectNN 上超过完全训练后的 3DmFV 模型。这充分说明了 Point-NN 在没有任何的参数或训练情况下的 3D 理解能力。

Point-PN 在 2 个数据集上也都取得了有竞争力的结果。对于 ScanObjectNN,与 12.6M 的 PointMLP 相比,Point-PN 实现了参数量少 16 倍,推理速度快 6 倍,并且精度提升 1.9%。在 ModelNet40 数据集上,Point-PN 获得了与 CurveNet 相当的结果,但是少了 2.5X 的参数量,快了 6X 的推理速度。

(2)少样本 3D 分类 (Few-shot Classification)


与现有的经过完全训练的 3D 模型相比,Point-NN 的 few shot 性能显著超过了第二好的方法。这是因为训练样本有限,具有可学习参数的传统网络会存在严重的过拟合问题。

(2)3D 部件分割 (Part Segmentation)


70.4% 的 mIoU 表明由 Point-NN 在分割任务中也可以产生执行良好的单点级别的特征,并实现细粒度的 3D 空间理解。

Poinnt-PN 能够取得 86.6% 的 mIoU。与 Curvenet 相比,Point-PN 可以节省 28 小时的训练时间,推理速度快 6X。

(3)3D 目标检测 (3D Object Detection)


将 Point-NN 作为检测器的分类头,我们采用了两种流行的 3D 检测器 VoteNet 和 3DETR-m 来提取类别无关的 3D region proposals。由于我们没有进行点云坐标的归一化处理(w/o nor.),这样可以保留原始场景中更多物体三维位置的信息,大大提升了 Point-NN 的 AP 分数。    

2.Point-NN 的即插即用 (Plug-and-play)    (1)3D 物体分类 (Shape Classification)


Point-NN 可以有效提高现有方法的分类性能,在 ScanObjectNN 数据集上,Point-NN 可以对 PointNet 和 PoitMLP 的分类准确率均提高 2%。

(2)3D 分割和检测 (Segmentation and Detection)


对于分割任务,由于 ShapeNetPart 数据集上的测评指标已经比较饱和,Point-NN 对 CurveNet 提升的 0.1% 已经是很好的效果。对于检测任务,Point-NN 对 3DETR-m 的增强达到了很好的 1.02%和 11.05%


四、讨论    1. 为什么 Point-NN 中的三角函数可以编码 3D 信息?    (1)捕获高频的 3D 结构信息

通过下图中 Point-NN 特征的可视化,以及我们分解出的点云低频和高频信息,可以观察到 Point-NN 主要捕获了点云的高频空间特征,例如边缘、拐角以及其它细粒度的细节。


(2)编码点之间的相对位置信息

三角函数本身可以提供点云的绝对位置信息。对于两个点,首先获取它们的 C 维的位置编码,公式如下:


而它们之前的相对位置关系可以通过它们之间的点乘得到,公式如下:


以 x 轴为例,


这个公式表示了 x 轴上两个点之间的相对位置。因此,三角函数可以得到点云之间的绝对和相对位置信息,这更有利于 Point-NN 对局部化点云的结构理解。

2.Point–NN 可以即插即用的提升 Point–PN 的性能吗?



如上表所示,Point-NN 对 Point-PN 的提升极其有限,从上图可视化的结果来看,Point-NN 和 Point-PN 之间的互补性比 Point-NN 和 PointNet++ 之间的互补性更弱。这是因为 Point-PN 的基础结构是继承自 Point-NN,因此也会通过三角函数获取 3D 高频信息,和 Point-PN 拥有相似的特征捕获能力。

3. 和其他无需训练的 3D 模型的比较


现有的 3D 模型中,有一类基于 CLIP 预训练模型的迁移学习方法,例如 PointCLIP 系列,它们也不需要进行 3D 领域中的训练过程。从上表的比较可以看出,Point-NN 可以实现很优越的无需训练的分类性能。

4.Point–NN 与 PnP–3D 的增强效果比较


PnP-3D 提出了一种对于 3D 模型的即插即用的可学习增强模块,但是它会引入额外的可学习参数,并且需要重新训练而消耗更多的计算资源。如上表所示,相比之下,Point-NN 也能实现相似的增强性能,但是完全不需要额外参数或者训练。

五、总结与展望  

本文首次在 3D 领域中,提出了一个无参数无需训练的网络,Point-NN,并且在各个 3D 任务上都取得了良好的性能。我们希望这篇工作可以启发更多的研究,来关注非参数化相关的 3D 研究,而不是一味的增加复杂的 3D 算子或者堆叠大量的网络参数。在未来的工作中,我们将探索更加先进的非参数 3D 模型,并推广到更广泛的 3D 应用场景中。

相关文章
|
7月前
|
数据可视化
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
如何用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
|
算法 计算机视觉 网络架构
YOLOv7 | 模型结构与正负样本分配解析
YOLOv7 | 模型结构与正负样本分配解析
1840 0
YOLOv7 | 模型结构与正负样本分配解析
|
6月前
|
机器学习/深度学习 存储 编解码
Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色
IBM研究人员提出Tiny Time Mixers (TTM),这是一个轻量级、基于mlp的TS模型,参数量小于1M,在M4数据集上表现优于大型SOTA模型,且具备优秀的零样本预测能力。TTM无注意力机制,利用TSMixer进行多级建模,自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计,预训练仅用单变量序列,微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性,且模型已开源。
291 1
|
5月前
|
Python
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
Fama-French模型,特别是三因子模型(Fama-French Three-Factor Model)
|
7月前
|
数据可视化
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
115 10
|
7月前
|
机器学习/深度学习
YOLOv5改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约42W)
YOLOv5改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约42W)
347 4
|
7月前
|
存储 数据可视化 计算机视觉
基于YOLOv8的自定义数据姿势估计
基于YOLOv8的自定义数据姿势估计
|
7月前
|
机器学习/深度学习
YOLOv8改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约100W)
YOLOv8改进 | Conv篇 | 利用轻量化PartialConv提出一种全新的结构CSPPC (参数量下降约100W)
1197 0
|
7月前
|
机器学习/深度学习
YOLOv8改进 | Conv篇 | 结合Dual思想利用HetConv创新一种全新轻量化结构CSPHet(参数量下降70W)
YOLOv8改进 | Conv篇 | 结合Dual思想利用HetConv创新一种全新轻量化结构CSPHet(参数量下降70W)
175 0
|
编解码 vr&ar 计算机视觉
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
193 0
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22