链接:https://arxiv.org/pdf/2303.11325
2023第一篇让我感觉到shocking的工作,审稿要是落我手里,我反手就是strong accept 加 best paper recommendation
效果
相比于只有imagenet 预训练的baseline,小模型上有6.6NDS的增长,大模型上也有5NDS,几乎所有属性都有提升
test集合上的指标不算很高,这是因为没有使用的未来帧以及long-term,这两个加持下,目测随随便便70NDS
既然Swim-l都上了,为嘛不上long term呢?future就算了,挺扯淡的这事
原理
前提条件是 mixmimpretrain的,使用基于attention设计的backbone,需要lidar以及lidar训练的模型,基于LSS(或者说显式的深度估计)
利用mask+lidar model监督对backbone进行预训练
关键设计包括:
- 输入图像进行50%比例的mask,只使用可见的tokens进行encode
- encoder 输出特征被mask部分填上mask tokens
- 分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入,D类别的深度置信度和C通道的特征, 两个Decoder分别是8层的Transformer结构,前四层共享
- 基于LSS输出BEV特征
- BEV特征和LiDAR model 输出特征求L2距离作为监督loss
相比于MAE这种图像空间进行监督的,这个pipeline可以通过预训练,让图像encoder学到单目深度估计的一些先验,使得预训练结果更适配于以视觉为中心3D感知,整体非常简单和易于follow
局限性&Future work?
不在MixMIM基础上,而是在imagenet pretrain 基础上效果如何?
能否去掉显式深度估计,迁移到非显式深度估计的attention-base 的view transformer?
基于attention设计的backbone是否是必须的?能否迁移到CNNbase 的backbone?
Lidar model可否去掉,变成真正的自监督?
甚至去掉 Lidar数据, 纯图像实现?
未来可期