GeoMIM：适配视觉为中心的自动驾驶感知的预训练-阿里云开发者社区

GeoMIM：适配视觉为中心的自动驾驶感知的预训练

2024-02-21 62

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GeoMIM：适配视觉为中心的自动驾驶感知的预训练

链接：https://arxiv.org/pdf/2303.11325

2023第一篇让我感觉到shocking的工作，审稿要是落我手里，我反手就是strong accept 加 best paper recommendation

效果

相比于只有imagenet 预训练的baseline，小模型上有6.6NDS的增长，大模型上也有5NDS，几乎所有属性都有提升

test集合上的指标不算很高，这是因为没有使用的未来帧以及long-term，这两个加持下，目测随随便便70NDS

既然Swim-l都上了，为嘛不上long term呢？future就算了，挺扯淡的这事

原理

前提条件是 mixmimpretrain的，使用基于attention设计的backbone，需要lidar以及lidar训练的模型，基于LSS（或者说显式的深度估计）

利用mask+lidar model监督对backbone进行预训练

关键设计包括：

输入图像进行50%比例的mask，只使用可见的tokens进行encode
encoder 输出特征被mask部分填上mask tokens
分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入，D类别的深度置信度和C通道的特征，两个Decoder分别是8层的Transformer结构，前四层共享
基于LSS输出BEV特征
BEV特征和LiDAR model 输出特征求L2距离作为监督loss

相比于MAE这种图像空间进行监督的，这个pipeline可以通过预训练，让图像encoder学到单目深度估计的一些先验，使得预训练结果更适配于以视觉为中心3D感知，整体非常简单和易于follow

局限性&Future work?

不在MixMIM基础上，而是在imagenet pretrain 基础上效果如何？

能否去掉显式深度估计，迁移到非显式深度估计的attention-base 的view transformer?

基于attention设计的backbone是否是必须的？能否迁移到CNNbase 的backbone?

Lidar model可否去掉，变成真正的自监督？

甚至去掉 Lidar数据，纯图像实现？

未来可期

GeoMIM：适配视觉为中心的自动驾驶感知的预训练

效果

原理

局限性&Future work?

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

GeoMIM：适配视觉为中心的自动驾驶感知的预训练

效果

原理

局限性&Future work?

热门文章

最新文章

相关课程

相关电子书

相关实验场景