GeoMIM:适配视觉为中心的自动驾驶感知的预训练

简介: GeoMIM:适配视觉为中心的自动驾驶感知的预训练

链接:https://arxiv.org/pdf/2303.11325

2023第一篇让我感觉到shocking的工作,审稿要是落我手里,我反手就是strong accept 加 best paper recommendation

效果

相比于只有imagenet 预训练的baseline,小模型上有6.6NDS的增长,大模型上也有5NDS,几乎所有属性都有提升

test集合上的指标不算很高,这是因为没有使用的未来帧以及long-term,这两个加持下,目测随随便便70NDS

既然Swim-l都上了,为嘛不上long term呢?future就算了,挺扯淡的这事

原理

前提条件是 mixmimpretrain的,使用基于attention设计的backbone,需要lidar以及lidar训练的模型,基于LSS(或者说显式的深度估计)

利用mask+lidar model监督对backbone进行预训练

关键设计包括:

  • 输入图像进行50%比例的mask,只使用可见的tokens进行encode
  • encoder 输出特征被mask部分填上mask tokens
  • 分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入,D类别的深度置信度和C通道的特征, 两个Decoder分别是8层的Transformer结构,前四层共享
  • 基于LSS输出BEV特征
  • BEV特征和LiDAR model 输出特征求L2距离作为监督loss

相比于MAE这种图像空间进行监督的,这个pipeline可以通过预训练,让图像encoder学到单目深度估计的一些先验,使得预训练结果更适配于以视觉为中心3D感知,整体非常简单和易于follow

局限性&Future work?

不在MixMIM基础上,而是在imagenet pretrain 基础上效果如何?

能否去掉显式深度估计,迁移到非显式深度估计的attention-base 的view transformer?

基于attention设计的backbone是否是必须的?能否迁移到CNNbase 的backbone?

Lidar model可否去掉,变成真正的自监督?

甚至去掉 Lidar数据, 纯图像实现?

未来可期

相关文章
|
19天前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
205 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
19天前
|
存储 机器学习/深度学习 人工智能
阿里云视觉智能开放平台确实拥有视频目标检测的能力
【2月更文挑战第9天】阿里云视觉智能开放平台确实拥有视频目标检测的能力
107 7
|
19天前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
7月前
|
传感器 存储 前端开发
视觉SLAM 关键技术与发展概述
最近看了北京理工大学的课程《智能车辆概述与应用》,感觉入门角度讲的还不错的,于是通过本文记录关键内容。
149 0
|
12月前
|
人工智能 算法 开发工具
【视觉智能AI场景解决方案——AI智慧运动】
  随着全民健身热潮的提升,智慧健身运动随着数字化新技术的进步,以及在运动健身领域的应用逐渐趋于成熟,智能运动健身将为传统运动健身提供更多新的方向和玩法,满足不同项目爱好者的健身需求。随着AI运动健身技术的进一步普及与应用,基于ai的智慧健身运动技术未来可打造的场景化空间会越来越多,体育运动与科技娱乐,智慧健身运动在线上体育行业未来会创新运动场景,丰富运动体验,提升竞技娱乐性,推动全民健身走向新的高度。
765 3
【视觉智能AI场景解决方案——AI智慧运动】
|
传感器 机器学习/深度学习 人工智能
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
163 0
|
达摩院 文字识别 物联网
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
230 0
|
传感器 机器学习/深度学习 人工智能
最新Benchmark | 4Seasons:面向挑战场景的自动驾驶视觉SLAM基准
论文基于大规模4Seasons数据集,提出了一种新的视觉SLAM和长期定位基准,用于在挑战条件下的自动驾驶。4Seasons提供了季节变化和不同的天气和照明条件导致的剧烈外观变化。尽管在类似条件的小规模数据集上推进视觉SLAM方面取得了重大进展,但仍缺乏代表自动驾驶真实场景的统一基准。
最新Benchmark | 4Seasons:面向挑战场景的自动驾驶视觉SLAM基准
|
人工智能 算法 计算机视觉
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
|
算法 计算机视觉
面向工业落地的新检测框架【AIRDet】,超越YOLO系列
1.简介物体检测一直是CV领域的热点话题,学术界每年都有层出不穷的新技术涌出,刷新着物体检测任务的SOTA。然而具体到工业应用时,受到平台算力、部署工具等的限制,新的SOTA技术不一定是工业界好应用(industry friendly)的技术。为了加速学术创新在工业场景的落地,结合多种在工业实践中反复验证过的技术,我们提出了AIRDet(Advanced Industrial-oRiented o
720 0
面向工业落地的新检测框架【AIRDet】,超越YOLO系列