GeoMIM:适配视觉为中心的自动驾驶感知的预训练

简介: GeoMIM:适配视觉为中心的自动驾驶感知的预训练

链接:https://arxiv.org/pdf/2303.11325

2023第一篇让我感觉到shocking的工作,审稿要是落我手里,我反手就是strong accept 加 best paper recommendation

效果

相比于只有imagenet 预训练的baseline,小模型上有6.6NDS的增长,大模型上也有5NDS,几乎所有属性都有提升

test集合上的指标不算很高,这是因为没有使用的未来帧以及long-term,这两个加持下,目测随随便便70NDS

既然Swim-l都上了,为嘛不上long term呢?future就算了,挺扯淡的这事

原理

前提条件是 mixmimpretrain的,使用基于attention设计的backbone,需要lidar以及lidar训练的模型,基于LSS(或者说显式的深度估计)

利用mask+lidar model监督对backbone进行预训练

关键设计包括:

  • 输入图像进行50%比例的mask,只使用可见的tokens进行encode
  • encoder 输出特征被mask部分填上mask tokens
  • 分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入,D类别的深度置信度和C通道的特征, 两个Decoder分别是8层的Transformer结构,前四层共享
  • 基于LSS输出BEV特征
  • BEV特征和LiDAR model 输出特征求L2距离作为监督loss

相比于MAE这种图像空间进行监督的,这个pipeline可以通过预训练,让图像encoder学到单目深度估计的一些先验,使得预训练结果更适配于以视觉为中心3D感知,整体非常简单和易于follow

局限性&Future work?

不在MixMIM基础上,而是在imagenet pretrain 基础上效果如何?

能否去掉显式深度估计,迁移到非显式深度估计的attention-base 的view transformer?

基于attention设计的backbone是否是必须的?能否迁移到CNNbase 的backbone?

Lidar model可否去掉,变成真正的自监督?

甚至去掉 Lidar数据, 纯图像实现?

未来可期

相关文章
|
13天前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
203 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
13天前
|
存储 机器学习/深度学习 人工智能
阿里云视觉智能开放平台确实拥有视频目标检测的能力
【2月更文挑战第9天】阿里云视觉智能开放平台确实拥有视频目标检测的能力
107 7
|
13天前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
13天前
|
机器学习/深度学习 人工智能 安全
多模态将成为大模型标配
【1月更文挑战第10天】多模态将成为大模型标配
50 1
多模态将成为大模型标配
|
5月前
|
机器学习/深度学习 监控 自动驾驶
智能视觉产品有哪些
智能视觉产品有哪些
57 0
|
6月前
|
算法
视觉智能平台在图片识别方面有一定的能力
视觉智能平台在图片识别方面有一定的能力
36 1
|
11月前
|
人工智能 算法 开发工具
【视觉智能AI场景解决方案——AI智慧运动】
  随着全民健身热潮的提升,智慧健身运动随着数字化新技术的进步,以及在运动健身领域的应用逐渐趋于成熟,智能运动健身将为传统运动健身提供更多新的方向和玩法,满足不同项目爱好者的健身需求。随着AI运动健身技术的进一步普及与应用,基于ai的智慧健身运动技术未来可打造的场景化空间会越来越多,体育运动与科技娱乐,智慧健身运动在线上体育行业未来会创新运动场景,丰富运动体验,提升竞技娱乐性,推动全民健身走向新的高度。
756 3
【视觉智能AI场景解决方案——AI智慧运动】
|
人工智能 编解码 资源调度
AI绘画新思路:国产开源50亿参数新模型,合成可控性、质量实现飞跃
AI绘画新思路:国产开源50亿参数新模型,合成可控性、质量实现飞跃
149 0
|
人工智能
阿里云产品体系分为6大分类——人工智能——分为10种模块——图像识别
阿里云产品体系分为6大分类——人工智能——分为10种模块——图像识别自制脑图
113 1
|
机器学习/深度学习 传感器 编解码
毫米波雷达在多模态视觉任务上的近期工作及简析(上)
在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。
毫米波雷达在多模态视觉任务上的近期工作及简析(上)

热门文章

最新文章