GeoMIM:适配视觉为中心的自动驾驶感知的预训练

简介: GeoMIM:适配视觉为中心的自动驾驶感知的预训练

链接:https://arxiv.org/pdf/2303.11325

2023第一篇让我感觉到shocking的工作,审稿要是落我手里,我反手就是strong accept 加 best paper recommendation

效果

相比于只有imagenet 预训练的baseline,小模型上有6.6NDS的增长,大模型上也有5NDS,几乎所有属性都有提升

test集合上的指标不算很高,这是因为没有使用的未来帧以及long-term,这两个加持下,目测随随便便70NDS

既然Swim-l都上了,为嘛不上long term呢?future就算了,挺扯淡的这事

原理

前提条件是 mixmimpretrain的,使用基于attention设计的backbone,需要lidar以及lidar训练的模型,基于LSS(或者说显式的深度估计)

利用mask+lidar model监督对backbone进行预训练

关键设计包括:

  • 输入图像进行50%比例的mask,只使用可见的tokens进行encode
  • encoder 输出特征被mask部分填上mask tokens
  • 分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入,D类别的深度置信度和C通道的特征, 两个Decoder分别是8层的Transformer结构,前四层共享
  • 基于LSS输出BEV特征
  • BEV特征和LiDAR model 输出特征求L2距离作为监督loss

相比于MAE这种图像空间进行监督的,这个pipeline可以通过预训练,让图像encoder学到单目深度估计的一些先验,使得预训练结果更适配于以视觉为中心3D感知,整体非常简单和易于follow

局限性&Future work?

不在MixMIM基础上,而是在imagenet pretrain 基础上效果如何?

能否去掉显式深度估计,迁移到非显式深度估计的attention-base 的view transformer?

基于attention设计的backbone是否是必须的?能否迁移到CNNbase 的backbone?

Lidar model可否去掉,变成真正的自监督?

甚至去掉 Lidar数据, 纯图像实现?

未来可期

相关文章
VSCode调试 添加命令行参数
VSCode调试 添加命令行参数
754 0
|
传感器 机器学习/深度学习 编解码
Radar-LiDAR BEV融合!RaLiBEV:恶劣天气下3D检测的不二之选
论文使用最近发布的Oxford Radar RobotCar(ORR)数据集展示了所提出方法的优越性能。实验表明,RaLiBEV的精度大大优于其他最先进的方法。
Radar-LiDAR BEV融合!RaLiBEV:恶劣天气下3D检测的不二之选
@RequestBody配合@Valid 校验入参参数
@RequestBody配合@Valid 校验入参参数
336 0
|
算法 程序员 容器
工行银企互联接入详解(2)--下载证书
本文目录 1. 下载NC3.1 2. 启动NC 3. 进入下载证书页面 4. 配置参数 5. 下载证书 6. 其他
577 0
工行银企互联接入详解(2)--下载证书
|
10月前
|
传感器 人工智能 自动驾驶
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。
521 13
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
|
10月前
|
Java 图形学 Python
用Python和Pygame打造绚丽烟花效果+节日祝福语
本文介绍了一款基于Python和Pygame库实现的烟花效果程序,模拟烟花发射、爆炸及粒子轨迹,结合动态文本显示祝福语,营造逼真的节日氛围。程序包括烟花类、粒子类、痕迹类和动态文本显示功能,通过随机化颜色、速度和粒子数量增加效果多样性。用户可以看到烟花从屏幕底部发射、上升并在空中爆炸,伴随粒子轨迹和动态祝福语“蛇年大吉”、“Happy Spring Festival”。文章详细解析了核心代码逻辑和技术要点,帮助读者理解如何利用Pygame库实现复杂视觉效果,并提供了未来改进方向,如优化性能、增加特效和增强交互性。
583 20
用Python和Pygame打造绚丽烟花效果+节日祝福语
IEC104初学者教程,第七章:传送原因语义归总
传送原因(Cause of Transmission, COT)是该协议中的一个重要字段,用于描述报文的传送目的或触发事件。 这些代码有助于接收方理解报文的意图和上下文,并做出相应的处理。例如,如果接收到的报文的传送原因是“周期”,接收方可以理解这是一个定期传输的状态信息,而如果传送原因是“突发”,则表示这是一个紧急事件需要立即处理。
297 2
|
监控 数据采集 机器学习/深度学习
AIGC-Whisper模型
6月更文挑战第1天
解决VSCode中Debug和运行路径不一致的
在VSCode调试时,如果程序运行路径不正确,可通过配置`launch.json`文件的`CWD`参数来解决。在`launch.json`中添加或修改`configurations`,例如设置`"cwd": "${fileDirname}"`,确保调试和运行时路径一致。这样可以避免因路径问题影响调试。记得`"name"`、`"type"`、`"request"`等其他关键参数也要正确配置。我是木头左,希望对你有所帮助!
解决VSCode中Debug和运行路径不一致的
|
存储 JSON 安全
Jwt的基础入门,详细讲解
Jwt的基础入门,详细讲解
365 0