GeoMIM:适配视觉为中心的自动驾驶感知的预训练

简介: GeoMIM:适配视觉为中心的自动驾驶感知的预训练

链接:https://arxiv.org/pdf/2303.11325

2023第一篇让我感觉到shocking的工作,审稿要是落我手里,我反手就是strong accept 加 best paper recommendation

效果

相比于只有imagenet 预训练的baseline,小模型上有6.6NDS的增长,大模型上也有5NDS,几乎所有属性都有提升

test集合上的指标不算很高,这是因为没有使用的未来帧以及long-term,这两个加持下,目测随随便便70NDS

既然Swim-l都上了,为嘛不上long term呢?future就算了,挺扯淡的这事

原理

前提条件是 mixmimpretrain的,使用基于attention设计的backbone,需要lidar以及lidar训练的模型,基于LSS(或者说显式的深度估计)

利用mask+lidar model监督对backbone进行预训练

关键设计包括:

  • 输入图像进行50%比例的mask,只使用可见的tokens进行encode
  • encoder 输出特征被mask部分填上mask tokens
  • 分别设计Geometry Decoder 和 Semantic Decoder 将上述特征进行解码得到LSS的两个输入,D类别的深度置信度和C通道的特征, 两个Decoder分别是8层的Transformer结构,前四层共享
  • 基于LSS输出BEV特征
  • BEV特征和LiDAR model 输出特征求L2距离作为监督loss

相比于MAE这种图像空间进行监督的,这个pipeline可以通过预训练,让图像encoder学到单目深度估计的一些先验,使得预训练结果更适配于以视觉为中心3D感知,整体非常简单和易于follow

局限性&Future work?

不在MixMIM基础上,而是在imagenet pretrain 基础上效果如何?

能否去掉显式深度估计,迁移到非显式深度估计的attention-base 的view transformer?

基于attention设计的backbone是否是必须的?能否迁移到CNNbase 的backbone?

Lidar model可否去掉,变成真正的自监督?

甚至去掉 Lidar数据, 纯图像实现?

未来可期

相关文章
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
机器学习/深度学习 人工智能 数据处理
AI技术可以自动识别图像
在现代社会,人工智能已经成为了科技发展的重要驱动力。尤其是在众多领域中,AI技术的应用为人们的生活带来了极大的便利。其中,AI在图像识别方面的应用尤为突出,无论是在安防、医疗、教育,还是在日常生活中的方方面面,都有着广泛的应用。
131 3
|
1天前
|
传感器 人工智能 自动驾驶
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。
31 13
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
|
2天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
20 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
224 2
|
3月前
|
存储 人工智能 自然语言处理
边缘智能的新时代:端侧大模型的研究进展综述
【10月更文挑战第9天】随着人工智能的发展,大语言模型在自然语言处理领域取得突破,但在资源受限的边缘设备上部署仍面临挑战。论文《On-Device Language Models: A Comprehensive Review》全面综述了端侧大模型的研究进展,探讨了高效模型架构、压缩技术、硬件加速及边缘-云协作等解决方案,展示了其在实时、个性化体验方面的潜力,并指出了未来的研究方向和挑战。
380 2
|
5月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
74 2
|
6月前
|
人工智能
AIGC使用问题之视觉大模型如何提高AIGC的感知能力
AIGC使用问题之视觉大模型如何提高AIGC的感知能力
|
8月前
|
机器学习/深度学习 监控 自动驾驶
计算机视觉技术及其应用:开启智能视觉新时代
【5月更文挑战第3天】计算机视觉技术融合图像处理、模式识别和人工智能,旨在让计算机理解和解析图像信息。关键包括图像预处理、特征提取、深度学习和目标检测。广泛应用在安防监控、自动驾驶、医疗影像分析、人脸识别及智能家居等领域,引领智能视觉新时代。随着技术发展,未来将带来更多便捷。
|
人工智能 算法 开发工具
【视觉智能AI场景解决方案——AI智慧运动】
  随着全民健身热潮的提升,智慧健身运动随着数字化新技术的进步,以及在运动健身领域的应用逐渐趋于成熟,智能运动健身将为传统运动健身提供更多新的方向和玩法,满足不同项目爱好者的健身需求。随着AI运动健身技术的进一步普及与应用,基于ai的智慧健身运动技术未来可打造的场景化空间会越来越多,体育运动与科技娱乐,智慧健身运动在线上体育行业未来会创新运动场景,丰富运动体验,提升竞技娱乐性,推动全民健身走向新的高度。
1038 3
【视觉智能AI场景解决方案——AI智慧运动】