OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:OpenEMMA 提供端到端轨迹规划、多模态数据处理、链式思维推理等功能。
  2. 技术:基于预训练的多模态大型语言模型和链式思维推理过程,提升自动驾驶的决策能力。
  3. 应用:适用于城市道路、高速公路、停车和低速驾驶等复杂场景。

正文(附运行示例)

OpenEMMA 是什么

公众号: 蚝油菜花 - OpenEMMA

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs)处理视觉数据和复杂驾驶场景的推理。框架基于链式思维推理过程,显著提高模型在轨迹规划和感知任务中的性能,同时集成专门优化的 YOLO 模型提高 3D 边界框预测的准确性。

OpenEMMA 提供了一个平台,促进更广泛的研究和开发,推动自动驾驶技术的进步。它能够处理前向摄像头图像和文本历史 ego 车辆状态作为输入,将驾驶任务框架化为视觉问答(VQA)问题,并生成人类可读的输出。

OpenEMMA 的主要功能

  1. 端到端轨迹规划:直接从传感器输入学习驾驶动作,实现从感知到决策的端到端优化,无需符号化接口。
  2. 多模态数据处理:框架处理前向摄像头图像和文本历史 ego 车辆状态作为输入,将驾驶任务框架化为视觉问答(VQA)问题。
  3. 链式思维推理:采用链式思维推理过程,指导模型生成关键对象的详细描述、行为洞察和元驾驶决策。
  4. 3D 对象检测:集成微调的 YOLO 模型,OpenEMMA 能精确检测 3D 道路上的对象,提高对象检测的准确性。
  5. 人类可读输出:基于 MLLM 的预存世界知识,OpenEMMA 能为场景理解等感知任务产生可解释的、人类可读的输出。

OpenEMMA 的技术原理

  1. 预训练的 MLLMs:基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景。
  2. 链式思维推理过程:基于链式思维推理,模型能生成速度向量和曲率向量,向量用在计算车辆的未来轨迹。
  3. 速度和曲率向量:给定速度和曲率向量,模型首先整合每个时间步的航向角,然后计算速度的 x 和 y 分量,最终用积分速度分量计算最终轨迹。
  4. 对象检测增强:为克服 MLLMs 在空间推理上的局限,集成一个专门优化用在 3D 边界框预测的 YOLO 模型。
  5. 端到端规划与推理:OpenEMMA 遵循基于指令的方法,提示 MLLMs 产生人类可解释的知识,将轨迹生成任务分解为人类可解释的组成部分,反映驾驶过程。

如何运行 OpenEMMA

1. 环境设置

首先,创建一个 Conda 环境并激活它:

conda create -n openemma python=3.8
conda activate openemma

2. 克隆仓库

克隆 OpenEMMA 的 GitHub 仓库并进入项目目录:

git clone git@github.com:taco-group/OpenEMMA.git
cd OpenEMMA

3. 安装依赖

安装所需的依赖包:

pip install -r requirements.txt

4. 设置 GPT-4 API 访问

获取 OpenAI 的 API 密钥,并设置为环境变量:

export OPENAI_API_KEY="your_openai_api_key"

5. 运行 OpenEMMA

使用以下命令运行 OpenEMMA:

python main.py \
    --model-path qwen \
    --dataroot [dir-of-nuscnse-dataset] \
    --version [vesion-of-nuscnse-dataset] \
    --method openemma

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
机器学习/深度学习 数据采集 算法
构建高效图像分类模型:深度学习在处理大规模视觉数据中的应用
随着数字化时代的到来,海量的图像数据被不断产生。深度学习技术因其在处理高维度、非线性和大规模数据集上的卓越性能,已成为图像分类任务的核心方法。本文将详细探讨如何构建一个高效的深度学习模型用于图像分类,包括数据预处理、选择合适的网络架构、训练技巧以及模型优化策略。我们将重点分析卷积神经网络(CNN)在图像识别中的运用,并提出一种改进的训练流程,旨在提升模型的泛化能力和计算效率。通过实验验证,我们的模型能够在保持较低计算成本的同时,达到较高的准确率,为大规模图像数据的自动分类和识别提供了一种有效的解决方案。
|
8月前
|
自动驾驶 计算机视觉
GeoMIM:适配视觉为中心的自动驾驶感知的预训练
GeoMIM:适配视觉为中心的自动驾驶感知的预训练
63 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12437 116
|
2天前
|
机器学习/深度学习 人工智能 算法
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。
31 8
HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力
|
5月前
|
数据采集 机器学习/深度学习 PyTorch
PyTorch 与计算机视觉:实现端到端的图像识别系统
【8月更文第29天】计算机视觉是人工智能领域的重要分支之一,其应用广泛,从自动驾驶汽车到医学影像分析等。本文将介绍如何使用 PyTorch 构建和训练一个端到端的图像分类器,并涵盖数据预处理、模型训练、评估以及模型部署等多个方面。
107 1
|
29天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
60 8
【AI系统】Transformer 模型小型化
|
3月前
|
存储 人工智能 自然语言处理
边缘智能的新时代:端侧大模型的研究进展综述
【10月更文挑战第9天】随着人工智能的发展,大语言模型在自然语言处理领域取得突破,但在资源受限的边缘设备上部署仍面临挑战。论文《On-Device Language Models: A Comprehensive Review》全面综述了端侧大模型的研究进展,探讨了高效模型架构、压缩技术、硬件加速及边缘-云协作等解决方案,展示了其在实时、个性化体验方面的潜力,并指出了未来的研究方向和挑战。
385 2
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
96 10
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】集成语音与大型语音模型等安全边界探索
【机器学习】集成语音与大型语音模型等安全边界探索
289 5

热门文章

最新文章