DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 数据集概述:DrivingDojo包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。
  2. 主要功能:提供交互式世界模型训练、动作指令跟随(AIF)、多样化驾驶操作等功能。
  3. 技术原理:基于Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型,并使用FID和FVD等指标评估生成视频的质量。

正文(附运行示例)

DrivingDojo 是什么

公众号: 蚝油菜花 - Drivingdojo

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,旨在训练和研究复杂的自动驾驶交互式世界模型。该数据集包含18,000个视频片段,覆盖了完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。

DrivingDojo定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测方面的能力。通过这一基准,研究人员可以更好地理解和优化自动驾驶模型的预测能力。

DrivingDojo 的主要功能

  • 交互式世界模型训练:提供一个平台,用于训练理解和模拟复杂驾驶动态的交互式世界模型。
  • 动作指令跟随(AIF):定义AIF基准,评估世界模型在遵循动作指令生成未来预测的能力。
  • 多样化驾驶操作:基于DrivingDojo-Action子集,模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
  • 多智能体交互:使用DrivingDojo-Interplay子集,模型能理解和预测车辆与其他道路使用者之间的复杂交互。
  • 开放世界知识:使用DrivingDojo-Open子集,模型学习处理开放世界中的罕见事件和长尾场景。
  • 视频生成与预测:模型基于初始帧和动作指令生成未来的视频,模拟和预测驾驶场景。

DrivingDojo 的技术原理

  • 数据收集:使用美团无人车团队的自动驾驶车辆平台收集视频数据。
  • 数据策划:从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
  • 动作编码:将驾驶动作(如加速、制动、转向)编码为模型能理解的格式,方便在视频生成中使用。
  • 视频生成模型:基于如Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型。
  • 动作指令跟随(AIF):比较生成视频与输入动作指令的一致性,评估模型的预测准确性。
  • 评估指标:使用FID(Frechet Inception Distance)和FVD(Frechet Video Distance)等指标评估生成视频的视觉质量,使用AIF错误评估动作指令的跟随能力。

如何运行 DrivingDojo

示例代码

以下是一个简单的示例代码,展示了如何使用DrivingDojo进行视频生成:

from diffusers import StableVideoDiffusionPipeline

# 加载模型
model = StableVideoDiffusionPipeline.from_pretrained("Yuqi1997/DrivingDojo")

# 生成视频
video = model.generate_video(initial_frame, action_sequence)

# 保存生成的视频
video.save("generated_video.mp4")

代码解释

  1. 加载模型:使用StableVideoDiffusionPipeline从HuggingFace加载预训练的DrivingDojo模型。
  2. 生成视频:通过generate_video方法,基于初始帧和动作序列生成未来的驾驶场景视频。
  3. 保存视频:将生成的视频保存为generated_video.mp4文件。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
6天前
|
机器学习/深度学习 人工智能
Micro LLAMA:教学版 LLAMA 3模型实现,用于学习大模型的核心原理
Micro LLAMA是一个精简的教学版LLAMA 3模型实现,旨在帮助学习者理解大型语言模型的核心原理。该项目仅约180行代码,便于理解和学习。Micro LLAMA基于LLAMA 3中最小的8B参数模型,适合对深度学习和模型架构感兴趣的研究者和学生。
61 18
Micro LLAMA:教学版 LLAMA 3模型实现,用于学习大模型的核心原理
|
11小时前
|
人工智能 并行计算 Linux
《C++与 CUDA:开启人工智能算法加速之旅》
在AI快速发展的今天,计算效率成为关键挑战。CUDA作为英伟达推出的高性能并行计算平台,极大提升了AI算法的处理速度。本文详细介绍如何在C++环境中安装配置CUDA库,包括系统要求、安装步骤、验证方法及优化技巧,助力开发者高效利用GPU加速AI应用,开启算法加速的新篇章。
36 19
|
11小时前
|
存储 算法 Python
Python-打印杨辉三角(进阶版)
本文介绍了如何使用Python打印杨辉三角的进阶方法,包括数学原理理解、列表存储数据、算法设计及输出格式控制。通过逐步解析,展示了如何实现用户自定义阶数的对称杨辉三角,并优化输出格式,使结果更加美观。适合编程初学者学习参考。
|
7月前
|
人工智能
破壁人AI百度:科技公司反内卷的典型样本
请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾 int pop() 从队列的开头移除并返回元素 int peek() 返回队列开头的元素 boolean empty() 如果队列为空,返回 true ;否则,返回 false class MyQueue: def __init__(self): self.stack_in=[] self.stack_out=[] def push(
34 3
|
人工智能 关系型数据库 Serverless
向量加成,打造一款私人AI助理
函数计算X RDS PostgreSQL,基于LLM大语言模型构建AI知识库
163 357
|
7月前
|
人工智能 搜索推荐 算法
智库观察丨超拟人大模型和个性化场景化的AI服务
以情绪价值为核心的超拟人大模型能够使AI 拥有自己的“个性”和“情感”,从而呈现出丰富的立体化“人格”,为用户提供量身定制的AI服务。
智库观察丨超拟人大模型和个性化场景化的AI服务
|
11小时前
|
数据挖掘
R中单细胞RNA-seq分析教程 (5)
R中单细胞RNA-seq分析教程 (5)
19 7
R中单细胞RNA-seq分析教程 (5)
|
12小时前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
17 5
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
12小时前
|
人工智能 搜索推荐 开发者
ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术
ClotheDreamer是由上海大学、上海交通大学、复旦大学和腾讯优图实验室联合推出的3D服装生成技术,能够根据文本描述生成高保真、可穿戴的3D服装资产,适用于虚拟试穿和物理精确动画。
19 4
ClotheDreamer:上海大学联合腾讯等高校推出的3D服装生成技术

热门文章

最新文章