DrivingDojo:中科院联合美团推出的自动驾驶数据集,包含视频片段、驾驶操作和驾驶知识

简介: DrivingDojo是由中国科学院自动化研究所与美团无人车团队联合推出的交互式驾驶世界模型数据集,包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。该数据集为自动驾驶模型的开发提供了坚实基础,并定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 数据集概述:DrivingDojo包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。
  2. 主要功能:提供交互式世界模型训练、动作指令跟随(AIF)、多样化驾驶操作等功能。
  3. 技术原理:基于Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型,并使用FID和FVD等指标评估生成视频的质量。

正文(附运行示例)

DrivingDojo 是什么

公众号: 蚝油菜花 - Drivingdojo

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,旨在训练和研究复杂的自动驾驶交互式世界模型。该数据集包含18,000个视频片段,覆盖了完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。

DrivingDojo定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测方面的能力。通过这一基准,研究人员可以更好地理解和优化自动驾驶模型的预测能力。

DrivingDojo 的主要功能

  • 交互式世界模型训练:提供一个平台,用于训练理解和模拟复杂驾驶动态的交互式世界模型。
  • 动作指令跟随(AIF):定义AIF基准,评估世界模型在遵循动作指令生成未来预测的能力。
  • 多样化驾驶操作:基于DrivingDojo-Action子集,模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
  • 多智能体交互:使用DrivingDojo-Interplay子集,模型能理解和预测车辆与其他道路使用者之间的复杂交互。
  • 开放世界知识:使用DrivingDojo-Open子集,模型学习处理开放世界中的罕见事件和长尾场景。
  • 视频生成与预测:模型基于初始帧和动作指令生成未来的视频,模拟和预测驾驶场景。

DrivingDojo 的技术原理

  • 数据收集:使用美团无人车团队的自动驾驶车辆平台收集视频数据。
  • 数据策划:从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
  • 动作编码:将驾驶动作(如加速、制动、转向)编码为模型能理解的格式,方便在视频生成中使用。
  • 视频生成模型:基于如Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型。
  • 动作指令跟随(AIF):比较生成视频与输入动作指令的一致性,评估模型的预测准确性。
  • 评估指标:使用FID(Frechet Inception Distance)和FVD(Frechet Video Distance)等指标评估生成视频的视觉质量,使用AIF错误评估动作指令的跟随能力。

如何运行 DrivingDojo

示例代码

以下是一个简单的示例代码,展示了如何使用DrivingDojo进行视频生成:

from diffusers import StableVideoDiffusionPipeline

# 加载模型
model = StableVideoDiffusionPipeline.from_pretrained("Yuqi1997/DrivingDojo")

# 生成视频
video = model.generate_video(initial_frame, action_sequence)

# 保存生成的视频
video.save("generated_video.mp4")

代码解释

  1. 加载模型:使用StableVideoDiffusionPipeline从HuggingFace加载预训练的DrivingDojo模型。
  2. 生成视频:通过generate_video方法,基于初始帧和动作序列生成未来的驾驶场景视频。
  3. 保存视频:将生成的视频保存为generated_video.mp4文件。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
Java Shell API
阿里云百炼 API 怎么用?2026年阿里云百炼 API 调用教程:从密钥准备到多语言实现
在使用阿里云百炼平台的大模型能力时,API 调用是核心环节 —— 无论是开发 AI 应用、测试模型效果,还是搭建智能服务,都需要通过 API 将大模型能力集成到自己的系统中。但很多开发者会困惑 “API-Key 怎么获取”“环境变量配置有什么用”“不同语言怎么写调用代码”。本文结合实操细节,用通俗语言拆解从账号准备到多语言调用的全流程,每步附具体操作和代码示例,帮助快速上手。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
1810 8
|
机器学习/深度学习 人工智能 自然语言处理
一分钟认识:claude中文版_claude官网中文版
Claude AI 是由 Anthropic 开发的一款先进的对话式人工智能模型,它的名字来源于信息论之父——克劳德·香农 🧙‍♂️。
|
机器学习/深度学习 数据采集 自然语言处理
HuggingFace Transformers 库深度应用指南
本文首先介绍HuggingFace Tra环境配置与依赖安装,确保读者具备Python编程、机器学习和深度学习基础知识。接着深入探讨Transformers的核心组件,并通过实战案例展示其应用。随后讲解模型加载优化、批处理优化等实用技巧。在核心API部分,详细解析Tokenizers、Models、Configuration和Dataset的使用方法。文本生成章节则涵盖基础概念、GPT2生成示例及高级生成技术。最后,针对模型训练与优化,介绍预训练模型微调、超参数优化和推理加速等内容。通过这些内容,帮助读者掌握HuggingFace Transformers的深度使用,开发高效智能的NLP应用。
1857 22
|
机器学习/深度学习 测试技术
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
351 16
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
752 7
【AI系统】计算图原理
|
机器学习/深度学习 人工智能 算法
智能时代的伦理困境:人工智能决策的透明度与责任归属
当AI技术逐渐渗透到我们生活的每一个角落,它带来的便利和效率提升是显而易见的。然而,随之而来的伦理挑战也不容忽视。本文将探讨AI在做出决策时面临的透明度问题,以及由此引发的责任归属难题。通过分析AI系统的工作原理、决策过程及其对个人和社会可能产生的影响,我们将提出一系列针对当前AI伦理困境的解决方案和建议,旨在促进AI技术的健康发展同时保护人类社会的基本伦理原则。
1768 11
|
前端开发
基于jeecgboot的flowable流程支持online表单(二)
基于jeecgboot的flowable流程支持online表单(二)
355 0
|
人工智能 大数据 云计算
中国首个高通量以太网联盟诞生!阿里云等40多家企业率先加入
阿里云与中国科学院计算技术研究所联合发起高通量以太网联盟,中国首个高通量以太网协议即将发布

热门文章

最新文章