❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 数据集概述:DrivingDojo包含18,000个视频片段,涵盖驾驶操作、多智能体交互及开放世界驾驶知识。
- 主要功能:提供交互式世界模型训练、动作指令跟随(AIF)、多样化驾驶操作等功能。
- 技术原理:基于Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型,并使用FID和FVD等指标评估生成视频的质量。
正文(附运行示例)
DrivingDojo 是什么
DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,旨在训练和研究复杂的自动驾驶交互式世界模型。该数据集包含18,000个视频片段,覆盖了完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。
DrivingDojo定义了动作指令跟随(AIF)基准,用于评估世界模型在执行动作控制的未来预测方面的能力。通过这一基准,研究人员可以更好地理解和优化自动驾驶模型的预测能力。
DrivingDojo 的主要功能
- 交互式世界模型训练:提供一个平台,用于训练理解和模拟复杂驾驶动态的交互式世界模型。
- 动作指令跟随(AIF):定义AIF基准,评估世界模型在遵循动作指令生成未来预测的能力。
- 多样化驾驶操作:基于DrivingDojo-Action子集,模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
- 多智能体交互:使用DrivingDojo-Interplay子集,模型能理解和预测车辆与其他道路使用者之间的复杂交互。
- 开放世界知识:使用DrivingDojo-Open子集,模型学习处理开放世界中的罕见事件和长尾场景。
- 视频生成与预测:模型基于初始帧和动作指令生成未来的视频,模拟和预测驾驶场景。
DrivingDojo 的技术原理
- 数据收集:使用美团无人车团队的自动驾驶车辆平台收集视频数据。
- 数据策划:从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
- 动作编码:将驾驶动作(如加速、制动、转向)编码为模型能理解的格式,方便在视频生成中使用。
- 视频生成模型:基于如Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型。
- 动作指令跟随(AIF):比较生成视频与输入动作指令的一致性,评估模型的预测准确性。
- 评估指标:使用FID(Frechet Inception Distance)和FVD(Frechet Video Distance)等指标评估生成视频的视觉质量,使用AIF错误评估动作指令的跟随能力。
如何运行 DrivingDojo
示例代码
以下是一个简单的示例代码,展示了如何使用DrivingDojo进行视频生成:
from diffusers import StableVideoDiffusionPipeline
# 加载模型
model = StableVideoDiffusionPipeline.from_pretrained("Yuqi1997/DrivingDojo")
# 生成视频
video = model.generate_video(initial_frame, action_sequence)
# 保存生成的视频
video.save("generated_video.mp4")
代码解释
- 加载模型:使用
StableVideoDiffusionPipeline
从HuggingFace加载预训练的DrivingDojo模型。 - 生成视频:通过
generate_video
方法,基于初始帧和动作序列生成未来的驾驶场景视频。 - 保存视频:将生成的视频保存为
generated_video.mp4
文件。
资源
- 项目官网:https://drivingdojo.github.io
- GitHub 仓库:https://github.com/Robertwyq/Drivingdojo
- HuggingFace 模型库:https://huggingface.co/datasets/Yuqi1997/DrivingDojo
- arXiv 技术论文:https://arxiv.org/pdf/2410.10738
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦