AVD2：清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架

2025-03-07 423

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AVD2 是由清华大学联合多所高校推出的自动驾驶事故视频理解与生成框架，结合视频生成与事故分析，生成高质量的事故描述、原因分析和预防措施，显著提升自动驾驶系统的安全性和可靠性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎥 “自动驾驶事故分析新突破！清华联合复旦推出AVD2，AI生成事故视频+智能分析，助力安全驾驶”

大家好，我是蚝油菜花。你是否也遇到过——

👉 自动驾驶系统在复杂事故场景中表现不佳，难以准确理解事故原因
👉 事故视频数据稀缺，难以支持自动驾驶系统的训练和优化
👉 事故预防措施缺乏科学依据，难以有效减少类似事故的发生

今天揭秘的 AVD2，用AI彻底颠覆自动驾驶事故分析方式！这个由清华大学联合香港科技大学、复旦大学等机构推出的创新框架，能够生成高质量的事故视频，并结合自然语言处理和计算机视觉技术，提供详细的事故描述、原因分析和预防措施。无论是自动驾驶研发工程师，还是交通管理部门，都能从中受益——你的自动驾驶系统准备好迎接安全革命了吗？

🚀 快速阅读

AVD2 是一个用于自动驾驶事故视频理解与生成的创新框架。

核心功能：生成高质量的事故视频，提供事故原因分析和预防措施建议。
技术原理：结合视频生成技术、自然语言处理和计算机视觉技术，实现对事故场景的深度理解和推理。

AVD2 是什么

AVD2

AVD2（Accident Video Diffusion for Accident Video Description）是由清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机构推出的自动驾驶事故视频理解与生成框架。该框架基于生成与详细自然语言描述和推理对齐的事故视频，显著提升对复杂事故场景的理解能力。

AVD2 结合视频生成和事故分析系统，能够生成包含事故描述、原因分析和预防措施的高质量视频内容。基于AVD2，研究者们创建了EMM-AU（Enhanced Multi-Modal Accident Video Understanding）数据集，为事故分析和预防提供强大的数据支持。实验结果表明，AVD2在自动评估指标和人工评估中均表现出色，为自动驾驶的安全性和可靠性树立新的基准。

AVD2 的主要功能

事故视频生成：基于先进的视频生成技术，生成与事故描述、原因分析和预防措施对齐的高质量事故视频。
事故原因分析：提供事故发生的详细原因，帮助理解事故的复杂性。
预防措施建议：基于事故分析，提出有效的预防措施，减少类似事故的发生。
数据集增强：基于生成新的事故视频，扩展和丰富事故视频数据集（如EMM-AU），为自动驾驶的安全性研究提供更强大的数据支持。
视频理解与推理：结合自然语言处理和计算机视觉技术，生成与事故视频相关的描述和推理，提升事故场景的解释能力。

AVD2 的技术原理

视频生成技术：用Open-Sora 1.2等先进的文本到视频生成模型，细调（fine-tuning）预训练模型，生成与事故描述对齐的高质量视频。结合超分辨率技术（如Real-ESRGAN）提升视频质量，确保生成的视频具有高清晰度和细节。
视频理解与描述生成：基于ADAPT（Action-aware Driving Caption Transformer）框架，结合Swin Transformer和BERT架构，实现对事故视频的视觉特征和文本特征的深度融合。自批判序列训练（SCST）优化描述生成过程，基于强化学习机制，让生成的描述更符合人类评估的质量标准。
事故分析与推理：基于自然语言处理技术，将事故视频的视觉内容转化为详细的自然语言描述，包括事故原因和预防措施。结合事故视频和文本描述，生成与事故场景对齐的推理结果，帮助自动驾驶系统理解和应对复杂事故场景。
数据集增强与评估：用生成的事故视频扩展数据集，为自动驾驶事故分析提供更丰富的训练数据。基于自动化评估指标（如BLEU、METEOR、CIDEr）和人工评估，验证生成视频和描述的质量。

如何运行 AVD2

1. 创建 conda 环境

conda create --name AVD2 python=3.8

2. 安装 torch

pip install torch==1.13.1+cu117 torchaudio==0.13.1+cu117 torchvision==0.14.1+cu117 -f https://download.pytorch.org/whl/torch_stable.html

3. 安装 apex

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir --no-build-isolation --global-option="--cpp_ext" --global-option="--cuda_ext" --global-option="--deprecated_fused_adam" --global-option="--xentropy" --global-option="--fast_multihead_attn" ./
cd ..
rm -rf apex

4. 安装 mpi4py

conda install -c conda-forge mpi4py openmpi

5. 安装其他依赖

pip install -r requirements.txt

资源

项目主页：https://an-answer-tree.github.io/
GitHub 仓库：https://github.com/An-Answer-tree/AVD2