LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

2024-12-23 59

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，图像资源包5000点

简介： LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术，通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术背景：LeviTor结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。
主要功能：精确操控物体运动、增强创意应用、简化用户输入、自动提取深度信息和物体掩码。
应用场景：适用于电影特效、游戏动画、虚拟现实、增强现实和广告视频制作等多个领域。

正文（附运行示例）

LeviTor 是什么

公众号: 蚝油菜花 - LeviTor

LeviTor是由南京大学、蚂蚁集团、浙江大学等机构联合推出的图像到视频合成技术。该技术结合了深度信息和K-means聚类点，能够控制视频中3D物体的轨迹，而无需显式的3D轨迹跟踪。LeviTor使用高质量的视频对象分割数据集进行训练，能够有效捕捉复杂场景中的物体运动和交互。

通过用户友好的推理流程，LeviTor简化了3D轨迹输入，使得视频生成技术更加先进和易用。它的引入为3D物体轨迹控制铺平了道路，拓宽了创意应用的范围，适用于更广泛的用户群体。

LeviTor 的主要功能

精确操控物体运动：在从静态图像生成视频时，精确控制物体的运动轨迹。
增强创意应用：基于3D轨迹控制，拓宽视频合成的创意应用范围。
简化用户输入：用户可以通过简单的2D图像上的绘制和深度调整输入3D轨迹，降低技术门槛。
自动提取深度信息和物体掩码：系统自动从图像中提取深度信息和物体掩码，减少用户操作。
交互式轨迹绘制：用户可以交互式地绘制物体轨迹，系统将其解释为3D路径。

LeviTor 的技术原理

K-means聚类：对视频对象掩码（mask）的像素进行K-means聚类，得到一组代表性的控制点。
深度信息融合：深度估计网络DepthAnythingV2预测相对深度图，并在每个控制点采样深度，为控制点增添深度信息。
控制信号构建：结合2D坐标和估计的深度值，构建控制轨迹，轨迹作为视频扩散模型的控制信号。
视频扩散模型：将控制信号输入到视频扩散模型中，生成与3D轨迹对齐的视频。
用户友好的推理流程：设计用户友好的交互系统，用户通过点击和调整深度值输入3D轨迹。

如何运行 LeviTor

环境设置

克隆仓库：

git clone https://github.com/qiuyu96/LeviTor.git
cd LeviTor

下载并解压检查点：
创建checkpoints目录并下载相关检查点文件：
```
mkdir checkpoints
cd checkpoints
```
下载以下文件：

depth_anything_v2_vitl.pth 从 Depth Anything V2
sam_vit_h_4b8939.pth 从 Segment Anything
stable-video-diffusion-img2vid-xt 从 stabilityai
LeviTor 检查点从 LeviTor

确保所有检查点文件位于checkpoints目录下：

checkpoints/
|-- sam_vit_h_4b8939.pth
|-- depth_anything_v2_vitl.pth
|-- stable-video-diffusion-img2vid-xt/
|-- LeviTor/
    |-- random_states_0.pkl
    |-- scaler.pt
    |-- scheduler.bin
    |-- controlnet/
    |-- unet/

创建环境：

conda create -n LeviTor python=3.9 -y
conda activate LeviTor

安装依赖包：
```
pip install -r requirements.txt
```

安装pytorch3d：

pip install "git+https://github.com/facebookresearch/pytorch3d.git"

安装gradio：
```
pip install gradio==4.36.1
```

运行LeviTor：

python gradio_demo/gradio_run.py \
--frame_interval 1 \
--num_frames 16 \
--pretrained_model_name_or_path checkpoints/stable-video-diffusion-img2vid-xt \
--resume_from_checkpoint checkpoints/LeviTor \
--width 288 \
--height 512 \
--seed 217113 \
--mixed_precision fp16 \
--enable_xformers_memory_efficient_attention \
--output_dir ./outputs \
--gaussian_r 10 \
--sam_path checkpoints/sam_vit_h_4b8939.pth \
--depthanything_path checkpoints/depth_anything_v2_vitl.pth

资源

项目官网：https://ppetrichor.github.io/levitor
GitHub 仓库：https://github.com/qiuyu96/LeviTor
HuggingFace 模型库：https://huggingface.co/hlwang06/LeviTor
arXiv 技术论文：https://arxiv.org/pdf/2412.15214

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

🚀 快速阅读

正文（附运行示例）

LeviTor 是什么

LeviTor 的主要功能

LeviTor 的技术原理

如何运行 LeviTor

环境设置

资源

计算机视觉

热门文章

最新文章

相关课程

相关电子书