❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 技术背景:LeviTor结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。
- 主要功能:精确操控物体运动、增强创意应用、简化用户输入、自动提取深度信息和物体掩码。
- 应用场景:适用于电影特效、游戏动画、虚拟现实、增强现实和广告视频制作等多个领域。
正文(附运行示例)
LeviTor 是什么
LeviTor是由南京大学、蚂蚁集团、浙江大学等机构联合推出的图像到视频合成技术。该技术结合了深度信息和K-means聚类点,能够控制视频中3D物体的轨迹,而无需显式的3D轨迹跟踪。LeviTor使用高质量的视频对象分割数据集进行训练,能够有效捕捉复杂场景中的物体运动和交互。
通过用户友好的推理流程,LeviTor简化了3D轨迹输入,使得视频生成技术更加先进和易用。它的引入为3D物体轨迹控制铺平了道路,拓宽了创意应用的范围,适用于更广泛的用户群体。
LeviTor 的主要功能
- 精确操控物体运动:在从静态图像生成视频时,精确控制物体的运动轨迹。
- 增强创意应用:基于3D轨迹控制,拓宽视频合成的创意应用范围。
- 简化用户输入:用户可以通过简单的2D图像上的绘制和深度调整输入3D轨迹,降低技术门槛。
- 自动提取深度信息和物体掩码:系统自动从图像中提取深度信息和物体掩码,减少用户操作。
- 交互式轨迹绘制:用户可以交互式地绘制物体轨迹,系统将其解释为3D路径。
LeviTor 的技术原理
- K-means聚类:对视频对象掩码(mask)的像素进行K-means聚类,得到一组代表性的控制点。
- 深度信息融合:深度估计网络DepthAnythingV2预测相对深度图,并在每个控制点采样深度,为控制点增添深度信息。
- 控制信号构建:结合2D坐标和估计的深度值,构建控制轨迹,轨迹作为视频扩散模型的控制信号。
- 视频扩散模型:将控制信号输入到视频扩散模型中,生成与3D轨迹对齐的视频。
- 用户友好的推理流程:设计用户友好的交互系统,用户通过点击和调整深度值输入3D轨迹。
如何运行 LeviTor
环境设置
克隆仓库:
git clone https://github.com/qiuyu96/LeviTor.git cd LeviTor
下载并解压检查点:
创建checkpoints
目录并下载相关检查点文件:mkdir checkpoints cd checkpoints
下载以下文件:
depth_anything_v2_vitl.pth
从 Depth Anything V2sam_vit_h_4b8939.pth
从 Segment Anythingstable-video-diffusion-img2vid-xt
从 stabilityaiLeviTor
检查点从 LeviTor
确保所有检查点文件位于checkpoints
目录下:
checkpoints/
|-- sam_vit_h_4b8939.pth
|-- depth_anything_v2_vitl.pth
|-- stable-video-diffusion-img2vid-xt/
|-- LeviTor/
|-- random_states_0.pkl
|-- scaler.pt
|-- scheduler.bin
|-- controlnet/
|-- unet/
创建环境:
conda create -n LeviTor python=3.9 -y conda activate LeviTor
安装依赖包:
pip install -r requirements.txt
安装pytorch3d:
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
安装gradio:
pip install gradio==4.36.1
运行LeviTor:
python gradio_demo/gradio_run.py \ --frame_interval 1 \ --num_frames 16 \ --pretrained_model_name_or_path checkpoints/stable-video-diffusion-img2vid-xt \ --resume_from_checkpoint checkpoints/LeviTor \ --width 288 \ --height 512 \ --seed 217113 \ --mixed_precision fp16 \ --enable_xformers_memory_efficient_attention \ --output_dir ./outputs \ --gaussian_r 10 \ --sam_path checkpoints/sam_vit_h_4b8939.pth \ --depthanything_path checkpoints/depth_anything_v2_vitl.pth
资源
- 项目官网:https://ppetrichor.github.io/levitor
- GitHub 仓库:https://github.com/qiuyu96/LeviTor
- HuggingFace 模型库:https://huggingface.co/hlwang06/LeviTor
- arXiv 技术论文:https://arxiv.org/pdf/2412.15214
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦