LeviTor:蚂蚁集团开源3D目标轨迹控制视频合成技术,能够控制视频中3D物体的运动轨迹

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术,通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:LeviTor结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。
  2. 主要功能:精确操控物体运动、增强创意应用、简化用户输入、自动提取深度信息和物体掩码。
  3. 应用场景:适用于电影特效、游戏动画、虚拟现实、增强现实和广告视频制作等多个领域。

正文(附运行示例)

LeviTor 是什么

公众号: 蚝油菜花 - LeviTor

LeviTor是由南京大学、蚂蚁集团、浙江大学等机构联合推出的图像到视频合成技术。该技术结合了深度信息和K-means聚类点,能够控制视频中3D物体的轨迹,而无需显式的3D轨迹跟踪。LeviTor使用高质量的视频对象分割数据集进行训练,能够有效捕捉复杂场景中的物体运动和交互。

通过用户友好的推理流程,LeviTor简化了3D轨迹输入,使得视频生成技术更加先进和易用。它的引入为3D物体轨迹控制铺平了道路,拓宽了创意应用的范围,适用于更广泛的用户群体。

LeviTor 的主要功能

  • 精确操控物体运动:在从静态图像生成视频时,精确控制物体的运动轨迹。
  • 增强创意应用:基于3D轨迹控制,拓宽视频合成的创意应用范围。
  • 简化用户输入:用户可以通过简单的2D图像上的绘制和深度调整输入3D轨迹,降低技术门槛。
  • 自动提取深度信息和物体掩码:系统自动从图像中提取深度信息和物体掩码,减少用户操作。
  • 交互式轨迹绘制:用户可以交互式地绘制物体轨迹,系统将其解释为3D路径。

LeviTor 的技术原理

  • K-means聚类:对视频对象掩码(mask)的像素进行K-means聚类,得到一组代表性的控制点。
  • 深度信息融合:深度估计网络DepthAnythingV2预测相对深度图,并在每个控制点采样深度,为控制点增添深度信息。
  • 控制信号构建:结合2D坐标和估计的深度值,构建控制轨迹,轨迹作为视频扩散模型的控制信号。
  • 视频扩散模型:将控制信号输入到视频扩散模型中,生成与3D轨迹对齐的视频。
  • 用户友好的推理流程:设计用户友好的交互系统,用户通过点击和调整深度值输入3D轨迹。

如何运行 LeviTor

环境设置

  1. 克隆仓库

    git clone https://github.com/qiuyu96/LeviTor.git
    cd LeviTor
    
  2. 下载并解压检查点
    创建checkpoints目录并下载相关检查点文件:

    mkdir checkpoints
    cd checkpoints
    

    下载以下文件:

确保所有检查点文件位于checkpoints目录下:

checkpoints/
|-- sam_vit_h_4b8939.pth
|-- depth_anything_v2_vitl.pth
|-- stable-video-diffusion-img2vid-xt/
|-- LeviTor/
    |-- random_states_0.pkl
    |-- scaler.pt
    |-- scheduler.bin
    |-- controlnet/
    |-- unet/
  1. 创建环境

    conda create -n LeviTor python=3.9 -y
    conda activate LeviTor
    
  2. 安装依赖包

    pip install -r requirements.txt
    
  3. 安装pytorch3d

    pip install "git+https://github.com/facebookresearch/pytorch3d.git"
    
  4. 安装gradio

    pip install gradio==4.36.1
    
  5. 运行LeviTor

    python gradio_demo/gradio_run.py \
    --frame_interval 1 \
    --num_frames 16 \
    --pretrained_model_name_or_path checkpoints/stable-video-diffusion-img2vid-xt \
    --resume_from_checkpoint checkpoints/LeviTor \
    --width 288 \
    --height 512 \
    --seed 217113 \
    --mixed_precision fp16 \
    --enable_xformers_memory_efficient_attention \
    --output_dir ./outputs \
    --gaussian_r 10 \
    --sam_path checkpoints/sam_vit_h_4b8939.pth \
    --depthanything_path checkpoints/depth_anything_v2_vitl.pth
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
安全 数据挖掘 定位技术
工厂内部导航系统:高精度定位与智能路径规划的技术实现
工厂内部导航系统其核心功能包括实时定位、智能路径规划、车辆警告及数据分析,显著提升了物流效率和管理水平。系统具备高精度定位、灵活部署及跨平台兼容等技术优势,并已在实际项目中取得显著成效。
156 11
工厂内部导航系统:高精度定位与智能路径规划的技术实现
|
8月前
全息近眼显示技术如何实现三维图像再现?
【6月更文挑战第26天】全息近眼显示技术如何实现三维图像再现?
73 4
|
9月前
|
传感器 编解码 计算机视觉
事件相机 PROPHESEE EVK4紧凑基于事件的 高清视觉评估套件 视觉传感 EVK4
探索基于事件的视觉,从 PROPHESEE EVK4 HD 开始。这款超轻、紧凑的高清 Metavision ®评估套件,可承受现场测试条件。集成 IMX636(高清),堆叠式事件视觉传感器由索尼半导体解决方案公司发布,由索尼和 PROPHESEE 合作实现。
事件相机 PROPHESEE EVK4紧凑基于事件的 高清视觉评估套件 视觉传感 EVK4
|
机器学习/深度学习 Web App开发 人工智能
Deepmotion: AI动作捕捉和3D身体追踪技术平台
Deepmotion: AI动作捕捉和3D身体追踪技术平台
802 0
|
传感器 人工智能 监控
卡塔尔世界杯出现了半自动越位识别技术、动作轨迹捕捉等黑科技。
卡塔尔世界杯出现了半自动越位识别技术、动作轨迹捕捉等黑科技。
卡塔尔世界杯出现了半自动越位识别技术、动作轨迹捕捉等黑科技。
|
传感器 机器学习/深度学习 算法
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
240 0
|
传感器 编解码 人工智能
2022最新!更面向工业场景:基于视觉方案不同挑战下的车道检测与跟踪(上)
本文作者提出了一种鲁棒的车道检测和跟踪方法来检测车道线,该方法主要介绍了三个关键技术。首先,应用双边滤波器来平滑和保留边缘,引入了一个优化的强度阈值范围(OITR)来提高canny算子的性能,该算子检测低强度(有色、腐蚀或模糊)车道标记的边缘。第二,提出了一种稳健的车道验证技术,即基于角度和长度的几何约束(ALGC)算法,然后进行霍夫变换,以验证车道线的特征并防止不正确的车道线检测。最后,提出了一种新的车道线跟踪技术,即水平可调车道重新定位范围(HALRR)算法,该算法可以在左、右或两条车道标记在短时间内部分和完全不可见时跟踪车道位置。
2022最新!更面向工业场景:基于视觉方案不同挑战下的车道检测与跟踪(上)
|
编解码 人工智能 算法
2022最新!更面向工业场景:基于视觉方案不同挑战下的车道检测与跟踪(下)
本文作者提出了一种鲁棒的车道检测和跟踪方法来检测车道线,该方法主要介绍了三个关键技术。首先,应用双边滤波器来平滑和保留边缘,引入了一个优化的强度阈值范围(OITR)来提高canny算子的性能,该算子检测低强度(有色、腐蚀或模糊)车道标记的边缘。第二,提出了一种稳健的车道验证技术,即基于角度和长度的几何约束(ALGC)算法,然后进行霍夫变换,以验证车道线的特征并防止不正确的车道线检测。最后,提出了一种新的车道线跟踪技术,即水平可调车道重新定位范围(HALRR)算法,该算法可以在左、右或两条车道标记在短时间内部分和完全不可见时跟踪车道位置。
2022最新!更面向工业场景:基于视觉方案不同挑战下的车道检测与跟踪(下)
|
机器学习/深度学习 传感器 存储
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(下)
本文的工作部分受到了Malik等人在[5]中的工作的启发。这项工作的作者提出,计算机视觉的核心问题是重建、识别和重组,他们称之为计算机视觉的3R。在此,论文建议将计算机视觉的3R扩展并专门化为自动驾驶计算机视觉的4R:重建、识别、重组和重新定位。
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(下)
|
传感器 机器学习/深度学习 人工智能
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(上)
本文的工作部分受到了Malik等人在[5]中的工作的启发。这项工作的作者提出,计算机视觉的核心问题是重建、识别和重组,他们称之为计算机视觉的3R。在此,论文建议将计算机视觉的3R扩展并专门化为自动驾驶计算机视觉的4R:重建、识别、重组和重新定位。
一文尽览 | 全景/鱼眼相机低速自动驾驶的近距离感知(识别+重建+定位+工程化)(上)

热门文章

最新文章