DragAnything:视频PS来了!开源AI控制器让视频「指哪动哪」:拖拽任意物体轨迹,多对象独立运动一键生成

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: DragAnything 是快手联合浙江大学和新加坡国立大学推出的基于实体表示的可控视频生成方法,支持多实体独立运动控制、高质量视频生成,并在 FID、FVD 和用户研究等评估指标上达到最佳性能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🎥 「视频剪辑师集体震惊!快手把AI变成「时空橡皮擦」:画条线就让云朵倒流、汽车飞天」
大家好,我是蚝油菜花。当别人还在用AI生成15秒短视频时,快手联合浙大实验室直接改写了视频创作规则书——

你是否经历过这些崩溃瞬间?

  • ✂️ 想调整视频里汽车行驶路线,却要重拍整个场景
  • 🎞️ 多物体运动不同步,手动K帧到天亮
  • 🌆 背景僵硬如贴图,毫无自然动态效果...

这就是 DragAnything 要终结的时代!这个基于Stable Video Diffusion的框架,只需拖动物体画轨迹:

  • ✅ 前景角色跳街舞,背景霓虹自动流动
  • ✅ 多物体独立控制,汽车转弯时飞鸟同步变向
  • ✅ 相机运镜智能跟随,商业级大片5分钟生成

接下来我们将深度解析:如何用2D高斯分布+实体表征技术,实现「所拖即所得」的次世代创作?(文末含Colab实战教程)

🚀 快速阅读

DragAnything 是一种基于实体表示的可控视频生成方法,能够实现对视频中任意物体的精确运动控制。

  1. 核心功能:支持前景、背景及相机运动的灵活控制,生成高质量视频内容。
  2. 技术原理:利用扩散模型的潜在特征表示视频中的每个实体,结合用户绘制的轨迹进行运动控制。

DragAnything 是什么

DragAnything

DragAnything 是由快手联合浙江大学和新加坡国立大学 Show Lab 推出的一种基于实体表示的可控视频生成方法。它通过简单的轨迹输入,实现了对视频中任意物体的精确运动控制。DragAnything 克服了传统方法中单纯拖动像素点无法精确控制物体运动的局限性,提供了用户友好的交互方式,支持前景、背景及相机运动的灵活控制,在 FID、FVD 和用户研究等评估指标上达到了新的最佳性能。

DragAnything 的核心在于其创新的实体表示方法,能够从扩散模型的潜在特征中提取语义信息表征视频中的每个物体,将物体的语义特征与运动轨迹相结合,实现精确的实体级运动控制。这种方法不仅适用于前景物体,还能对背景和相机运动进行控制,大大提升了视频生成的质量和灵活性。

DragAnything 的主要功能

  • 实体级运动控制:对视频中的任何实体(包括前景和背景)进行精确的运动控制,不仅仅是像素级别的操作。
  • 多实体独立控制:支持同时对多个物体进行独立的运动控制,每个物体根据用户定义的轨迹进行不同的运动。
  • 用户友好的交互方式:用户基于简单的交互(如选择区域并拖动)实现复杂的运动控制,无需复杂的输入信号(如分割掩码或深度图)。
  • 相机运动控制:除控制视频中的物体外,DragAnything 还能实现相机的运动控制,如缩放和平移。
  • 高质量视频生成:在保持运动控制精度的同时,生成高质量的视频内容,适用于多种应用场景。

DragAnything 的技术原理

  • 实体表示:推出新的实体表示方法,从扩散模型的潜在特征中提取语义信息表征视频中的每个物体。将物体的语义特征与运动轨迹相结合,实现精确的实体级运动控制。
  • 2D 高斯表示:引入 2D 高斯表示,基于高斯分布对物体的中心区域赋予更高的权重,减少边缘像素的影响,实现更自然的运动控制。
  • 扩散模型:基于扩散模型架构(如 Stable Video Diffusion),用强大的生成能力和去噪能力生成高质量的视频内容。扩散模型基于逐步去除噪声重建视频帧,结合用户输入的运动轨迹和实体表示。
  • 轨迹引导的运动控制:用户基于绘制简单的轨迹定义物体的运动路径,DragAnything 将轨迹与实体表示相结合,生成符合用户意图的视频内容,避免直接操作像素点的局限性,实现更自然和精确的运动控制。
  • 损失函数与优化:在训练阶段,用带有掩码的均方误差(MSE)损失函数,专注于优化用户指定区域的运动控制,保持其他区域的生成质量。

如何运行 DragAnything

1. 安装依赖

git clone https://github.com/Showlab/DragAnything.git
cd DragAnything

conda create -n DragAnything python=3.8
conda activate DragAnything
pip install -r requirements.txt

2. 准备数据集

下载 VIPSegYoutube-VOS./data 目录。

3. 准备运动轨迹注释

你可以使用预处理的注释文件,或者使用 Co-Track 自己生成运动轨迹注释文件。

cd ./utils/co-tracker
pip install -e .
pip install matplotlib flow_vis tqdm tensorboard

mkdir -p checkpoints
cd checkpoints
wget https://huggingface.co/facebook/cotracker/resolve/main/cotracker2.pth
cd ..

# 修改对应的 video_path, ann_path, save_path 后运行
Generate_Trajectory_for_VIPSeg.sh

4. 可视化轨迹

cd .utils/
python vis_trajectory.py

5. 准备预训练模型

mkdir -p utils/pretrained_models
cd utils/pretrained_models

# 下载 ChilloutMix 模型
git-lfs clone https://huggingface.co/windwhinny/chilloutmix.git

# 下载 DragAnything 控制网络模型
mkdir -p model_out/DragAnything
cd model_out/DragAnything
git-lfs clone https://huggingface.co/weijiawu/DragAnything

6. 运行推理

python demo.py

或者使用 Gradio 进行交互式推理:

cd ./script
# 下载 SAM 模型权重
python gradio_run.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

⚗️ 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
14天前
|
人工智能 API 决策智能
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
OpenManus 是 MetaGPT 的开源 AI 平台,支持多语言模型和工具链,执行代码、处理文件等任务,具备实时反馈。OWL 基于 CAMEL-AI,支持角色分配、任务分解和记忆功能,实现高效任务自动化。
581 22
还在蹲Manus的邀请码?别等了!开源版Manus为你快速创建AI工位,给AI一台电脑,然后你就玩去吧!
|
6天前
|
人工智能 并行计算 语音技术
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目,支持实时语音对话、视觉感知和生动的 Live2D 动态形象,完全离线运行,保护用户隐私。
128 10
Open-LLM-VTuber:宅男福音!开源AI老婆离线版上线,实时语音+Live2D互动还会脸红心跳
|
14天前
|
机器学习/深度学习 人工智能 JSON
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。
86 18
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
|
14天前
|
人工智能 API 开发者
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版,支持多种语言模型和工具链,能够执行代码、处理文件、搜索网络信息等复杂任务,具备实时反馈机制和灵活的配置选项。
245 17
无需邀请码!MetaGPT 开源AI助手 OpenManus,实时反馈+模块化设计,开发者福音
|
8天前
|
人工智能 自然语言处理 API
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
77 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
|
8天前
|
人工智能 自然语言处理 算法
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
132 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
|
8天前
|
人工智能 安全 数据可视化
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
208 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
|
3天前
|
机器学习/深度学习 人工智能 数据处理
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
32 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
|
7天前
|
存储 人工智能 前端开发
Botgroup.chat:超有趣的开源 AI 聊天室!多个 AI 在线互怼,一键搭建你的专属 AI 社群
Botgroup.chat 是一款基于 React 和 Cloudflare Pages 的开源 AI 聊天应用,支持多个 AI 角色同时参与对话,提供类似群聊的交互体验。
379 28
|
8天前
|
人工智能 自然语言处理 安全
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
Anus 是一个开源 AI 智能体项目,复刻了 Manus 的部分功能,支持自然语言指令执行、多代理协作、多模态输入处理等功能,旨在为开发者提供强大且灵活的工具。
173 1
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目

热门文章

最新文章