通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

01.前言

阿里巴巴正式开源通义万相Wan2.1-VACE!

这是目前业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等多种生成和编辑能力。

https://live.csdn.net/v/477540

 

02.开源内容

本次开源Wan2.1-VACE,有1.3B和14B两个版本,支持480P和 720P。其中1.3B版本可在消费级显卡运行。

GitHub:https://github.com/Wan-Video/Wan2.1

ModelScope: https://www.modelscope.cn/organization/Wan-AI

Huggingface: https://huggingface.co/Wan-AI

Technical Report: https://arxiv.org/abs/2503.07598

03.小编敲重点

开源效果

Wan2.1-VACE支持以下几种能力:

  • 图像参考视频生成,支持基于主体和背景图像参考的视频生成;
  • 视频的可控重绘,支持基于人体姿态、运动光流、画面景深、运动轨迹、着色等控制生成;
  • 视频的局部编辑,通过指定视频的局部区域,可以实现视频元素的替换、增加和删除等操作;
  • 视频扩展,在时间维度上支持视频任意片段生成,给定任意片段、首尾帧进行完整视频的补全。在空间维度上支持视频的扩展生成,这个能力的更进一步的应用是视频的背景替换,即可以保留主体不变来根据prompt变换背景或拓展视频画面。

最重要的是,作为一个统一的多任务模型,VACE还支持上述单任务能力的自由组合,从而破解了传统的单任务专家模型各司其职的协同难题。VACE统一模型的优势在于能够自然地实现前面所述基础能力的自由组合,不必再为了单一功能训练一个新的专家模型。通过组合各种能力,可以解锁各种各样的视频创作方式。这样一来,不仅大大简化了用户的工作流程,而且极大程度地扩展了AI视频生成创意的边界。

https://live.csdn.net/v/477541

技术优势:

1.采用多模态信息输入,提高视频生成可控性

文本提示词通常无法满足用户对于角色一致性、布局、运动姿态和幅度等要素的控制需求,特别是对于专业AI视频创作者而言。

为解决这一难题,VACE在Wan2.1文生视频基模型的基础上,增加了更多常见的输入形式,形成了集文本、图像、视频、mask和控制信号于一体的视频编辑统一模型。AYSCALE

image.gif 编辑

其中:

对于图像输入,VACE可以接受物体参考图或者视频帧;

对于视频,用户可以通过抹除、局部扩展等操作,使用VACE进行重新生成;

对于局部区域,用户可以通过0/1二值信号来指定编辑区域;

对于控制信号,VACE支持深度图、光流、布局、灰度、线稿和姿态等。

2.统一的单一模型,为多种任务提供更加统一的解决方案

由于VACE的多模态输入模块和Wan2.1强大的视频生成能力,传统专家模型能实现的功能VACE可以轻松驾驭。例如:

图像参考能力,给定参考主体和背景,可以完成元素一致性生成。视频重绘能力,包括姿态迁移、运动控制、结构控制、重新着色等;局部编辑能力,包括主体重塑、主体移除、背景延展、时长延展等。

3.多任务自由组合,可以更加深度地挖掘视频生成的创意潜力。

VACE视频编辑统一模型的优势在于比较自然地支持各种原子能力的自由组合,不必再为了单一功能训练一个新的专家模型。

例如:

1.组合图片参考和主体重塑功能,可以实现视频的物体替换功能。

2.组合运动控制和首帧参考功能,可以实现静态图片的姿态控制。

3.组合图片参考、首帧参考、背景扩展和时长延展功能,可以将一张竖版图片,变成一个横版视频,并且在其中加入参考图片中的元素。

04.VACE统一框架

VACE的强大能力源于通义万相团队对模型框架的设计,以下是VACE框架的三个设计。

1.视频条件单元 VCU

首先,通义万相团队深入分析和总结了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务的输入形态,提出了一个更加灵活统一的输入范式:视频条件单元 VCU。

image.gif 编辑

它将多模态的各类上下文输入,总结成了文本、帧序列、mask序列三大形态,在输入形式上统一了4类视频生成和编辑任务。

另外值得注意的是,VCU中的帧序列和mask序列在数学上可以相互叠加,从而给各种任务的自由组合创造了条件。

2.多模态输入的token序列化FINE-TUNING

image.gif 编辑

VACE解决的另一大难题是多模态输入的token序列化。token序列化(Tokenization)是Wan2.1的视频扩散Transformer架构能正确处理输入信息的前提条件。这里,VACE首先将VCU输入的Frame序列进行概念解耦。具体做法是,把需要保持不变的RGB像素,和需要重新生成的像素,例如控制信号等,分开重构成可变帧序列和不变帧序列。

然后,将可变帧序列、不变帧序列、mask序列分别进行编码至隐空间。这里可变帧序列、不变帧序列会通过VAE被编码至与DiT模型噪声的维度一致,通道数为16。而mask序列通过变形和采样,编码成时空维度一致,而通道数为64的隐空间特征。最后,将frame序列和mask序列的隐空间特征合一,并通过可训练参数映射为DiT的token序列。

3.上下文适配微调

在训练策略上我们对比了全局微调和上下文适配微调两种方案。全局微调通过训练全部的DiT参数,较少地新增参数,能取得更快的推理速度。而上下文适配微调方案是固定原始的基模型参数,仅选择性地复制并训练一些原始Transformer层作为额外的适配器。STEP

通过实验验证,两种训练策略在最终的验证损失上差别不大,但是上下文适配微调可以取得更快的收敛速度,并且避免了全局微调可能隐含的基础能力丢失的问题。在本次开源的版本使用了上下文适配器微调作为训练方式。

05.如何运行推理代码

安装代码库

下载Wan2.1代码库并安装对应的依赖

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
pip install modelscope

image.gif

模型下载

VACE有两个版本,分别是VACE-1.3B和VACE-14B,使用以下两个命令分别下载两个模型。

modelscope download Wan-AI/Wan2.1-VACE-1.3B --local_dir ./Wan2.1-VACE-1.3B
modelscope download Wan-AI/Wan2.1-VACE-14B --local_dir ./Wan2.1-VACE-14B

image.gif

运行推理脚本

以VACE-1.3B模型为例,运行参考图生成视频和视频编辑两个任务。

基于参考图生成视频(Reference-to-Video Generation):

运行如下推理命令,以参考图生成视频:

python generate.py --task vace-1.3B --size '832*480' --ckpt_dir ./Wan2.1-VACE-1.3B --src_ref_images examples/girl.png,examples/snake.png --prompt "在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色,形状圆润,宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。"

image.gif

输入参考图1

输入参考图2

编辑 编辑

输出的视频

https://live.csdn.net/v/477545

在NVIDIA A100显卡上,生成832x480分辨率5秒长的视频,单次推理时间(不包含模型加载)为310秒,显存占用为28GB。

视频编辑(Video-to-Video Editing)

运行视频编辑功能,需要下载VACE官方代码库并安装对应的依赖

cd ..
git clone https://github.com/ali-vilab/VACE.git && cd VACE
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124  # 这一步需要根据CUDA版本调整安装源
pip install -r requirements.txt
pip install -r requirements/annotator.txt

image.gif

同时,将VACE-Annotators下载到VACE/models/VACE-Annotators下:

modelscope download iic/VACE-Annotators --local_dir ./models/VACE-Annotators

image.gif

然后,使用VACE-Annotators得到预处理的深度视频:

python vace/vace_preproccess.py --task depth --video assets/videos/test.mp4

image.gif

输入的原始视频

输出的深度视频

https://live.csdn.net/v/477544

https://live.csdn.net/v/477543

然后,将输出的深度视频拷贝到Wan2.1代码库,回到Wan2.1代码库路径下,运行如下命令进行视频编辑:

cd ../Wan2.1/
python generate.py --task vace-1.3B --ckpt_dir ./Wan2.1-VACE-1.3B --src_video src_video-depth.mp4 --prompt "两只戴着蓝色圈套的猫咪在打拳击比赛"

image.gif

在NVIDIA A100显卡上,生成832x480分辨率5秒长的视频,推理时间和显存占用同上。

06.直播精彩回放

image.gif 编辑

点击链接,即可跳转模型~

https://www.modelscope.cn/organization/Wan-AI

目录
相关文章
|
14天前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
114 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
29天前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
254 23
|
22天前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
205 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
22天前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
258 0
|
26天前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
198 0
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
141 0
|
15天前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
2月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。

热门文章

最新文章