通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

01.前言

阿里巴巴正式开源通义万相Wan2.1-VACE!

这是目前业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等多种生成和编辑能力。

https://live.csdn.net/v/477540

 

02.开源内容

本次开源Wan2.1-VACE,有1.3B和14B两个版本,支持480P和 720P。其中1.3B版本可在消费级显卡运行。

GitHub:https://github.com/Wan-Video/Wan2.1

ModelScope: https://www.modelscope.cn/organization/Wan-AI

Huggingface: https://huggingface.co/Wan-AI

Technical Report: https://arxiv.org/abs/2503.07598

03.小编敲重点

开源效果

Wan2.1-VACE支持以下几种能力:

  • 图像参考视频生成,支持基于主体和背景图像参考的视频生成;
  • 视频的可控重绘,支持基于人体姿态、运动光流、画面景深、运动轨迹、着色等控制生成;
  • 视频的局部编辑,通过指定视频的局部区域,可以实现视频元素的替换、增加和删除等操作;
  • 视频扩展,在时间维度上支持视频任意片段生成,给定任意片段、首尾帧进行完整视频的补全。在空间维度上支持视频的扩展生成,这个能力的更进一步的应用是视频的背景替换,即可以保留主体不变来根据prompt变换背景或拓展视频画面。

最重要的是,作为一个统一的多任务模型,VACE还支持上述单任务能力的自由组合,从而破解了传统的单任务专家模型各司其职的协同难题。VACE统一模型的优势在于能够自然地实现前面所述基础能力的自由组合,不必再为了单一功能训练一个新的专家模型。通过组合各种能力,可以解锁各种各样的视频创作方式。这样一来,不仅大大简化了用户的工作流程,而且极大程度地扩展了AI视频生成创意的边界。

https://live.csdn.net/v/477541

技术优势:

1.采用多模态信息输入,提高视频生成可控性

文本提示词通常无法满足用户对于角色一致性、布局、运动姿态和幅度等要素的控制需求,特别是对于专业AI视频创作者而言。

为解决这一难题,VACE在Wan2.1文生视频基模型的基础上,增加了更多常见的输入形式,形成了集文本、图像、视频、mask和控制信号于一体的视频编辑统一模型。AYSCALE

image.gif 编辑

其中:

对于图像输入,VACE可以接受物体参考图或者视频帧;

对于视频,用户可以通过抹除、局部扩展等操作,使用VACE进行重新生成;

对于局部区域,用户可以通过0/1二值信号来指定编辑区域;

对于控制信号,VACE支持深度图、光流、布局、灰度、线稿和姿态等。

2.统一的单一模型,为多种任务提供更加统一的解决方案

由于VACE的多模态输入模块和Wan2.1强大的视频生成能力,传统专家模型能实现的功能VACE可以轻松驾驭。例如:

图像参考能力,给定参考主体和背景,可以完成元素一致性生成。视频重绘能力,包括姿态迁移、运动控制、结构控制、重新着色等;局部编辑能力,包括主体重塑、主体移除、背景延展、时长延展等。

3.多任务自由组合,可以更加深度地挖掘视频生成的创意潜力。

VACE视频编辑统一模型的优势在于比较自然地支持各种原子能力的自由组合,不必再为了单一功能训练一个新的专家模型。

例如:

1.组合图片参考和主体重塑功能,可以实现视频的物体替换功能。

2.组合运动控制和首帧参考功能,可以实现静态图片的姿态控制。

3.组合图片参考、首帧参考、背景扩展和时长延展功能,可以将一张竖版图片,变成一个横版视频,并且在其中加入参考图片中的元素。

04.VACE统一框架

VACE的强大能力源于通义万相团队对模型框架的设计,以下是VACE框架的三个设计。

1.视频条件单元 VCU

首先,通义万相团队深入分析和总结了文生视频、参考图生视频、视频生视频,基于局部区域的视频生视频4大类视频生成和编辑任务的输入形态,提出了一个更加灵活统一的输入范式:视频条件单元 VCU。

image.gif 编辑

它将多模态的各类上下文输入,总结成了文本、帧序列、mask序列三大形态,在输入形式上统一了4类视频生成和编辑任务。

另外值得注意的是,VCU中的帧序列和mask序列在数学上可以相互叠加,从而给各种任务的自由组合创造了条件。

2.多模态输入的token序列化FINE-TUNING

image.gif 编辑

VACE解决的另一大难题是多模态输入的token序列化。token序列化(Tokenization)是Wan2.1的视频扩散Transformer架构能正确处理输入信息的前提条件。这里,VACE首先将VCU输入的Frame序列进行概念解耦。具体做法是,把需要保持不变的RGB像素,和需要重新生成的像素,例如控制信号等,分开重构成可变帧序列和不变帧序列。

然后,将可变帧序列、不变帧序列、mask序列分别进行编码至隐空间。这里可变帧序列、不变帧序列会通过VAE被编码至与DiT模型噪声的维度一致,通道数为16。而mask序列通过变形和采样,编码成时空维度一致,而通道数为64的隐空间特征。最后,将frame序列和mask序列的隐空间特征合一,并通过可训练参数映射为DiT的token序列。

3.上下文适配微调

在训练策略上我们对比了全局微调和上下文适配微调两种方案。全局微调通过训练全部的DiT参数,较少地新增参数,能取得更快的推理速度。而上下文适配微调方案是固定原始的基模型参数,仅选择性地复制并训练一些原始Transformer层作为额外的适配器。STEP

通过实验验证,两种训练策略在最终的验证损失上差别不大,但是上下文适配微调可以取得更快的收敛速度,并且避免了全局微调可能隐含的基础能力丢失的问题。在本次开源的版本使用了上下文适配器微调作为训练方式。

05.如何运行推理代码

安装代码库

下载Wan2.1代码库并安装对应的依赖

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
pip install modelscope

image.gif

模型下载

VACE有两个版本,分别是VACE-1.3B和VACE-14B,使用以下两个命令分别下载两个模型。

modelscope download Wan-AI/Wan2.1-VACE-1.3B --local_dir ./Wan2.1-VACE-1.3B
modelscope download Wan-AI/Wan2.1-VACE-14B --local_dir ./Wan2.1-VACE-14B

image.gif

运行推理脚本

以VACE-1.3B模型为例,运行参考图生成视频和视频编辑两个任务。

基于参考图生成视频(Reference-to-Video Generation):

运行如下推理命令,以参考图生成视频:

python generate.py --task vace-1.3B --size '832*480' --ckpt_dir ./Wan2.1-VACE-1.3B --src_ref_images examples/girl.png,examples/snake.png --prompt "在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色,形状圆润,宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。"

image.gif

输入参考图1

输入参考图2

编辑 编辑

输出的视频

https://live.csdn.net/v/477545

在NVIDIA A100显卡上,生成832x480分辨率5秒长的视频,单次推理时间(不包含模型加载)为310秒,显存占用为28GB。

视频编辑(Video-to-Video Editing)

运行视频编辑功能,需要下载VACE官方代码库并安装对应的依赖

cd ..
git clone https://github.com/ali-vilab/VACE.git && cd VACE
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124  # 这一步需要根据CUDA版本调整安装源
pip install -r requirements.txt
pip install -r requirements/annotator.txt

image.gif

同时,将VACE-Annotators下载到VACE/models/VACE-Annotators下:

modelscope download iic/VACE-Annotators --local_dir ./models/VACE-Annotators

image.gif

然后,使用VACE-Annotators得到预处理的深度视频:

python vace/vace_preproccess.py --task depth --video assets/videos/test.mp4

image.gif

输入的原始视频

输出的深度视频

https://live.csdn.net/v/477544

https://live.csdn.net/v/477543

然后,将输出的深度视频拷贝到Wan2.1代码库,回到Wan2.1代码库路径下,运行如下命令进行视频编辑:

cd ../Wan2.1/
python generate.py --task vace-1.3B --ckpt_dir ./Wan2.1-VACE-1.3B --src_video src_video-depth.mp4 --prompt "两只戴着蓝色圈套的猫咪在打拳击比赛"

image.gif

在NVIDIA A100显卡上,生成832x480分辨率5秒长的视频,推理时间和显存占用同上。

06.直播精彩回放

image.gif 编辑

点击链接,即可跳转模型~

https://www.modelscope.cn/organization/Wan-AI

相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
目录
相关文章
|
19天前
|
人工智能 数据挖掘 API
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
141 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
|
9天前
|
机器学习/深度学习 编解码 缓存
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
|
9天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
135 9
|
9天前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
87 4
|
19天前
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。
|
20天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
实战 | Qwen2.5-VL模型目标检测(Grounding)任务领域微调教程
在目标检测领域,众多神经网络模型早已凭借其卓越的性能,实现了精准的目标检测与目标分割效果。然而,随着多模态模型的崛起,其在图像分析方面展现出的非凡能力,为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容,还能将这种理解转化为文本形式输出,极大地拓展了其应用场景。
1363 74
|
1月前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
637 78
|
1月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
158 17

热门文章

最新文章