通义万相VACE开源!一款模型搞定多种视频编辑任务

简介: VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。

image.png

从内容生成到精细编辑 VACE都能一“"模”多用,真正实现一个模型,多种任务

此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,无需频繁切换模型或工具,真正实现高效、灵活的视频创作体验。

image.png

三大核心能力解析

多模态信息输入 让视频生成更可控

传统视频生成流程,一旦生成完成,想要调整人物姿态、动作轨迹或场景布局非常困难。VACE 提供了强大的可控重绘能力,支持基于人体姿态、运动光流、结构保持、空间运动、着色等控制生成,同时也支持基于主体和背景参考的视频生成。

背后的核心技术是 VACE 的多模态输入机制,不同于仅依赖文本提示的传统模型,VACE 构建了一个集文本、图像、视频、Mask 和控制信号于一体的统一输入系统。

对于图像输入,VACE 可支持物体参考图或视频帧;对于视频输入,用户可以通过抹除、局部扩展等操作,使用 VACE 重新生成;对于局部区域,用户可以通过0/1二值信号来指定编辑区域;对于控制信号,VACE支持深度图、光流、布局、灰度、线稿和姿态等。

image.png

统一的单一模型 一站式解决多任务需求

VACE 支持对视频中指定区域进行内容替换、增加或删除等操作。在时间维度上,VACE 可根据任意片段或首尾帧补全整个视频时长;在空间维度上,支持对画面边缘或背景区域进行扩展生成,如背景替换 ——在保留主体不变的前提下,依据 Prompt 更换背景环境。

得益于强大的多模态输入模块和 Wan2.1 的生成能力,传统专家模型能实现的功能 VACE 可以轻松驾驭,包括:

图像参考能力,给定参考主体和背景,可以完成元素一致性生成。

视频重绘能力,包括姿态迁移、运动控制、结构控制、重新着色等。

局部编辑能力,包括主体重塑、主体移除、背景延展、时长延展等。

多任务自由组合 释放AI创意边界

VACE 还支持多种单任务能力的自由组合,打破了传统专家模型各自为战的协作瓶颈。作为统一模型,它能够自然融合文生视频、姿态控制、背景替换、局部编辑等原子能力,无需为单一功能单独训练新模型。

这种灵活的组合机制,不仅大幅简化创作流程,也极大拓展了 AI 视频生成的创意边界,例如:

组合图片参考 + 主体重塑功能 → 视频中物体替换。

组合运动控制 + 首帧参考功能 → 静态图片的姿态控制。

组合图片参考 + 首帧参考 + 背景扩展 + 时长延展 → 将竖版图拓展为横屏视频,并且在其中加入参考图片中的元素。

模型设计亮点解读

VCU 更灵活统一的输入范式

我们通过对四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态进行分析和总结,提出了一个灵活统一的输入范式:视频条件单元 VCU。

image.png

它将多模态的各类上下文输入,总结成了文本、帧序列、mask 序列三大形态,在输入形式上统一了 4 类视频生成与编辑任务的统一。VCU 的帧序列和 Mask 序列在数学上可以相互叠加,为多任务的自由组合创造条件。

image.png

多模态Token 序列化 统一建模的关键

如何将多模态输入统一编码为扩散 Transformer 可处理的 token 序列?这是 VACE 需要解决的一大难题。

首先,VACE 对 VCU 输入中的 Frame 序列进行概念解耦,将其分为两类:一类是需要原封不动保留的 RGB 像素(不变帧序列),另一类是需要根据提示重新生成的内容(可变帧序列)。接下来,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码,其中,可变帧和不变帧通过 VAE 被编码到与 DiT 模型噪声维度一致的空间,通道数为 16;而 mask 序列则通过变形和采样操作,被映射到时空维度一致、通道数为 64 的隐空间特征。

最后,将 Frame 序列和 mask 序列的隐空间特征合一,并通过可训练参数映射为 DiT 的 token 序列。

image.png

上下文适配器微调 高效训练策略

在训练策略上,我们对比了全局微调与上下文适配器微调两种方案。全局微调通过训练全部 DiT 参数,能取得更快的推理速度;而上下文适配微调方案是固定原始的基模型参数,仅选择性地复制并训练一些原始 Transformer 层作为额外的适配器。

实验表明,两者在验证损失上差异不大,但上下文适配器微调具有更快的收敛速度,且避免了基础能力丢失的风险。因此,本次开源版本采用该方法进行训练。

image.png

通过本次发布的 VACE 系列模型定量评测可以看出,相比 1.3B preview 版本,模型在多个关键指标上均有明显提升。

开源与使用指南

如果想要基于 VACE 进行二次开发,可以遵循以下步骤进行使用,首先从 GitHub 下载 Wan2.1 的官方repo,再进入 HuggingFace 或  ModelScope 下载对应的 VACE 模型,在 Wan 的主站也即将支持 VACE 的部分功能。

✅ GitHub:https://github.com/Wan-Video/Wan2.1

✅ 魔搭:https://modelscope.cn/organization/Wan-AI

✅ Hugging Face:https://huggingface.co/Wan-AI

✅ 国内站:https://tongyi.aliyun.com/wanxiang/

✅ 国际站:https://wan.video

VACE 技术细节详解

注意注意:由于视频链接不可下载,此处只放了视频封面,详细视频信息可点击此链接查看:https://mp.weixin.qq.com/s/jbOSf3_elqZvXAl0SMERpw

image.png


🏀如果想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
相关文章
|
26天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
实战 | Qwen2.5-VL模型目标检测(Grounding)任务领域微调教程
在目标检测领域,众多神经网络模型早已凭借其卓越的性能,实现了精准的目标检测与目标分割效果。然而,随着多模态模型的崛起,其在图像分析方面展现出的非凡能力,为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容,还能将这种理解转化为文本形式输出,极大地拓展了其应用场景。
1549 74
|
26天前
|
人工智能 数据挖掘 API
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
155 21
基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充
|
27天前
|
Java 数据库 Docker
基于neo4j数据库和dify大模型框架的rag模型搭建
基于neo4j数据库和dify大模型框架的rag模型搭建
259 35
|
16天前
|
机器学习/深度学习 编解码 缓存
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
|
16天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
183 9
|
16天前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
109 4
|
27天前
|
人工智能 数据可视化 物联网
Reasoning模型蒸馏实践:用大模型提升小模型能力
DeepSeek-R1的爆火让更多开发者注意到模型蒸馏技术——这种让小模型也能"开小灶"习得大模型知识精华的秘诀。今天我们就用Qwen2.5-1.5B小模型(相当于AI界的初中生)来进行实践!
126 5
|
26天前
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。