阿里巴巴发布开源视频编辑全功能模型Wan2.1-VACE,视频创作迎来"全能选手"!

简介: 阿里巴巴发布的开源模型Wan2.1-VACE,作为“万相2.1”系列成员,是业内首个视频生成与编辑统一解决方案。该多合一AI模型支持文本、图像和视频的多模态输入,提供视频生成、局部编辑、画面延展等功能,大幅提升创作效率。借助创新技术如“视频条件单元”和“上下文适配”,Wan2.1-VACE可广泛应用于短视频制作、广告营销等领域。模型已上线Hugging Face等平台,免费下载使用,助力AI普惠。


Swipe for English >>>

多合一AI模型革新视频创作行业

阿里巴巴集团发布最新开源视频生成与编辑模型 Wan2.1-VACE(Video All-in-one Creation and Editing)。此创新工具整合多项视频处理功能于单一模型中,可简化视频创作流程,提升效率与生产力。

作为阿里巴巴视频生成大模型“万相2.1”(Wan2.1)系列的一员,Wan2.1-VACE是业内首个提供视频生成与编辑统一解决方案的开源模型。该模型支持基于文本、图像和视频的多模态输入进行视频生成,同时为创作者提供全面的视频编辑功能,包括参考图像或参考帧视频生成、视频转绘、视频局部编辑、画面和时长延展等,这些功能可灵活组合以激发创意。

借助这款先进工具,用户可以根据图像样本生成包含特定主体的视频,为静态图像添加自然运动效果使其“活起来”,同时还可使用姿态迁移、运动控制、深度控制和着色等高级视频重绘功能。该模型还支持对视频局部区域进行添加、修改或删除而不影响区域外的内容,并能扩展视频边界,智能填充内容以丰富视觉体验。

作为多合一AI模型,Wan2.1-VACE具有领先市场的多功能性,允许用户结合多种功能,释放创新潜力。用户可将静态图像转为视频,并通过规定运动轨迹控制物体移动;替换指定人物或物体;为角色添加动画效果并控制姿势;将竖向图像横向扩展为横版视频,同时添加新元素。

以创新技术推动AI普惠

Wan2.1-VACE采用多项创新技术,在构建和设计时充分考虑了不同视频编辑任务的需求。其统一接口“视频条件单元”(Video Condition Unit, VCU),可支持对文本、图像、视频和蒙版等多模态输入进行统一处理。此外,该模型的“上下文适配”(Context Adapter)结构,通过使用时空维度的形式化表征来注入各种任务概念,这一创新设计使其能够灵活处理各类视频合成任务。

得益于模型架构的进步,Wan2.1-VACE可广泛应用于社交媒体短视频的快速制作、广告营销的内容创作、影视后期的特效处理,以及教育培训视频的生成等领域。

训练视频基础模型需要大量计算资源和高质量训练数据,开源此模型有助于更多企业以高成本效益的方式,快速创建符合需求的高质量视觉内容,推动AI的普惠与普及。

阿里巴巴开源的Wan2.1-VACE模型提供140亿参数和13亿参数两个版本,已在Hugging Face、GitHub以及阿里云开源社区ModelScope上发布,可免费下载使用。

作为全球最早开源自研大模型的科技公司之一,阿里巴巴已于2025年2月开源了四款万相2.1系列模型,并在上个月开源了支持首尾帧视频生成的模型。截至目前,这些模型在Hugging Face和ModelScope上的下载量已超过330万次。

点击文末↓"阅读原文"立刻上百炼体验API服务👇

来源  |  Alibaba Cloud International公众号

相关文章
|
2月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
4月前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
879 7
|
2月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
Ubuntu 开发工具
Ubuntu更换阿里云软件源
Ubuntu更换阿里云软件源
140712 0
|
4月前
|
编解码 人工智能 自然语言处理
通义万相VACE开源!一款模型搞定多种视频编辑任务
VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。
972 3
|
Java 数据处理
阿里云百炼工作流支持多模型协同标注,三模型投票分类用户意图实战
本文介绍了一种基于多模型协作的高效分类工作流方案,用于解决传统标注工作中人力依赖大、易出错的问题。通过通义千问系列的 Qwen-Plus、Qwen-Max 和 Qwen3-30b-a3b 三大模型,结合投票机制,实现售前售后意图识别的精准分类。文中详细讲解了如何在阿里云百炼应用广场创建任务型工作流,包括模型节点配置、条件判断设置及测试发布全流程。此外,还提供了批量打标的 Java 示例代码,适用于更复杂的意图标注场景。跟随文章步骤,即可快速构建高效率、高准确性的分类系统。
655 0
|
6月前
|
消息中间件 存储 负载均衡
AI 推理场景的痛点和解决方案
一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景,解决相关问题,本文我们会针对每个场景逐一说明。
975 148
AI 推理场景的痛点和解决方案
|
5月前
|
存储 人工智能 监控
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
5554 65
|
7月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
1020 0