Swipe for English >>>
多合一AI模型革新视频创作行业
阿里巴巴集团发布最新开源视频生成与编辑模型 Wan2.1-VACE(Video All-in-one Creation and Editing)。此创新工具整合多项视频处理功能于单一模型中,可简化视频创作流程,提升效率与生产力。
作为阿里巴巴视频生成大模型“万相2.1”(Wan2.1)系列的一员,Wan2.1-VACE是业内首个提供视频生成与编辑统一解决方案的开源模型。该模型支持基于文本、图像和视频的多模态输入进行视频生成,同时为创作者提供全面的视频编辑功能,包括参考图像或参考帧视频生成、视频转绘、视频局部编辑、画面和时长延展等,这些功能可灵活组合以激发创意。
借助这款先进工具,用户可以根据图像样本生成包含特定主体的视频,为静态图像添加自然运动效果使其“活起来”,同时还可使用姿态迁移、运动控制、深度控制和着色等高级视频重绘功能。该模型还支持对视频局部区域进行添加、修改或删除而不影响区域外的内容,并能扩展视频边界,智能填充内容以丰富视觉体验。
作为多合一AI模型,Wan2.1-VACE具有领先市场的多功能性,允许用户结合多种功能,释放创新潜力。用户可将静态图像转为视频,并通过规定运动轨迹控制物体移动;替换指定人物或物体;为角色添加动画效果并控制姿势;将竖向图像横向扩展为横版视频,同时添加新元素。
以创新技术推动AI普惠
Wan2.1-VACE采用多项创新技术,在构建和设计时充分考虑了不同视频编辑任务的需求。其统一接口“视频条件单元”(Video Condition Unit, VCU),可支持对文本、图像、视频和蒙版等多模态输入进行统一处理。此外,该模型的“上下文适配”(Context Adapter)结构,通过使用时空维度的形式化表征来注入各种任务概念,这一创新设计使其能够灵活处理各类视频合成任务。
得益于模型架构的进步,Wan2.1-VACE可广泛应用于社交媒体短视频的快速制作、广告营销的内容创作、影视后期的特效处理,以及教育培训视频的生成等领域。
训练视频基础模型需要大量计算资源和高质量训练数据,开源此模型有助于更多企业以高成本效益的方式,快速创建符合需求的高质量视觉内容,推动AI的普惠与普及。
阿里巴巴开源的Wan2.1-VACE模型提供140亿参数和13亿参数两个版本,已在Hugging Face、GitHub以及阿里云开源社区ModelScope上发布,可免费下载使用。
作为全球最早开源自研大模型的科技公司之一,阿里巴巴已于2025年2月开源了四款万相2.1系列模型,并在上个月开源了支持首尾帧视频生成的模型。截至目前,这些模型在Hugging Face和ModelScope上的下载量已超过330万次。
点击文末↓"阅读原文"立刻上百炼体验API服务👇
来源 | Alibaba Cloud International公众号