阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎥 “阿里开源AI视频生成神器Wan2.1:文生视频、图生视频全搞定,性能超越Sora!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 想制作创意视频,但缺乏专业的视频制作技能?
  • 👉 需要生成复杂的动画场景,但时间和成本有限?
  • 👉 想快速生成广告或教育视频,但找不到合适的工具?

今天揭秘的 Wan2.1,是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力。无论是复杂的运动生成,还是物理规律的精准模拟,Wan2.1都能轻松应对。

14B参数的专业版Wan2.1模型在Vbench评测中以86.22%的成绩超越Sora、Luma等国内外模型,稳居榜首。1.3B参数的极速版则能在消费级显卡上运行,显存需求低,适合二次开发和学术研究。接下来,我们将深入解析Wan2.1的核心功能和技术原理,手把手教你如何运行这款强大的AI视频生成工具!

🚀 快速阅读

Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务。

  1. 核心功能:支持文生视频、图生视频、复杂运动生成、物理规律模拟、多风格生成和文字特效生成。
  2. 技术原理:基于因果3D VAE和视频Diffusion Transformer架构,实现高效时空压缩和长时程依赖建模。

Wan2.1 是什么

Wan2.1

Wan2.1是阿里云开源的一款AI视频生成大模型,具备强大的视觉生成能力。它支持文生视频和图生视频任务,包含两种尺寸的模型:14B参数的专业版擅长复杂运动生成和物理建模,性能卓越;1.3B参数的极速版能在消费级显卡上运行,显存需求低,适合二次开发和学术研究。

Wan2.1-cover-vben_vs_sota

Wan2.1模型基于因果3D VAE和视频Diffusion Transformer架构,实现高效时空压缩和长时程依赖建模。14B版本在权威评测集Vbench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。Wan2.1开源采用Apache 2.0协议,支持多种主流框架,已在GitHub、HuggingFace和魔搭社区上线,方便开发者使用和部署。

Wan2.1 的主要功能

  • 文生视频:根据输入的文本描述生成对应的视频内容,支持中英文长文本指令,精准还原场景切换和角色互动。
  • 图生视频:以图像为基础生成视频,实现更可控的创作,适合从静态图像扩展为动态视频的需求。
  • 复杂运动生成:稳定展现人物或物体的复杂运动,如旋转、跳跃、转身等,支持高级运镜控制。
  • 物理规律模拟:精准还原碰撞、反弹、切割等真实物理场景,生成符合物理规律的视频内容。
  • 多风格生成:支持多种视频风格和质感,适配不同创作需求,同时支持不同长宽比的视频输出。
  • 文字特效生成:具备中文文字生成能力,支持中英文文字特效,提升视频的视觉表现力。

Wan2.1 的技术原理

Wan2.1-video_vae_res

  • 因果3D VAE(Variational Autoencoder)架构:万相自研专为视频生成设计的因果3D VAE架构。基于编码器将输入数据压缩为潜在空间的表示,再用解码器重建输出。在视频生成中,3D VAE能处理视频中的时空信息,同时结合因果性约束,确保视频生成的连贯性和逻辑性。
  • 视频Diffusion Transformer架构:基于主流的视频Diffusion(扩散模型)和Transformer架构。扩散模型逐步去除噪声生成数据,Transformer基于自注意力机制(Attention)捕捉长时程依赖关系。
  • 模型训练和推理优化
    • 训练阶段:用DP(数据并行)和FSDP(全Sharded数据并行)组合的分布式策略,加速文本和视频编码模块的训练。对于Diffusion模块,基于DP、FSDP、RingAttention和Ulysses混合的并行策略,进一步提升训练效率。
    • 推理阶段:用CP(通道并行)进行分布式加速,减少生成单个视频的延迟。对于大模型,基于模型切分技术,进一步优化推理效率。

如何运行 Wan2.1

安装

克隆仓库:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖:

# 确保 torch >= 2.4.0
pip install -r requirements.txt

模型下载

模型 备注
T2V-14B 支持480P和720P
I2V-14B-720P 支持720P
I2V-14B-480P 支持480P
T2V-1.3B 支持480P

使用huggingface-cli下载模型:

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

运行文生视频生成

1. 不使用提示扩展

  • 单GPU推理

    python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗。"
    
  • 多GPU推理(使用FSDP + xDiT USP)

    pip install "xfuser>=0.4.1"
    torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗。"
    

2. 使用提示扩展

  • 使用Dashscope API进行扩展

    DASH_API_KEY=your_key python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
    
  • 使用本地模型进行扩展

    python generate.py  --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "两只拟人化的猫穿着舒适的拳击装备和明亮的手套在聚光灯下的舞台上激烈战斗" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
    

3. 运行本地Gradio

cd gradio
# 如果使用Dashscope API进行提示扩展
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B

# 如果使用本地模型进行提示扩展
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B

运行图生视频生成

1. 不使用提示扩展

  • 单GPU推理

    python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头,表情放松。模糊的海滩风景形成了背景,展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态,仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"
    
  • 多GPU推理(使用FSDP + xDiT USP)

    pip install "xfuser>=0.4.1"
    torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头,表情放松。模糊的海滩风景形成了背景,展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态,仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"
    

2. 使用提示扩展

  • 使用本地模型进行扩展

    python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_model Qwen/Qwen2.5-VL-7B-Instruct --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头,表情放松。模糊的海滩风景形成了背景,展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态,仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"
    
  • 使用Dashscope API进行扩展

    DASH_API_KEY=your_key python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --use_prompt_extend --prompt_extend_method 'dashscope' --prompt "夏日海滩度假风格,一只戴着太阳镜的白猫坐在冲浪板上。毛茸茸的猫科动物直视镜头,表情放松。模糊的海滩风景形成了背景,展示了清澈的海水、远处的绿色山丘和点缀着白云的蓝天。猫呈现出自然放松的姿态,仿佛在享受海风和温暖的阳光。特写镜头突出了猫的复杂细节和海边的清新氛围。"
    

3. 运行本地Gradio

cd gradio
# 如果仅使用480P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P

# 如果仅使用720P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P

# 如果同时使用480P和720P模型
DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_480p ./Wan2.1-I2V-14B-480P --ckpt_dir_720p ./Wan2.1-I2V-14B-720P

运行文生图生成

1. 不使用提示扩展

  • 单GPU推理

    python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B  --prompt '一个朴素端庄的美人'
    
  • 多GPU推理(使用FSDP + xDiT USP)

    torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B  --size 1024*1024 --prompt '一个朴素端庄的美人' --ckpt_dir ./Wan2.1-T2V-14B
    

2. 使用提示扩展

  • 单GPU推理

    python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B  --prompt '一个朴素端庄的美人' --use_prompt_extend
    
  • 多GPU推理(使用FSDP + xDiT USP)

    torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B  --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt '一个朴素端庄的美人' --use_prompt_extend
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
166 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
5天前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
135 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
3天前
|
存储 人工智能 边缘计算
当 AI 进入「算力密集时代」:你的服务器能跑通大模型吗?
本文深入探讨AI服务器在技术落地中的核心瓶颈问题,结合实战经验解析从模型训练到端侧部署的算力优化策略。内容涵盖三大典型场景的算力需求差异、GPU服务器选型的五大反直觉真相、实战优化方法(如混合精度训练与硬件资源监控),以及边缘AI部署挑战和解决方案。同时提供算力弹性扩展策略、模型生命周期管理及合规性建议,帮助读者构建可持续发展的算力体系。文末附有获取更多资源的指引。
50 17
|
2天前
|
机器学习/深度学习 人工智能 编解码
这个AI能拍无限长电影!SkyReels-V2:昆仑万维开源无限时长电影生成模型!
SkyReels-V2是昆仑万维推出的突破性视频生成模型,基于扩散强迫框架和多模态大语言模型技术,支持生成理论上无限时长的连贯视频内容,在影视制作、广告创意等领域展现强大潜力。
140 7
这个AI能拍无限长电影!SkyReels-V2:昆仑万维开源无限时长电影生成模型!
|
2天前
|
数据采集 人工智能 自动驾驶
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
Aether是上海AI Lab开源的生成式世界模型,通过三维时空建模与生成式建模的深度融合,实现了4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。
43 1
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
|
1天前
|
存储 人工智能 安全
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
幼儿跌倒检测系统基于AI视频技术,融合人体姿态识别与实时报警功能,为幼儿园安全管理提供智能化解决方案。系统通过YOLOv9、OpenPose等算法实现高精度跌倒检测(准确率达98%),结合LSTM时间序列分析减少误报,支持目标分类区分幼儿与成人,并具备事件存储、实时通知及开源部署优势。其高效、灵活、隐私合规的特点显著提升安全管理效率,助力优化园所运营。
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
|
9天前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
138 29
|
25天前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
134 8
|
15天前
|
存储 人工智能 监控
一键部署 Dify + MCP Server,高效开发 AI 智能体应用
本文将着重介绍如何通过 SAE 快速搭建 Dify AI 研发平台,依托 Serverless 架构提供全托管、免运维的解决方案,高效开发 AI 智能体应用。
2124 63
|
23天前
|
人工智能 API 计算机视觉
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
160 17
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果

热门文章

最新文章