AI视频生成也能自动补全！Wan2.1 FLF2V：阿里通义开源14B视频生成模型，用首尾两帧生成过渡动画

2025-04-19 3376

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型，基于DiT架构和高效视频压缩VAE，能够根据首尾帧图像自动生成5秒720p高清视频，支持多种风格变换和细节复刻。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎬 「设计师集体解放！阿里开源核弹级视频模型：上传2张图，5秒生成专业级过渡动画」

大家好，我是蚝油菜花。你是否也经历过这些创作噩梦——

🎞️ 做转场动画要手动插帧，K帧K到手指抽筋
🖥️ 渲染一段5秒视频，显卡轰鸣如直升机起飞
🎨 想尝试新风格，结果AI生成的画面崩得亲妈都不认识...

今天要拆解的 万相首尾帧模型 ，正在重定义视频生成生产力！这个由阿里通义实验室开源的14B参数神器，用四大黑科技炸穿创作壁垒：

✅ 首尾帧魔法：只需首尾2张图，自动生成5秒720p流畅动画
✅ 风格百变：写实/卡通/奇幻风格一键切换，细节复刻堪比原画师
✅ 工业级精度：DiT架构+交叉注意力机制，画面稳定性吊打同类
✅ 开源可商用：Apache 2.0协议，企业级应用免费用

已有团队用它1天做完季度广告素材，接下来将揭秘这套「帧间填充术」的技术内核！

万相首尾帧模型是什么

Wan2.1

万相首尾帧模型（Wan2.1-FLF2V-14B）是阿里通义实验室开源的首尾帧生视频模型，参数规模达140亿。该模型基于DiT（Diffusion in Time）架构，通过首尾帧图像作为控制条件，自动生成时长5秒、分辨率720p的自然过渡视频。

模型采用高效的视频压缩VAE技术和交叉注意力机制，确保生成内容在时空维度的高度一致性。特别设计的条件控制分支能够精准复刻输入图像细节，同时支持通过提示词控制镜头移动、主体动作等特效变化，为视频创作提供工业化级解决方案。

万相首尾帧模型的主要功能

首尾帧生视频：基于用户提供的首尾帧图像，自动生成5秒720p高清过渡视频，支持动态调整输出时长和分辨率
多风格适配：可生成写实、卡通、漫画、奇幻等不同风格的视频内容，风格迁移效果自然
细节复刻引擎：通过条件控制分支精准保留输入图像的细节特征，动作过渡符合物理规律
语义控制：支持通过文本提示词控制生成内容，如指定镜头移动方向、主体运动轨迹等

万相首尾帧模型的技术原理

DiT架构：采用Diffusion in Time架构，通过Full Attention机制捕捉长时程时空依赖关系，确保视频连贯性
视频压缩VAE：创新3D因果VAE结构（Wan-VAE），压缩效率较传统方案提升47%，支持无限长度1080p视频处理
条件控制分支：将首尾帧与零填充中间帧拼接为控制序列，结合噪声和掩码作为DiT输入
交叉注意力机制：提取首尾帧CLIP特征通过交叉注意力注入生成过程，保持语义一致性
三阶段训练：

混合训练掌握掩码机制
专项优化首尾帧生成能力
高精度微调提升细节还原度

如何运行万相首尾帧模型

1. 环境准备

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

2. 模型下载

huggingface-cli download Wan-AI/Wan2.1-FLF2V-14B-720P --local-dir ./Wan2.1-FLF2V-14B-720P

3. 单GPU推理

python generate.py --task flf2v-14B --size 1280*720 \
--ckpt_dir ./Wan2.1-FLF2V-14B-720P \
--first_frame input_first.png --last_frame input_last.png \
--prompt "CG风格，蓝色小鸟从地面振翅飞向天空"

4. 多GPU加速（8卡）

torchrun --nproc_per_node=8 generate.py --task flf2v-14B \
--size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B-720P \
--dit_fsdp --t5_fsdp --ulysses_size 8 \
--first_frame input_first.png --last_frame input_last.png \
--prompt "CG风格，蓝色小鸟从地面振翅飞向天空"

资源

GitHub 仓库：https://github.com/Wan-Video/Wan2.1#run-first-last-frame-to-video-generation
HuggingFace 仓库：https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

AI视频生成也能自动补全！Wan2.1 FLF2V：阿里通义开源14B视频生成模型，用首尾两帧生成过渡动画

万相首尾帧模型是什么

万相首尾帧模型的主要功能

万相首尾帧模型的技术原理

如何运行万相首尾帧模型

1. 环境准备

2. 模型下载

3. 单GPU推理

4. 多GPU加速（8卡）

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景