通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

通义万相不久前发布的Wan2.1视频模型作为生成领域的一项突破性成果,正以令人瞩目的姿态走入大众视野。凭借其卓越的技术表现和广泛的应用潜力,这款模型迅速赢得了业界的高度关注。无论是画面细节的精致呈现,还是动态效果的自然流畅,Wan2.1都展现出了非凡的实力。在Wan2.1文生视频大模型的助力下,通义万相也同期发布了图生视频模型和1.3B参数的小型化模型。这一系列更新,不仅丰富了内容创作的工具库,也为不同场景的应用提供了更灵活的选择。截止目前,Wan2.1 github star 超1w,全网下载数超过220w。

今天,万相再次发布一个令人兴奋的更新——首尾帧生视频模型正式开源!用户只需提供首帧和尾帧,模型便能自动生成丝滑流畅的过渡效果,让画面在起始与终点之间自然演变。基于Wan2.1文生视频14B大模型,万相提供的首尾帧模型支持生成时长5s的720p高清视频,为创作者们带来了更高效、更灵活的视频制作方式。

开源链接:

github:https://github.com/Wan-Video/Wan2.1

modelscope:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

首尾帧模型效果

万相首尾帧模型能够完美复刻输入图像的细节,而且生成的视频具有非常生动真实的动作

image.gif 编辑

提示词:“写实风格,脸部特写,一个红发碧眼的小女孩,镜头微微左移,记录她被阴影遮住的侧脸。”

https://live.csdn.net/v/475085

image.gif 编辑

 

提示词:“写实风格,一只剑齿虎在森林中移动,它看向镜头后转身离开。”

https://live.csdn.net/v/475086

在输入内容跨度比较大的情况下,万相首尾帧也能实现丝滑的画面过渡。

image.gif 编辑

 

提示词:“二次元风格,一艘巨大的宇宙飞船向从左向右移动,飞船上的蓝色灯光逐渐熄灭,镜头下方的人物走向飞船。”https://live.csdn.net/v/475087

image.gif 编辑

提示词:“写实风格,海底世界,一名潜水员向前游动,直到水与火的交界处,镜头紧紧跟随他的背影。”

https://live.csdn.net/v/475088

在一些具有创意性的测试用例上,万相首尾帧模型也能完美胜任

image.gif 编辑

https://live.csdn.net/v/475089

提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”

万相首尾帧对提示词的遵循上也有着出色的表现

image.gif 编辑

 

提示词:“卡通风格,一个打着红色雨伞的蓝色卡通人物站在雨中。它的眼神充满忧郁”

https://live.csdn.net/v/475090

在一些特效变换上,万相首尾帧能跟实现炫酷的过渡效果

image.gif 编辑

 

 

提示词:“奇幻风格,一个蓝色的漩涡,镜头逐渐拉远,漩涡逐渐变成一朵蓝色的莲花。”

https://live.csdn.net/v/475091

模型架构

万相发布的Wan2.1系列模型,采用了先进的DiT架构,在技术上实现了多项突破。其中,高效的视频压缩VAE模型显著降低了运算成本,让高清视频生成更加高效且经济。同时,模型的Transformer部分基于主流的视频DiT结构,通过Full Attention机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性。

image.gif 编辑

万相模型结构图

本次发布的首尾帧模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。具体而言,首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。该序列进一步与噪声及掩码(mask)进行拼接,最终作为扩散变换模型(DiT)的输入。此外,为实现画面稳定性控制,万相首尾帧模型提取了首帧和尾帧的CLIP语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到DiT的生成过程中。

image.gif 编辑

万相首尾帧模型架构图

训练以及推理优化

万相首尾帧模型仍然采用了基于线性噪声轨迹的流匹配(Flow Matching)方法。在训练阶段,对于文本与视频编码模块,我们采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略;而对于扩散变换模型(DiT)模块,我们则运用了数据并行(DP)、完全分片数据并行(FSDP)、环形注意力机制(RingAttention)以及Ulysses混合的并行策略。这些并行策略使得模型能够支持分辨率为720p、时长为5秒的视频切片训练。

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略。此外,万相首尾帧模型采用了效果无损的步骤间缓存和CFG cache方法,以及在部分层(如qkvo投影层和前馈网络FFN)中使用FP8 GEMM运算,同时实现了FlashAttention3 INT8与FP8混合算子以对注意力机制部分进行8比特量化。在确保推理效果无损的前提下,这些优化措施显著缩短了推理时间。

数据

万相首尾帧模型的训练过程分为三个阶段。第一阶段在训练过程中采用了与基模型相同的数据集,并在480p分辨率下对图生视频、任意位置插帧、视频续写以及首尾帧模型进行了混合训练。该阶段使模型学习到了有效的掩码(mask)机制。第二阶段构建了专门用于首尾帧模式的训练数据,筛选出首帧与尾帧内容差异较大的视频片段。在这一阶段,训练继续在480p分辨率下进行,且仅专注于首尾帧模型的训练。在第三阶段中,采用了高质量的专为首尾帧训练构建的数据集,并且在720p分辨率下进行训练。

使用DiffSynth-Studio进行模型推理

魔搭社区的DiffSynth-Studio项目是社区针对AIGC模型生态,提供的全链路的推理和训练优化的开源工具(https://github.com/modelscope/DiffSynth-Studio)。我们在第一时间也支持了Wan2.1首尾帧模型,开发者可以基于 DiffSynth-Studio 实现方便的推理。

首先,下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

image.gif

运行推理代码,模型会自动下载,输入参数可直接在代码中修改:

python examples/wanvideo/wan_14B_flf2v.py

image.gif

同时DiffSynth-Studio还支持对于模型显存的精准控制。可以让模型推理在显存较小的GPU上也能跑起来。具体而言,在代码中,我们提供了num_persistent_param_in_dit参数,来控制推理过程中常驻显存的参数量。该数值越大,则常驻参数越多,显存需求越大,同时推理速度也越快。当该参数为None 时,则表示无限制。对于显存较少的 GPU,可以将num_persistent_param_in_dit从默认的None,修改为较小的数值。

实际推理过程使用的显存需求,会与num_persistent_param_in_dit、分辨率、帧数有关。以 81 帧 960 * 960 分辨率的视频为例,

  • 设置num_persistent_param_in_dit=None时需要46G显存
  • 设置num_persistent_param_in_dit=4*10**9时需要24G显存,但推理速度会有所下降。
目录
相关文章
|
15天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
111 2
|
15天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
594 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
316 2
|
26天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1701 89
|
27天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
775 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
226 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
15天前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
319 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
23天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
186 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
12天前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
276 0

热门文章

最新文章