通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!

通义万相不久前发布的Wan2.1视频模型作为生成领域的一项突破性成果,正以令人瞩目的姿态走入大众视野。凭借其卓越的技术表现和广泛的应用潜力,这款模型迅速赢得了业界的高度关注。无论是画面细节的精致呈现,还是动态效果的自然流畅,Wan2.1都展现出了非凡的实力。在Wan2.1文生视频大模型的助力下,通义万相也同期发布了图生视频模型和1.3B参数的小型化模型。这一系列更新,不仅丰富了内容创作的工具库,也为不同场景的应用提供了更灵活的选择。截止目前,Wan2.1 github star 超1w,全网下载数超过220w。

今天,万相再次发布一个令人兴奋的更新——首尾帧生视频模型正式开源!用户只需提供首帧和尾帧,模型便能自动生成丝滑流畅的过渡效果,让画面在起始与终点之间自然演变。基于Wan2.1文生视频14B大模型,万相提供的首尾帧模型支持生成时长5s的720p高清视频,为创作者们带来了更高效、更灵活的视频制作方式。

开源链接:

github:https://github.com/Wan-Video/Wan2.1

modelscope:https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

首尾帧模型效果

万相首尾帧模型能够完美复刻输入图像的细节,而且生成的视频具有非常生动真实的动作

image.gif 编辑

提示词:“写实风格,脸部特写,一个红发碧眼的小女孩,镜头微微左移,记录她被阴影遮住的侧脸。”

https://live.csdn.net/v/475085

image.gif 编辑

 

提示词:“写实风格,一只剑齿虎在森林中移动,它看向镜头后转身离开。”

https://live.csdn.net/v/475086

在输入内容跨度比较大的情况下,万相首尾帧也能实现丝滑的画面过渡。

image.gif 编辑

 

提示词:“二次元风格,一艘巨大的宇宙飞船向从左向右移动,飞船上的蓝色灯光逐渐熄灭,镜头下方的人物走向飞船。”https://live.csdn.net/v/475087

image.gif 编辑

提示词:“写实风格,海底世界,一名潜水员向前游动,直到水与火的交界处,镜头紧紧跟随他的背影。”

https://live.csdn.net/v/475088

在一些具有创意性的测试用例上,万相首尾帧模型也能完美胜任

image.gif 编辑

https://live.csdn.net/v/475089

提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”

万相首尾帧对提示词的遵循上也有着出色的表现

image.gif 编辑

 

提示词:“卡通风格,一个打着红色雨伞的蓝色卡通人物站在雨中。它的眼神充满忧郁”

https://live.csdn.net/v/475090

在一些特效变换上,万相首尾帧能跟实现炫酷的过渡效果

image.gif 编辑

 

 

提示词:“奇幻风格,一个蓝色的漩涡,镜头逐渐拉远,漩涡逐渐变成一朵蓝色的莲花。”

https://live.csdn.net/v/475091

模型架构

万相发布的Wan2.1系列模型,采用了先进的DiT架构,在技术上实现了多项突破。其中,高效的视频压缩VAE模型显著降低了运算成本,让高清视频生成更加高效且经济。同时,模型的Transformer部分基于主流的视频DiT结构,通过Full Attention机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性。

image.gif 编辑

万相模型结构图

本次发布的首尾帧模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。具体而言,首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。该序列进一步与噪声及掩码(mask)进行拼接,最终作为扩散变换模型(DiT)的输入。此外,为实现画面稳定性控制,万相首尾帧模型提取了首帧和尾帧的CLIP语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到DiT的生成过程中。

image.gif 编辑

万相首尾帧模型架构图

训练以及推理优化

万相首尾帧模型仍然采用了基于线性噪声轨迹的流匹配(Flow Matching)方法。在训练阶段,对于文本与视频编码模块,我们采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略;而对于扩散变换模型(DiT)模块,我们则运用了数据并行(DP)、完全分片数据并行(FSDP)、环形注意力机制(RingAttention)以及Ulysses混合的并行策略。这些并行策略使得模型能够支持分辨率为720p、时长为5秒的视频切片训练。

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,万相首尾帧模型分别采用了模型切分策略以及序列并行策略。此外,万相首尾帧模型采用了效果无损的步骤间缓存和CFG cache方法,以及在部分层(如qkvo投影层和前馈网络FFN)中使用FP8 GEMM运算,同时实现了FlashAttention3 INT8与FP8混合算子以对注意力机制部分进行8比特量化。在确保推理效果无损的前提下,这些优化措施显著缩短了推理时间。

数据

万相首尾帧模型的训练过程分为三个阶段。第一阶段在训练过程中采用了与基模型相同的数据集,并在480p分辨率下对图生视频、任意位置插帧、视频续写以及首尾帧模型进行了混合训练。该阶段使模型学习到了有效的掩码(mask)机制。第二阶段构建了专门用于首尾帧模式的训练数据,筛选出首帧与尾帧内容差异较大的视频片段。在这一阶段,训练继续在480p分辨率下进行,且仅专注于首尾帧模型的训练。在第三阶段中,采用了高质量的专为首尾帧训练构建的数据集,并且在720p分辨率下进行训练。

使用DiffSynth-Studio进行模型推理

魔搭社区的DiffSynth-Studio项目是社区针对AIGC模型生态,提供的全链路的推理和训练优化的开源工具(https://github.com/modelscope/DiffSynth-Studio)。我们在第一时间也支持了Wan2.1首尾帧模型,开发者可以基于 DiffSynth-Studio 实现方便的推理。

首先,下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .

image.gif

运行推理代码,模型会自动下载,输入参数可直接在代码中修改:

python examples/wanvideo/wan_14B_flf2v.py

image.gif

同时DiffSynth-Studio还支持对于模型显存的精准控制。可以让模型推理在显存较小的GPU上也能跑起来。具体而言,在代码中,我们提供了num_persistent_param_in_dit参数,来控制推理过程中常驻显存的参数量。该数值越大,则常驻参数越多,显存需求越大,同时推理速度也越快。当该参数为None 时,则表示无限制。对于显存较少的 GPU,可以将num_persistent_param_in_dit从默认的None,修改为较小的数值。

实际推理过程使用的显存需求,会与num_persistent_param_in_dit、分辨率、帧数有关。以 81 帧 960 * 960 分辨率的视频为例,

  • 设置num_persistent_param_in_dit=None时需要46G显存
  • 设置num_persistent_param_in_dit=4*10**9时需要24G显存,但推理速度会有所下降。
相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
目录
相关文章
|
8天前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
266 68
|
9天前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
101 17
|
7天前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
17天前
|
Kubernetes 调度 开发者
qwen模型 MindIE PD分离部署问题定位
使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:model instance has been finalized or not initialized。
88 1
|
22天前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
381 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
22天前
|
机器学习/深度学习 人工智能 API
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
Qwen3是阿里巴巴推出的新一代大型语言模型,支持119种语言和两种推理模式,采用四阶段训练流程和Apache 2.0协议开源,提供从0.6B到235B的多种模型配置。
275 19
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
|
22天前
|
人工智能 语音技术 iOS开发
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
Kimi-Audio是月之暗面推出的开源音频基础模型,基于1300万小时多样化音频数据训练,采用混合输入架构和流式解码技术,支持语音识别、情感分析等十余种音频处理任务。
244 14
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
|
15天前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
8天前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
192 7
|
7天前
|
数据采集 人工智能 自然语言处理
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
57 4