通义万相首尾帧图模型一键生成特效视频!

简介: 本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。

案例展示

首帧

image.png

尾帧

image.png

提示词:“黑暗的环境,一群人站成一列,背对镜头,站在一束光前,镜头上移,俯拍出光源全貌。”

image.png

首帧

image.png

尾帧

image.png

提示词:“漫画风格,黑暗中,一个男人正在看向一束光,镜头逐渐拉远,展现出四周都是楼梯的环境全貌。”

image.png

image.png

模型架构

阿里通义发布的 Wan2.1 系列模型,采用了先进的 DiT 架构,在技术上实现了多项突破。其中,高效的视频压缩 VAE 模型显著降低了运算成本,让高清视频生成更加高效且经济。同时,模型的Transformer部分基于主流的视频DiT结构,通过Full Attention机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性。

image.png

通义万相模型结构图

本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。具体而言,首帧与尾帧同若干零填充的中间帧拼接,构成控制视频序列。该序列进一步与噪声及掩码(mask)进行拼接,最终作为扩散变换模型(DiT)的输入。

此外,为实现画面稳定性控制,通义万相首尾帧生视频模型提取了首帧和尾帧的 CLIP 语义特征,并通过交叉注意力机制(Cross-Attention Mechanism)将其注入到 DiT 的生成过程中。

image.png

万相首尾帧模型架构图

训练及推理优化

万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配(Flow Matching)方法。在训练阶段,对于文本与视频编码模块,我们采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略;对于扩散变换模型(DiT)模块,我们运用了数据并行(DP)、完全分片数据并行(FSDP)、环形注意力机制(RingAttention)以及Ulysses混合的并行策略。这些并行策略使得模型能够支持分辨率为720p、时长为5秒的视频切片训练。

在推理阶段,为了在有限内存资源的条件下支持高清视频推理,通义万相首尾帧生视频模型分别采用了模型切分策略以及序列并行策略。此外,通义万相首尾帧生视频模型采用了效果无损的步骤间缓存和CFG cache方法,以及在部分层(如qkvo投影层和前馈网络FFN)中使用FP8 GEMM运算,同时实现了FlashAttention3 INT8与FP8混合算子以对注意力机制部分进行8比特量化。在确保推理效果无损的前提下,这些优化措施显著缩短了推理时间。

数据驱动训练过程

模型的训练分为三个阶段,逐步对能力进行提升:

  • 第一阶段:使用与基模型相同的数据集,在480p分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练,帮助模型掌握有效的掩码(mask)机制。
  • 第二阶段:构建专门用于首尾帧模式的训练数据,筛选出首尾帧差异较大的视频片段,在480p分辨率下专注于优化首尾帧生成能力。
  • 第三阶段:采用高精度数据集,在720p分辨率下完成最终训练,确保生成视频的细节复刻与动作流畅性达到最佳水平。


基于通义万相首尾帧生视频模型的强大能力,它不仅能完美复刻输入图像的细节,还能生成具有生动真实动作的视频。目前,通义万相首尾帧生视频模型已同步在GitHub开源。

如果有需要了解Wan2.1具体技术详情信息,可以👉 查看Wan2.1技术资料

⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png


相关文章
|
9月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
758 2
|
8月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
1151 120
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1186 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
9月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1831 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
8月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
2261 2
|
8月前
|
存储 机器学习/深度学习 人工智能
54_模型优化:大模型的压缩与量化
随着大型语言模型(LLM)的快速发展,模型规模呈指数级增长,从最初的数亿参数到如今的数千亿甚至万亿参数。这种规模扩张带来了惊人的能源消耗和训练成本,同时也给部署和推理带来了巨大挑战。2025年,大模型的"瘦身"已成为行业发展的必然趋势。本文将深入剖析大模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让大模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。
769 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
38_多模态模型:CLIP的视觉-语言对齐_深度解析
想象一下,当你看到一张小狗在草地上奔跑的图片时,你的大脑立刻就能将视觉信息与"小狗"、"草地"、"奔跑"等概念联系起来。这种跨模态的理解能力对于人类来说似乎是理所当然的,但对于人工智能系统而言,实现这种能力却经历了长期的技术挑战。多模态学习的出现,标志着AI从单一模态处理向更接近人类认知方式的综合信息处理迈出了关键一步。
1316 0
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1369 109

热门文章

最新文章