通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。

今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。

体验链接:https://www.modelscope.cn/studios/Wan-AI/Wan2.2-S2V

github: https://github.com/Wan-Video/

模型链接:https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B

 

image.gif 编辑

📎[good]Everybody_Wants_To_Rule_the_World_Everybody_Wants_To_Rule_the_World_27250_cfg_4.5_shift_3.mp4

模型介绍

Wan2.2-S2V接收单张静态图像和音频输入,生成与音频同步的高质量视频。通义团队针对复杂场景的视频生成优化,在复杂的电影和电视剧场景中表现出色,能够呈现逼真的视觉效果,包括生成自然的面部表情、肢体动作和专业的镜头运用。同时支持全身与半身角色生成,可高质量地完成对白、演唱及表演等多种专业级内容创作需求。

技术特点:

  1. 扩展音频驱动生成到复杂场景:超越传统说话头部生成,能够在多样化和具有挑战性的场景中创建自然且富有表现力的角色运动,结合文本引导的全局运动控制和音频驱动的细粒度局部运动。
  2. 长视频稳定性:通过对层次化帧压缩技术,极大地降低了历史帧的token数量。 通过这种方式我们将motion frames(历史参考帧)的长度拓展到73帧(传统方法受计算复杂度限制只能支持几帧的motion frames),从而实现了稳定的长视频生成效果。
  3. 全面的训练数据和应用探索:针对影视剧场景构建了大规模的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。训练阶段通过多分辨率训练,支持模型多分辨率的推理,从而能够支持不同分辨率场景的视频生成需求, 如竖屏短视频,横屏影视剧。

模型架构

给定单张参考图,输入的音频和文本用来描述视频内容,模型会保留参考图的内容,生成与输入音频同步的视频。生成的视频第一帧不一定跟输入的参考图一样,因为模型只约束生成的视频保留参考图的内容,而不是从参考图作为首帧开始生成。模型的原始输入会被提取为多帧噪声隐向量,训练时的每个时间步对连续的视频隐向量去除噪声。测试时,模型同时接收音频、文本和参考图的条件输入,从噪声开始不断去噪生成最终的视频。

 

image.gif 编辑

音频驱动的视频模型架构

 

image.gif 编辑

音频信息的注入流程

数据精制流程

通义团队通过大规模数据集(OpenHumanVid、Koala36M)的自动筛选和高质量样本的手动策划策略,专注于收集处理包含人类角色参与特定活动(如说话、歌唱、跳舞)的视频,创建了一个包含数百万以人为中心的视频样本的综合数据集。

 

image.gif 编辑

结构化视频精制流程

评估指标

通义团队在EMTD数据集上进行了定量评估,与多个最先进方法比较,Wan2.2-S2V-14B模型在多个指标上实现了卓越性能。

 

image.gif 编辑

定量比较结果

示例效果

长视频的动态主体一致性保持

Wan2.2-S2V可以在生成长视频时确保主体的一致性,并在更长的视频持续时间内保持流畅自然的动态。

📎[good]Five_Hundred_Miles_Five_Hundred_Miles_27250_.mp4

电影级音频驱动

Wan2.2-S2V能够生成电影级质量的视频, 实现电影对话的合成和叙事场景的重现。

提示词: "在视频中,一个穿着西装的男人坐在沙发上。他向前倾身,似乎想要劝阻对面的人。他以严肃的关切表情对对面的人说话。"

📎10_盗梦空间_10_盗梦空间_1010_shift_3.mp4

提示词: "视频显示一群修女在教堂里唱圣歌。天空散发着波动的金光,金色粉末从天空落下。她们穿着传统的黑色长袍和白色头巾,整齐地排成一行,双手合十放在胸前。她们的表情庄严而虔诚,仿佛在进行某种宗教仪式或祈祷。修女们的眼睛向上看,表现出极大的专注和敬畏,仿佛在与神灵对话。"

📎[good]crucified_crucified_27150_cfg_4.5_shift_3.mp4

更强的指令遵循 ,运动与环境可控

能够根据指令生成视频中人物的动作及环境因素,从而创作出更贴合主题的视频内容。

提示词: "在视频中,一个男子拿着苹果说话,他咬了一口苹果。"

📎单人-说话-动作控制-音频align.mp4

模型推理

官方GitHub代码的推理支持单卡和多卡,推荐使用A100以上规格的显卡运行,单卡运行显存占用60G左右。

环境与代码安装

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt

image.gif

模型下载

cd Wan2.2
modelscope download --model Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B

image.gif

单卡推理

python generate.py  --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard."  --image "examples/i2v_input.JPG" --audio "examples/talk.wav"
# Without setting --num_clip, the generated video length will automatically adjust based on the input audio length

image.gif

多卡推理

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard." --image "examples/i2v_input.JPG" --audio "examples/talk.wav"

image.gif

目录
相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
248 2
|
2月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
703 2
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1361 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
518 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
存储 自然语言处理 搜索推荐
从音频与照片生成数字人视频:阿里云百炼工作流打造“超级数字人”全流程解析
阿里云百炼上线通义万相2.2数字人视频生成模型S2V,支持音频+单张人像生成个性化数字人视频。结合Qwen-TTS、Qwen-Image与IMS智能剪辑,打造从内容生成到视频输出的全自动“超级数字人”工作流,大幅提升制作效率与质量。
1052 2
|
2月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
561 21

热门文章

最新文章