通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。

今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。

体验链接:https://www.modelscope.cn/studios/Wan-AI/Wan2.2-S2V

github: https://github.com/Wan-Video/

模型链接:https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B

 

image.gif 编辑

📎[good]Everybody_Wants_To_Rule_the_World_Everybody_Wants_To_Rule_the_World_27250_cfg_4.5_shift_3.mp4

模型介绍

Wan2.2-S2V接收单张静态图像和音频输入,生成与音频同步的高质量视频。通义团队针对复杂场景的视频生成优化,在复杂的电影和电视剧场景中表现出色,能够呈现逼真的视觉效果,包括生成自然的面部表情、肢体动作和专业的镜头运用。同时支持全身与半身角色生成,可高质量地完成对白、演唱及表演等多种专业级内容创作需求。

技术特点:

  1. 扩展音频驱动生成到复杂场景:超越传统说话头部生成,能够在多样化和具有挑战性的场景中创建自然且富有表现力的角色运动,结合文本引导的全局运动控制和音频驱动的细粒度局部运动。
  2. 长视频稳定性:通过对层次化帧压缩技术,极大地降低了历史帧的token数量。 通过这种方式我们将motion frames(历史参考帧)的长度拓展到73帧(传统方法受计算复杂度限制只能支持几帧的motion frames),从而实现了稳定的长视频生成效果。
  3. 全面的训练数据和应用探索:针对影视剧场景构建了大规模的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。训练阶段通过多分辨率训练,支持模型多分辨率的推理,从而能够支持不同分辨率场景的视频生成需求, 如竖屏短视频,横屏影视剧。

模型架构

给定单张参考图,输入的音频和文本用来描述视频内容,模型会保留参考图的内容,生成与输入音频同步的视频。生成的视频第一帧不一定跟输入的参考图一样,因为模型只约束生成的视频保留参考图的内容,而不是从参考图作为首帧开始生成。模型的原始输入会被提取为多帧噪声隐向量,训练时的每个时间步对连续的视频隐向量去除噪声。测试时,模型同时接收音频、文本和参考图的条件输入,从噪声开始不断去噪生成最终的视频。

 

image.gif 编辑

音频驱动的视频模型架构

 

image.gif 编辑

音频信息的注入流程

数据精制流程

通义团队通过大规模数据集(OpenHumanVid、Koala36M)的自动筛选和高质量样本的手动策划策略,专注于收集处理包含人类角色参与特定活动(如说话、歌唱、跳舞)的视频,创建了一个包含数百万以人为中心的视频样本的综合数据集。

 

image.gif 编辑

结构化视频精制流程

评估指标

通义团队在EMTD数据集上进行了定量评估,与多个最先进方法比较,Wan2.2-S2V-14B模型在多个指标上实现了卓越性能。

 

image.gif 编辑

定量比较结果

示例效果

长视频的动态主体一致性保持

Wan2.2-S2V可以在生成长视频时确保主体的一致性,并在更长的视频持续时间内保持流畅自然的动态。

📎[good]Five_Hundred_Miles_Five_Hundred_Miles_27250_.mp4

电影级音频驱动

Wan2.2-S2V能够生成电影级质量的视频, 实现电影对话的合成和叙事场景的重现。

提示词: "在视频中,一个穿着西装的男人坐在沙发上。他向前倾身,似乎想要劝阻对面的人。他以严肃的关切表情对对面的人说话。"

📎10_盗梦空间_10_盗梦空间_1010_shift_3.mp4

提示词: "视频显示一群修女在教堂里唱圣歌。天空散发着波动的金光,金色粉末从天空落下。她们穿着传统的黑色长袍和白色头巾,整齐地排成一行,双手合十放在胸前。她们的表情庄严而虔诚,仿佛在进行某种宗教仪式或祈祷。修女们的眼睛向上看,表现出极大的专注和敬畏,仿佛在与神灵对话。"

📎[good]crucified_crucified_27150_cfg_4.5_shift_3.mp4

更强的指令遵循 ,运动与环境可控

能够根据指令生成视频中人物的动作及环境因素,从而创作出更贴合主题的视频内容。

提示词: "在视频中,一个男子拿着苹果说话,他咬了一口苹果。"

📎单人-说话-动作控制-音频align.mp4

模型推理

官方GitHub代码的推理支持单卡和多卡,推荐使用A100以上规格的显卡运行,单卡运行显存占用60G左右。

环境与代码安装

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt

image.gif

模型下载

cd Wan2.2
modelscope download --model Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B

image.gif

单卡推理

python generate.py  --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard."  --image "examples/i2v_input.JPG" --audio "examples/talk.wav"
# Without setting --num_clip, the generated video length will automatically adjust based on the input audio length

image.gif

多卡推理

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard." --image "examples/i2v_input.JPG" --audio "examples/talk.wav"

image.gif

目录
相关文章
|
4天前
|
机器学习/深度学习 编解码 人工智能
面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
今天,面壁智能正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。
93 9
|
3天前
|
机器学习/深度学习 人工智能 数据处理
混元开源又+1:视频音效可以自动生成了
AI生成的视频音效,已经可以用于视频制作了。
105 32
混元开源又+1:视频音效可以自动生成了
|
6天前
|
测试技术 Swift 开发者
可调节推理预算,字节Seed团队开源大型语言模型 Seed-OSS 系列!
字节跳动 Seed 团队正式发布了 Seed-OSS 系列开源大型语言模型,提供强大的长上下文、推理、代理和通用功能,以及对开发者友好的多功能特性。
110 9
|
14天前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
146 1
|
10天前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运维效率,赋能智能投顾服务创新,引领行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
7天前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
261 42
|
24天前
|
Web App开发 人工智能 自然语言处理
从搜索到执行,全自动|AutoHub重塑ModelScope使用体验
自 2022 年 11 月成立以来,魔搭社区(ModelScope)已迅速成长为中国最大 AI 开源平台。 目前,社区已托管超 7 万个开源模型,覆盖大语言模型(LLM)、对话、语音、图像生成、视频生成、AI 作曲等多个领域;支持模型的 体验、下载、调优、训练、推理与部署全流程操作。
122 0
|
27天前
|
边缘计算 测试技术 数据格式
小体积,大潜力 - 腾讯混元Dense模型多尺寸正式开源
混元是腾讯开源的高效大型语言模型系列,旨在在各种计算环境中灵活部署。从边缘设备到高并发生产系统,这些模型通过先进的量化支持和超长上下文能力提供了最佳性能。
142 0

热门文章

最新文章