Wan2.2再次开源数字人:Animate-14B!一键实现电影角色替换和动作驱动

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。


引言

今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。

这是一款可以实现动作捕捉的模型——可以让任意角色,精准复刻高难度舞蹈动作,或复刻影视剧表演,精准还原表情神态。

动作捕捉:

http://mpvideo.qpic.cn/0bc364abiaaataapg5omobufb56dct3qafaa.f10002.mp4?dis_k=ab11ffa0d408efd23fade2ea7c050984&dis_t=1758269937&play_scene=10600&auth_info=Pum1kBcvVWS3somvD3FuEmtlHWdmbU05MFJrHQU4O0UYFiAlNT9tfA==&auth_key=c7fd540cc74becab3669d88ac11ffbfe

这也是一款可以实现角色替换的模型——可以让将视频中的角色替换任意角色,精确保留原始视频的动作、表情以及环境。

角色替换:

http://mpvideo.qpic.cn/0b2exyeekaaiduakeh6ennufrpwdiw7aqria.f10002.mp4?dis_k=b0a154326c22b89eb8225f9e2966224e&dis_t=1758269924&play_scene=10600&auth_info=BdPdq8NSaFUcmZvosXpxb1kuZ0QEGntwMVguHBFpF3g8cU5IMmF4bQQ=&auth_key=cd05c7c49ad6e7521717e598311a5cae

魔搭体验链接:https://modelscope.cn/studios/Wan-AI/Wan2.2-Animate

image.gif 编辑

 

 

开源地址:

github: https://github.com/Wan-Video/Wan2.2

模型链接:https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B

 

模型介绍

给定一个角色图像和一个参考视频,Wan-Animate 支持两个模式:Animation和Replacement。

Animation:实现动作捕捉,它将参考视频中角色的动作和表情迁移到静态的图像上,以驱动角色实现动画效果。

Replacement:实现角色替换,它将参考视频中的角色替换为参考图像的角色,保证角色的身体动作、面部表情,并与环境的光影/色调融合。

 

image.gif 编辑

技术特点与优势

  • 同一模型支持Animation、Replacement两种场景
  • 对不同类型的角色(不同年龄的人类、类人的卡通角色等)支持良好
  • Replacement支持复杂的光影融合,替换违和感低,具备电影级的生成质量
  • 开源了完整的动作retarget(pose transfer)能力,有助于各类pose驱动模型的效果提升

 

模型架构: 统一双模态的条件生成框架

Wan-Animate 基于 Wan-I2V 构建,通义万相团队对其输入形式进行了调整,将参考图像、时序帧引导和环境信息(为支持双模式兼容)统一到一套通用的符号化表示框架下。在身体动作控制方面采用骨骼信号,并通过空间对齐进行融合。在面部表情控制方面,提取人脸图像中的隐式特征作为驱动信号。此外,为实现角色替换功能,额外训练了一个辅助的“重光照 LoRA”,以增强角色与新环境的融合效果。

输入构造:通用的符号化表示框架

模型输入由三部分构成:噪声隐向量、条件隐向量和二值掩码。参考图像经 Wan-VAE 编码后,与条件隐向量沿时序拼接,作为角色外观信息注入。输入视频中随机选取前几帧作为时序潜在表示,用于提供时序连续性。模型通过二值掩码控制生成区域,在Animate模式下,与目标帧对应的条件帧被置零,其关联的二值掩码也全部设为0,Wan-Animate 在保留给定参考图像背景的前提下生成角色视频。在Replace模式下,首先从参考视频中分割出角色,随后通过将分割出的角色区域置零来生成二值掩码,Wan-Animate 仅在掩码为零的区域内生成内容,实现统一输入的双模式的生成。

 

image.gif 编辑

Wan-Animate模型框架

控制信号:骨骼驱动身体,隐式特征驱动面部

控制信号通过Body Adapter和Face Adapter进行条件注入。身体控制使用VitPose提取目标帧中角色的骨架以生成姿势帧,这些姿势帧通过Wan-VAE 进行压缩,以在空间和时间上与目标隐向量对齐。使用投影层将姿势隐向量分块,并将其添加到分块后的噪声隐向量中,人脸图像被编码为帧级隐式潜在表示,随后与DiT 潜在表示进行时间对齐。这些特征通过在每个对应的时间段内运行的交叉注意力机制注入。

 

image.gif 编辑

脸部控制模型结构

Relighting LoRA:轻量微调实现环境光照适配

为解决 Replacement 模式中角色与环境光照不匹配问题,额外引入了一个辅助的重光照LoRA,该模块可在替换过程中进一步调整角色的光照和色彩色调,使其能够适应新的环境。Relighting LoRA 仅应用于DiT 块内的自注意力和交叉注意力层。训练数据通过 IC-Light 合成:将角色抠出后重打光贴至随机背景,模型由此学会在保持身份一致的前提下,自适应调整色调与光照,实现物理合理的环境融合。

 

image.gif 编辑

使用IC-Light进行数据增强的样例

评估指标

通义万相团队建立基准数据集分别进行了定量评估与人工评估,并与多个主流开源框架进行对比。定量评估结果表明,Wan- Animate模型在多个指标上实现了卓越性能。 此外,Wan-Animate 人工评估的结果中也取得了优异表现。

 

image.gif 编辑

 

image.gif 编辑

 

模型推理

官方GitHub代码的推理支持单卡和多卡,推荐使用A100以上规格的显卡运行,单卡运行显存占用60G左右。

环境与代码安装

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt
pip install -r requirements_s2v.txt
pip install -r requirements_animate.txt

image.gif

模型下载

cd Wan2.2
modelscope download --model Wan-AI/Wan2.2-Animate-14B --local_dir ./Wan2.2-Animate-14B

image.gif

单卡推理

python generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/animate/process_results/ --refert_num 1 --base_seed 1234

image.gif

多卡推理

python -m torch.distributed.run --nnodes 1 --nproc_per_node 8 generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/replace/process_results/src_pose.mp4  --refert_num 1 --replace_flag --base_seed 1234 --use_relighting_lora --dit_fsdp --t5_fsdp --ulysses_size 8

image.gif

💡小提示:由于Animate模型训练过程中参数有更新,不太推荐使用以Wan2.2为底训练的LoRA模型。

目录
相关文章
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
2131 0
|
3月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
880 29
|
7月前
|
Web App开发 人工智能 Android开发
5.3K star!硅基生命新纪元,这个开源数字人框架要火!
"只需3分钟视频素材,就能打造专属数字分身!" "开源免费商用,支持安卓/iOS/Web全平台运行" "法律咨询、虚拟陪伴、教育导师...解锁AI数字人无限可能"
450 5
|
8月前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
3415 8
|
9月前
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
790 23
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
AigcPanel 是一款开源的 AI 虚拟数字人系统,支持视频合成、声音克隆等功能,适用于影视制作、虚拟主播、教育培训等多种场景。
1183 12
AigcPanel:开源的 AI 虚拟数字人系统,一键安装开箱即用,支持视频合成、声音合成和声音克隆
|
12月前
|
人工智能 自然语言处理 并行计算
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
3551 5
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
673 5

热门文章

最新文章