StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架

简介: StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 身份保持的视频合成:StableAnimator能够根据提供的参考图像和姿态序列,合成保持人物身份一致性的视频内容。
  2. 无需后处理:与传统的动画模型不同,StableAnimator无需依赖任何后处理工具,即可生成高质量动画。
  3. 高保真度:框架直接生成的视频具有高保真度,细节丰富,接近真实世界的人物动态和外观。

正文(附运行示例)

StableAnimator 是什么

公众号: 蚝油菜花 - StableAnimator

StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。StableAnimator框架基于计算图像和面部嵌入、用全局内容感知面部编码器优化面部信息、引入分布感知ID适配器减少时间层干扰,在推理阶段采用基于Hamilton-Jacobi-Bellman方程的优化方法提升面部质量。

StableAnimator 的主要功能

  • 身份保持的视频合成:StableAnimator能根据提供的参考图像和姿态序列,合成保持人物身份一致性的视频内容。
  • 无需后处理:与传统的动画模型不同,StableAnimator无需依赖任何后处理工具,即可生成高质量动画。
  • 高保真度:框架直接生成的视频具有高保真度,细节丰富,接近真实世界的人物动态和外观。
  • 端到端框架:作为一个端到端的视频扩散框架,StableAnimator集成训练和推理模块,确保在整个动画生成过程中保持身份一致性。

StableAnimator 的技术原理

  • 图像和面部嵌入:StableAnimator使用现成的提取器分别计算图像和面部嵌入,为后续的身份保持提供基础特征。
  • 全局内容感知面部编码器:基于与图像嵌入的交互,面部编码器能进一步优化面部特征,增强模型对参考图像全局布局的感知能力。
  • 分布感知ID适配器:这一新颖组件能防止由于时间层引起的干扰,同时基于对齐操作保留身份信息,确保视频帧间的身份一致性。
  • Hamilton-Jacobi-Bellman (HJB) 方程优化:在推理阶段,基于HJB方程进行面部优化,进一步增强面部质量。基于与扩散去噪过程相结合,用优化路径引导模型朝着最佳的身份一致性方向发展。
  • 集成到扩散去噪过程:HJB方程的解决方案被集成到扩散去噪过程中,让去噪路径受到约束,有利于身份信息的保持。
  • 多路径处理:参考图像基于三个路径处理:VAE编码、CLIP图像编码和Arcface面部编码,将信息用在调制合成外观和确保身份一致性。

如何运行 StableAnimator

环境设置

推荐使用Python 3+和PyTorch 2.x,验证环境为Nvidia V100 GPU。建议使用Docker镜像进行环境配置。

pip install -r requirements.txt
conda install xformers -c xformers -y
pip install onnxruntime-gpu==1.17.0 --index-url=https://pkgs.dev.azure.com/onnxruntime/onnxruntime/_packaging/onnxruntime-cuda-12/pypi/simple

下载权重

如果遇到Hugging Face连接问题,可以使用镜像端点:

export HF_ENDPOINT=https://hf-mirror.com

下载权重:

cd StableAnimator/
mkdir checkpoints

权重组织结构:

checkpoints/
├── DWPose
│   ├── dw-ll_ucoco_384.onnx
│   └── yolox_l.onnx
├──Animation
│   ├── pose_net.pth
│   ├── face_encoder.pth
│   └── unet.pth
├──SVD
│   └── stable-video-diffusion-img2vid-xt
│       ├── feature_extractor
│       ├── image_encoder
│       ├── scheduler
│       ├── unet
│       ├── vae
│       ├── model_index.json
│       ├── svd_xt.safetensors
│       └── svd_xt_image_decoder.safetensors

模型推理

示例配置文件command_basic_infer.sh

bash command_basic_infer.sh

生成高质量MP4文件:

cd animated_images
ffmpeg -framerate 20 -i frame_%d.png -c:v libx264 -crf 10 -pix_fmt yuv420p /path/animation.mp4

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据安全/隐私保护 开发者 异构计算
阿里巴巴开源可控视频生成框架VideoComposer!(内含体验、推理实践干货)
8月16日,时间、空间可控的视频生成模型 VideoComposer 在魔搭社区开源。
阿里巴巴开源可控视频生成框架VideoComposer!(内含体验、推理实践干货)
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
2181 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
机器学习/深度学习 人工智能 芯片
极智AI | 谈谈为什么量化能加速推理
本文主要讨论一下为什么量化能加速模型推理。
1082 0
|
7月前
|
API vr&ar 索引
1张照片 2秒钟 一键变身3D数字人
LHM是一种基于单视角图像的端到端Transformer模型,结合SMPL-X人体模型与高斯渲染技术,可从一张照片生成可驱动的3D数字人。它采用Vision Transformer和Mae模型提取特征,并通过Body-Head Transformer融合2D与3D信息,输出具有动作能力的高精度3D人体模型。应用于动作重现、游戏角色生成及虚拟现实等领域,代码已开源并提供在线体验入口。
837 1
|
安全 应用服务中间件 数据安全/隐私保护
企业实战(5) Docker私有镜像仓库Harbor的部署与使用详解
企业实战(5) Docker私有镜像仓库Harbor的部署与使用详解
838 0
|
8月前
|
人工智能 API
阿里巴巴发布开源视频编辑全功能模型Wan2.1-VACE,视频创作迎来"全能选手"!
阿里巴巴发布的开源模型Wan2.1-VACE,作为“万相2.1”系列成员,是业内首个视频生成与编辑统一解决方案。该多合一AI模型支持文本、图像和视频的多模态输入,提供视频生成、局部编辑、画面延展等功能,大幅提升创作效率。借助创新技术如“视频条件单元”和“上下文适配”,Wan2.1-VACE可广泛应用于短视频制作、广告营销等领域。模型已上线Hugging Face等平台,免费下载使用,助力AI普惠。
1492 0
|
2月前
|
XML 算法 安全
详解RAG五种分块策略,技术原理、优劣对比与场景选型之道
RAG通过检索与生成结合,提升大模型在企业场景的准确性与安全性。分块策略是其核心,直接影响检索效果与回答质量。本文系统解析五种主流分块方法:固定大小、语义、递归、基于文档结构及LLM分块,对比其优缺点与适用场景,并提出组合优化路径,助力构建高效、可信的RAG系统。
|
6月前
|
数据可视化
和平精英脚本,王者荣耀脚本,autojs最新开源代码
采用模块化设计,包含通用功能、和平精英和王者荣耀三大 实现贝塞尔曲线滑动模拟真人操作,降低封号风险
|
机器学习/深度学习 负载均衡 数据可视化
性能比肩最强开源,QwQ-32B一键部署,百万Token免费送!
本文介绍如何通过百炼平台调用QwQ-32B开源模型。百炼平台提供的标准化 API 接口,免去了自行构建模型服务基础设施的麻烦,并支持负载均衡及自动扩缩容,确保了 API 调用的高稳定性。此外,结合使用 Chatbox 可视化界面客户端,用户无需进行命令行操作,即可通过直观的图形界面轻松完成 QwQ 模型的配置与使用。
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
2972 17
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局

热门文章

最新文章