DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

简介: DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:DisPose通过骨骼姿态和参考图像提取控制信号,提升人物图像动画质量。
  2. 主要功能:包括运动场引导、关键点对应和即插即用模块,改善视频生成质量和一致性。
  3. 技术原理:基于稀疏和密集运动场估计、关键点特征提取和混合ControlNet,实现高效的动画控制。

正文(附运行示例)

DisPose 是什么

公众号: 蚝油菜花 - DisPose

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的技术,旨在提高人物图像动画的质量。该技术通过从骨骼姿态和参考图像中提取有效的控制信号,生成密集运动场,并保持对不同体型的泛化能力。DisPose的核心在于将姿态控制分解为运动场引导和关键点对应,从而在无需额外密集输入的情况下,显著提升动画的生成质量和一致性。

DisPose还包含一个即插即用的混合ControlNet模块,能够无缝集成到现有的人物图像动画模型中,改善生成视频的质量和一致性。

DisPose 的主要功能

  • 运动场引导:从骨骼姿态生成密集运动场,提供区域级的密集引导,增强视频生成中的动作一致性。
  • 关键点对应:提取与参考图像中姿态关键点对应的扩散特征,将扩散特征转移到目标姿态,保持身份信息的一致性。
  • 即插即用模块:作为插件模块,支持无缝集成到现有的人物图像动画模型中,无需修改现有模型参数。
  • 质量与一致性提升:混合ControlNet改善生成视频的质量和外观一致性。
  • 无需额外密集输入:在不依赖于额外密集输入(如深度图)的情况下工作,减少对参考角色和驱动视频之间身体形状差异的敏感性。

DisPose 的技术原理

  • 运动场估计
  • 稀疏运动场:基于DWpose估计骨骼姿态,表示为轨迹图。
  • 密集运动场:条件运动传播(CMP)基于稀疏运动场和参考图像预测密集运动场,提供更细致的运动信号。
  • 关键点特征提取:使用预训练的图像扩散模型提取参考图像的DIFT特征,并将这些特征与关键点对应起来,形成关键点特征图。
  • 混合ControlNet:设计了混合ControlNet,在训练期间更新,便于将运动场引导和关键点对应无缝集成到现有动画模型中。
  • 特征融合:基于特征融合层将稀疏和密集运动特征结合起来,生成最终的运动场引导信号。
  • 控制信号集成:将运动场引导和关键点对应作为额外的控制信号,注入到潜在的视频扩散模型中,生成准确的人物图像动画。

如何运行 DisPose

环境配置

1. 创建并激活conda环境:

conda create -n dispose python==3.10
conda activate dispose
pip install -r requirements.txt

2. 下载模型权重并放置在指定目录:

./pretrained_weights/
|-- MimicMotion_1-1.pth
|-- DisPose.pth
|-- dwpose
|   |-- dw-ll_ucoco_384.onnx
|   └── yolox_l.onnx
|-- stable-diffusion-v1-5
|-- stable-video-diffusion-img2vid-xt-1-1

运行推理

使用提供的test.yaml配置文件进行测试:

bash scripts/test.sh

提示

  • 如果GPU内存有限,可以尝试将decode_chunk_size设置为1。
  • 如果需要进一步提高生成视频的质量,可以尝试使用面部交换(如insightface)和帧插值(如IFRNet)等后处理技术。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
机器学习/深度学习 人工智能 编解码
CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟
新加坡国立大学推出的CLEAR线性注意力机制,通过局部注意力窗口设计,显著提升了预训练扩散变换器生成高分辨率图像的效率,生成8K图像时提速6.3倍。
384 18
CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟
|
8月前
|
数据可视化
和平精英脚本,王者荣耀脚本,autojs最新开源代码
采用模块化设计,包含通用功能、和平精英和王者荣耀三大 实现贝塞尔曲线滑动模拟真人操作,降低封号风险
|
人工智能 物联网 C语言
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。
1028 5
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
|
Web App开发 JSON JavaScript
爬取王者荣耀图片
【10月更文挑战第11天】爬取王者荣耀图片。
1492 2
|
自然语言处理 C# 开发者
Uno Platform多语言开发秘籍大公开:轻松驾驭全球用户,一键切换语言,让你的应用成为跨文化交流的桥梁!
【8月更文挑战第31天】Uno Platform 是一个强大的开源框架,允许使用 C# 和 XAML 构建跨平台的原生移动、Web 和桌面应用程序。本文详细介绍如何通过 Uno Platform 创建多语言应用,包括准备工作、设置多语言资源、XAML 中引用资源、C# 中加载资源以及处理语言更改。通过简单的步骤和示例代码,帮助开发者轻松实现应用的国际化。
282 1
|
分布式计算 Kubernetes Spark
米哈游大数据云原生实践
近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行 Spark 可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark 。
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
3339 17
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
1406 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
存储 安全 Cloud Native
阿里云支持米哈游新游《绝区零》全球开服!
阿里云支持米哈游新游《绝区零》全球开服!
4248 5

热门文章

最新文章