DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:DisPose通过骨骼姿态和参考图像提取控制信号,提升人物图像动画质量。
  2. 主要功能:包括运动场引导、关键点对应和即插即用模块,改善视频生成质量和一致性。
  3. 技术原理:基于稀疏和密集运动场估计、关键点特征提取和混合ControlNet,实现高效的动画控制。

正文(附运行示例)

DisPose 是什么

公众号: 蚝油菜花 - DisPose

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的技术,旨在提高人物图像动画的质量。该技术通过从骨骼姿态和参考图像中提取有效的控制信号,生成密集运动场,并保持对不同体型的泛化能力。DisPose的核心在于将姿态控制分解为运动场引导和关键点对应,从而在无需额外密集输入的情况下,显著提升动画的生成质量和一致性。

DisPose还包含一个即插即用的混合ControlNet模块,能够无缝集成到现有的人物图像动画模型中,改善生成视频的质量和一致性。

DisPose 的主要功能

  • 运动场引导:从骨骼姿态生成密集运动场,提供区域级的密集引导,增强视频生成中的动作一致性。
  • 关键点对应:提取与参考图像中姿态关键点对应的扩散特征,将扩散特征转移到目标姿态,保持身份信息的一致性。
  • 即插即用模块:作为插件模块,支持无缝集成到现有的人物图像动画模型中,无需修改现有模型参数。
  • 质量与一致性提升:混合ControlNet改善生成视频的质量和外观一致性。
  • 无需额外密集输入:在不依赖于额外密集输入(如深度图)的情况下工作,减少对参考角色和驱动视频之间身体形状差异的敏感性。

DisPose 的技术原理

  • 运动场估计
  • 稀疏运动场:基于DWpose估计骨骼姿态,表示为轨迹图。
  • 密集运动场:条件运动传播(CMP)基于稀疏运动场和参考图像预测密集运动场,提供更细致的运动信号。
  • 关键点特征提取:使用预训练的图像扩散模型提取参考图像的DIFT特征,并将这些特征与关键点对应起来,形成关键点特征图。
  • 混合ControlNet:设计了混合ControlNet,在训练期间更新,便于将运动场引导和关键点对应无缝集成到现有动画模型中。
  • 特征融合:基于特征融合层将稀疏和密集运动特征结合起来,生成最终的运动场引导信号。
  • 控制信号集成:将运动场引导和关键点对应作为额外的控制信号,注入到潜在的视频扩散模型中,生成准确的人物图像动画。

如何运行 DisPose

环境配置

1. 创建并激活conda环境:

conda create -n dispose python==3.10
conda activate dispose
pip install -r requirements.txt

2. 下载模型权重并放置在指定目录:

./pretrained_weights/
|-- MimicMotion_1-1.pth
|-- DisPose.pth
|-- dwpose
|   |-- dw-ll_ucoco_384.onnx
|   └── yolox_l.onnx
|-- stable-diffusion-v1-5
|-- stable-video-diffusion-img2vid-xt-1-1

运行推理

使用提供的test.yaml配置文件进行测试:

bash scripts/test.sh

提示

  • 如果GPU内存有限,可以尝试将decode_chunk_size设置为1。
  • 如果需要进一步提高生成视频的质量,可以尝试使用面部交换(如insightface)和帧插值(如IFRNet)等后处理技术。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8天前
|
机器学习/深度学习 人工智能 iOS开发
MagicMirror:一键 AI 换脸、换发型和换穿搭,拖放照片就能实现换脸和形象变换,本地运行无需配置
MagicMirror 是一款开源的一键 AI 换脸、换发型和穿搭应用,支持离线处理,保护隐私,轻量级设计,适合个人娱乐和创意内容创作。
53 13
MagicMirror:一键 AI 换脸、换发型和换穿搭,拖放照片就能实现换脸和形象变换,本地运行无需配置
|
5月前
|
图形学 开发者
【Unity光照艺术手册】掌握这些技巧,让你的游戏场景瞬间提升档次:从基础光源到全局光照,打造24小时不间断的视觉盛宴——如何运用代码与烘焙创造逼真光影效果全解析
【8月更文挑战第31天】在Unity中,合理的光照与阴影设置对于打造逼真环境至关重要。本文介绍Unity支持的多种光源类型,如定向光、点光源、聚光灯等,并通过具体示例展示如何使用着色器和脚本控制光照强度,模拟不同时间段的光照变化。此外,还介绍了动态和静态阴影、全局光照及光照探针等高级功能,帮助开发者创造丰富多样的光影效果,提升游戏沉浸感。
123 0
|
4月前
|
图形学 开发者
透视与正交之外的奇妙视界:深入解析Unity游戏开发中的相机与视角控制艺术,探索打造沉浸式玩家体验的奥秘与技巧
【8月更文挑战第31天】在Unity中,相机不仅是玩家观察游戏世界的窗口,更是塑造氛围和引导注意力的关键工具。通过灵活运用相机系统,开发者能大幅提升游戏的艺术表现力和沉浸感。本文将探讨如何实现多种相机控制,包括第三人称跟随和第一人称视角,并提供实用代码示例。
191 0
|
7月前
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)
123 4
|
8月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
173 1
|
8月前
|
物联网
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
961 0
|
8月前
|
监控
宣传技能培训1——《新闻摄影技巧》光影魔法:理解不同光线、角度、构图的摄影效果,以及相机实战操作 + 新闻摄影实例讲解
宣传技能培训1——《新闻摄影技巧》光影魔法:理解不同光线、角度、构图的摄影效果,以及相机实战操作 + 新闻摄影实例讲解
529 0
|
机器学习/深度学习 人工智能 算法
给图片悄悄加上像素级水印:防止AI「抄袭」艺术作品的方法找到了
给图片悄悄加上像素级水印:防止AI「抄袭」艺术作品的方法找到了
241 0
|
机器学习/深度学习 编解码 vr&ar
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
178 0
|
机器学习/深度学习 数据采集 人工智能
上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022
上科大最新工作!实时面捕天花板,微表情像素级一致,AI让你告别手Key|SIGGRAPH Asia 2022
151 0

热门文章

最新文章