DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号,生成密集运动场,并保持对不同体型的泛化能力,显著提升了人物图像动画的质量和一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:DisPose通过骨骼姿态和参考图像提取控制信号,提升人物图像动画质量。
  2. 主要功能:包括运动场引导、关键点对应和即插即用模块,改善视频生成质量和一致性。
  3. 技术原理:基于稀疏和密集运动场估计、关键点特征提取和混合ControlNet,实现高效的动画控制。

正文(附运行示例)

DisPose 是什么

公众号: 蚝油菜花 - DisPose

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的技术,旨在提高人物图像动画的质量。该技术通过从骨骼姿态和参考图像中提取有效的控制信号,生成密集运动场,并保持对不同体型的泛化能力。DisPose的核心在于将姿态控制分解为运动场引导和关键点对应,从而在无需额外密集输入的情况下,显著提升动画的生成质量和一致性。

DisPose还包含一个即插即用的混合ControlNet模块,能够无缝集成到现有的人物图像动画模型中,改善生成视频的质量和一致性。

DisPose 的主要功能

  • 运动场引导:从骨骼姿态生成密集运动场,提供区域级的密集引导,增强视频生成中的动作一致性。
  • 关键点对应:提取与参考图像中姿态关键点对应的扩散特征,将扩散特征转移到目标姿态,保持身份信息的一致性。
  • 即插即用模块:作为插件模块,支持无缝集成到现有的人物图像动画模型中,无需修改现有模型参数。
  • 质量与一致性提升:混合ControlNet改善生成视频的质量和外观一致性。
  • 无需额外密集输入:在不依赖于额外密集输入(如深度图)的情况下工作,减少对参考角色和驱动视频之间身体形状差异的敏感性。

DisPose 的技术原理

  • 运动场估计
  • 稀疏运动场:基于DWpose估计骨骼姿态,表示为轨迹图。
  • 密集运动场:条件运动传播(CMP)基于稀疏运动场和参考图像预测密集运动场,提供更细致的运动信号。
  • 关键点特征提取:使用预训练的图像扩散模型提取参考图像的DIFT特征,并将这些特征与关键点对应起来,形成关键点特征图。
  • 混合ControlNet:设计了混合ControlNet,在训练期间更新,便于将运动场引导和关键点对应无缝集成到现有动画模型中。
  • 特征融合:基于特征融合层将稀疏和密集运动特征结合起来,生成最终的运动场引导信号。
  • 控制信号集成:将运动场引导和关键点对应作为额外的控制信号,注入到潜在的视频扩散模型中,生成准确的人物图像动画。

如何运行 DisPose

环境配置

1. 创建并激活conda环境:

conda create -n dispose python==3.10
conda activate dispose
pip install -r requirements.txt

2. 下载模型权重并放置在指定目录:

./pretrained_weights/
|-- MimicMotion_1-1.pth
|-- DisPose.pth
|-- dwpose
|   |-- dw-ll_ucoco_384.onnx
|   └── yolox_l.onnx
|-- stable-diffusion-v1-5
|-- stable-video-diffusion-img2vid-xt-1-1

运行推理

使用提供的test.yaml配置文件进行测试:

bash scripts/test.sh

提示

  • 如果GPU内存有限,可以尝试将decode_chunk_size设置为1。
  • 如果需要进一步提高生成视频的质量,可以尝试使用面部交换(如insightface)和帧插值(如IFRNet)等后处理技术。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
存储 人工智能 开发框架
Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务
Kheish 是一个开源的多智能体协调平台,基于大型语言模型(LLM)设计,能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能,适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。
275 18
Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务
|
9月前
|
机器学习/深度学习 人工智能 智能设计
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。
451 4
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
|
9月前
|
人工智能 算法 图形学
C++ 的使用
C++ 的使用。
218 28
|
8月前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
3067 71
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
9月前
|
存储 NoSQL 关系型数据库
从大数据到大模型:如何做到“心无桎梏,身无藩篱”
在大数据和大模型的加持下,现代数据技术释放了巨大的技术红利,通过多种数据范式解除了数据的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”的自在境界,那么现代应用有哪些数据范式呢?这正是本文尝试回答的问题。
1508 101
|
9月前
|
机器学习/深度学习 人工智能 编解码
CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟
新加坡国立大学推出的CLEAR线性注意力机制,通过局部注意力窗口设计,显著提升了预训练扩散变换器生成高分辨率图像的效率,生成8K图像时提速6.3倍。
215 18
CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟
|
9月前
|
数据采集 机器学习/深度学习 人工智能
《智启新材:人工智能重塑分子结构设计蓝图》
在科技飞速发展的今天,新材料研发竞争激烈,人工智能(AI)以其强大的数据分析和算法能力,为分子结构设计带来革命性突破。传统方法耗时长、成功率低,而AI能快速处理海量数据,挖掘规律,构建精准模型,大幅缩短研发周期,提高成功率。无论是在药物研发还是工业材料领域,AI均展现出巨大潜力,如优化航空航天材料性能、设计新型碳纤维复合材料等。尽管面临数据质量和可解释性挑战,AI在新材料领域的前景依然广阔,正引领材料创新新时代,推动能源革命与物联网发展。
168 9
|
9月前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
1382 9
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
9月前
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
1652 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

热门文章

最新文章