IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

2025-03-11 468

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架，解决了传统方法在姿态引导的人物图像生成中的局限性，支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🤖 "僵硬的生成时代终结！南理工黑科技让AI人体「活」起来：一张图生成百变姿态，肌肉纹理都不糊"

大家好，我是蚝油菜花。你是否还在为这些难题抓狂——

今天带来的 IMAGPose 彻底打破僵局！这个由南京理工研发的生成框架，通过独创的跨视图注意力机制：

科研团队已用它还原古籍武术招式，服装设计师靠它批量生成模特动态秀——你的下一组概念图，还需要手动调参吗？

🚀 快速阅读

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。

IMAGPose 是什么

IMAGPose-demo

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。它解决了传统方法在姿态引导的人物图像生成中存在的局限性，如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限，以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

IMAGPose 通过特征级条件模块（FLC）、图像级条件模块（ILC）和跨视图注意力模块（CVA），实现了多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性。

IMAGPose-framework

特征级条件模块（FLC）：FLC 模块通过结合变分自编码器（VAE）编码器提取的低级纹理特征和图像编码器提取的高级语义特征，解决了因缺乏专用人物图像特征提取器而导致的细节信息丢失问题。
图像级条件模块（ILC）：ILC 模块通过注入可变数量的源图像条件并引入掩码策略，实现图像和姿态的对齐，适应灵活多样的用户场景。
跨视图注意力模块（CVA）：CVA 模块引入了全局和局部分解的跨注意力机制，确保在多源图像提示时人物图像的局部保真度和全局一致性。

conda create --name rcdms python=3.8.10
conda activate rcdms
pip install -U pip

# 安装依赖
pip install -r requirements.txt

# 第一阶段，训练 50000 步
sh run_train_stage1.sh

# 第二阶段，训练 200000 步
sh run_train_stage2.sh

# 微调，训练 50000 步
run_train_end2end.sh

# 测试单张图像
python3 test.py

# 测试批量图像
python3 test_batch.py

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦