RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位

简介: RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:RealisHuman 通过两阶段方法修复生成图像中畸形的人体部位,如手和脸。
  2. 技术:结合 3D 姿态估计和图像修复技术,确保生成部位与原始图像的无缝融合。
  3. 应用:适用于游戏开发、影视制作、图像修复和艺术创作等多个领域。

正文(附运行示例)

RealisHuman 是什么

公众号: 蚝油菜花 - RealisHuman

RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸。该框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部位作为参考,生成逼真的人体部位,以确保与原图像的一致性。其次,通过重新绘制周围区域,将修正后的人体部位无缝地整合回原始位置,确保平滑和真实的融合。

RealisHuman 不仅提高了生成图像中人体部位的真实性,还具有强大的泛化能力,能够处理不同风格的图像,包括卡通和素描等。

RealisHuman 的主要功能

  • 生成逼真的人体部位:使用原始的畸形部位作为参考,生成逼真的人体部位,如手和脸,确保生成的部位在细节上与原始图像保持一致。
  • 无缝集成修正部位:通过重新绘制周围区域,将修正后的人体部位无缝地集成回原始图像中,确保平滑和真实的融合。
  • 处理多种图像风格:能够有效处理不同风格的图像,包括卡通和素描等。
  • 提高生成图像的真实性:通过两阶段的方法,显著提升生成图像中人体部位的真实性。

RealisHuman 的技术原理

  • 第一阶段:生成逼真的人体部位
    使用原始的畸形部位作为参考,结合 Part Detail Encoder 和 DINOv2 等工具,提取原始畸形部位的详细信息,包括肤色和纹理等。同时,结合 3D 姿态估计结果,指导生成的人体部位图像,确保姿态的准确性和真实性。

  • 第二阶段:无缝集成修正部位
    首先将修正后的人体部位放回其原始位置,并对周围区域进行遮盖。然后,通过训练一个修复模型,将人体部位与周围区域无缝融合,确保平滑过渡和真实的融合。最后,重新绘制背景与修正后的人体部位之间的区域,避免出现拼贴的痕迹。

如何运行 RealisHuman

1. 环境安装

首先,使用 conda 安装所需环境:

conda env create -f environment.yaml
conda activate RealisHuman

或者使用 pip 安装:

pip3 install -r requirements.txt

2. 数据准备

将数据目录结构设置为如下格式:

data
|-- images
|   |-- 3ddfa
|   |-- dwpose
|   |-- hamer
|   |-- image
|   `-- results

3. 手部修复

阶段一预处理
python data/process_hand_stage1.py
阶段一推理
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nnodes=1 --nproc_per_node=8 \
    inference_stage1.py --config configs/stage1-hand.yaml --output data/hand_example/hand_chip/repair \
    --ckpt checkpoint/stage1_hand/checkpoint-stage1-hand.ckpt
阶段二处理与推理
python data/process_hand_stage2.py
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nnodes=1 --nproc_per_node=8 \
    inference_stage2.py --config configs/stage2-hand.yaml --output data/hand_example/hand_chip/inpaint \
    --ckpt checkpoint/stage2_hand/checkpoint-stage2-hand.ckpt
最终图像修复
python data/back_to_image_hand.py

4. 面部修复

阶段一预处理
python data/process_face_stage1.py
阶段一推理
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nnodes=1 --nproc_per_node=8 \
    inference_stage1.py --config configs/stage1-face.yaml --output data/face_example/face_chip/repair \
    --ckpt checkpoint/stage1_face/checkpoint-stage1-face.ckpt
阶段二处理与推理
python data/process_face_stage2.py
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nnodes=1 --nproc_per_node=8 \
    inference_stage2.py --config configs/stage2-face.yaml --output data/face_example/face_chip/inpaint \
    --ckpt checkpoint/stage2_face/checkpoint-stage2-face.ckpt
最终图像修复
python data/back_to_image_face.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4月前
|
人工智能 监控 安全
人体姿态[站着、摔倒、坐、深蹲、跑]检测数据集(6000张图片已划分、已标注)| AI训练适用于目标检测
本数据集包含6000张已标注人体姿态图片,覆盖站着、摔倒、坐、深蹲、跑五类动作,按5:1划分训练集与验证集,标注格式兼容YOLO等主流框架,适用于跌倒检测、健身分析、安防监控等AI目标检测任务,开箱即用,助力模型快速训练与部署。
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2282 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
4月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
453 41
|
5月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1798 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
5月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
1370 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
412 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
4月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
350 6
|
6月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
6月前
|
人工智能 前端开发 Java
构建能源领域的AI专家:一个多智能体框架的实践与思考
本文介绍了作者团队在能源领域构建多智能体(Multi-Agent)框架的实践经验。面对单智能体处理复杂任务时因“注意力发散”导致的效率低下问题,团队设计了一套集“规划-调度-执行-汇总”于一体的多智能体协作系统。
741 19

热门文章

最新文章