PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:基于跨尺度多视图扩散模型,仅需一张照片即可生成逼真的3D人像模型。
  2. 功能亮点:支持面部细节重建、全身姿态生成、背景移除和结构化输出。
  3. 应用场景:广泛应用于影视制作、游戏开发、虚拟现实和时尚设计等领域。

PSHuman 是什么

pshuman

PSHuman 是一种先进的单图像3D人像重建技术,基于跨尺度多视图扩散模型,仅需一张照片即可生成高度逼真的3D人像模型。该技术能够同时建模全局形状和局部细节的联合概率分布,避免几何失真,并保持不同视图下身体形状的一致性。

通过显式人体雕刻技术,PSHuman 能够高效恢复逼真的纹理人体网格。在多个数据集上表现出色,具有出色的几何细节、纹理保真度和泛化能力。

PSHuman 的主要功能

  • 单图像3D人像重建:仅需一张照片,快速生成详细的3D模型,大幅提高建模效率。
  • 多视图扩散技术:从单一视角的照片中生成多个角度的人体图像,确保每个角度都尽可能真实。
  • 高保真度面部细节:通过跨尺度扩散方法,兼顾整体身体形状和局部面部特征,避免几何变形。
  • 结合SMPL-X人体模型:生成更加自然和真实的人体动作和形态,提升3D模型的逼真度。
  • 背景移除:支持使用 Clipdrop 或 rembg 工具移除人像照片的背景,简化后续处理流程。
  • 结构化输出:生成的3D模型和渲染视频以结构化文件形式保存,便于查看和分享。
  • SMPL-free版本:无需SMPL条件即可进行多视图生成,适用于一般姿态的人像。

PSHuman 的技术原理

  • 身体+面部增强和多视角生成:将输入照片和预测的人体骨架模型(SMPL-X)送入多视角图像扩散模型,生成6个不同角度的全身图片及高精度局部面部图片。
  • 跨尺度扩散方法:同时建模全局全身形状和局部面部特征的联合概率分布,避免几何变形。
  • 基于SMPL-X的显式人物雕刻:通过可微分的渲染技术调整、变形和重新细化SMPL-X模型,生成带真实纹理的3D人物模型。
  • 多视图图像融合:使用可微分渲染技术融合多视图颜色图像,减少生成不一致性,实现纹理映射。
  • 优化和重建模块:通过优化SMPL-X参数对齐多视图图像,进行几何优化,并使用可微分光栅化技术对网格进行雕刻。

如何运行 PSHuman

1. 环境配置

首先,创建一个 Conda 环境并安装依赖:

conda create -n pshuman python=3.10
conda activate pshuman

# 安装 PyTorch
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121

# 安装 Kaolin
pip install kaolin==0.17.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-2.1.0_cu121.html

# 安装其他依赖
pip install -r requirements.txt

2. 背景移除

使用 Clipdrop 或 rembg 工具移除人像照片的背景:

python utils/remove_bg.py --path $DATA_PATH$

3. 运行推理

通过以下命令生成3D模型和渲染视频:

CUDA_VISIBLE_DEVICES=$GPU python inference.py --config configs/inference-768-6view.yaml \
    pretrained_model_name_or_path='pengHTYX/PSHuman_Unclip_768_6views' \
    validation_dataset.crop_size=740 \
    with_smpl=false \
    validation_dataset.root_dir=$DATA_PATH$ \
    seed=600 \
    num_views=7 \
    save_mode='rgb'

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 并行计算 搜索推荐
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。
1164 30
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
|
2月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
233 3
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架,通过集成空间编织注意力机制,实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性,适用于多种应用场景。
320 77
HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频
|
7月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
243 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
9月前
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
375 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
|
9月前
|
人工智能 计算机视觉 开发者
SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间
SmartEraser 是由中科大与微软亚洲研究院联合开发的图像编辑技术,能够精准移除图像中的指定对象,同时保留周围环境的细节和结构,适用于复杂场景的图像处理。
222 8
SmartEraser:中科大推出图像对象移除技术,轻松移除照片中的不想要元素,保留完美瞬间
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。
1602 0
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
|
9月前
|
数据采集 人工智能 异构计算
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。
310 3
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
|
9月前
|
存储 人工智能 自然语言处理
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程
OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架,通过模拟人类迭代扩展和反思过程,生成高质量长篇文章,显著提升知识密度和内容深度。
484 12
OmniThink:浙大联合阿里通义开源 AI 写作框架,基于深度思考扩展知识边界,实时展示思考过程

热门文章

最新文章