PIFuHD简介:使用AI从2D图像生成人的3D高分辨率重建

简介: PIFuHD简介:使用AI从2D图像生成人的3D高分辨率重建


image.png

关于这篇新文章的最酷的事情是,他们在Google colab上提供了一个演示,您可以在其中轻松地自己尝试一下,正如我将在本文中展示的那样!但首先,让我们看看他们是如何做到的。

640.png

Facebook和南加州大学的研究人员最近推出了一篇名为“ PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization”的新论文。简而言之,它使用某人的2D图像来重构该人的3D高分辨率版本。我们的主要目标是对穿着衣服的人进行高保真3d重建,并获得详细信息,例如手指,面部特征和衣服褶皱,正如我们在此图中看到的那样。因为的原因,目前的方法没有使用全高分辨率图像,所以它们降低了图像的尺寸,并丢失了在3D中创建高分辨率细节的重要信息,但是看起来还是不错的。

640.png

PiFuHD通过两步解决问题来实现这一目标。首先,以较低的分辨率(缩小比例)对模型进行训练,以专注于整体推理。这样,它可以覆盖图片的更大空间背景上下文。然后,使用这些上下文信息,模型通过观察图像和更高分辨率的第一个输出来估计人的详细几何形状。粗略层通过对图像进行下采样并将其输入到PIFu模型中来捕获全局3D结构,而高分辨率的详细信息是通过在相似的轻量级PIFu网络中使用这些第一个3D输出作为高分辨率输入来添加的。由于精细层级将第一层级的特征作为3d嵌入,因此不需要以更高的分辨率查看整个图像,从而可以在没有背景的情况下提供此人的高分辨率图像。具有较低分辨率的背景信息和较高分辨率的模型解决了先前方法遇到的计算时间问题。

640.png

正像图中展示的,需要多层PIFu才能获得高分辨率3D模型,但是使用单层PIFu可以更快地创建准确的模型。这种新方法是精确的,并且使用这种双向模型使它在现阶段的内存限制下可以成功运行。下面是使用这种技术取得的一些更令人印象深刻的结果……

640.png

他们做了一个公开演示,在那里你可以简单地上传你的图片并在谷歌colab上看到结果!只需要一分钟左右。这只是这篇新论文的一个简单概述。

下面是这个演示的链接。

论文地址: https://arxiv.org/pdf/2004.00452.pdf

colab演示: https://colab.research.google.com/drive/11z58bl3meSzo6kFqkahMa35G5jmh2Wgt

源代码: https://github.com/facebookresearch/pifuhd


目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI发展与GPT简介
人工智能(AI)是指计算机系统执行通常需要人类智能的任务的能力,如视觉感知、语音识别、决策制定和语言翻译。简而言之,AI就是让计算机模仿人类的思考和行为过程。
111 0
|
2月前
|
机器学习/深度学习 人工智能 编解码
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
3D智能导诊系统源码,基于AI引擎,针对患者的病情及症状,结合性别年龄特征,智能推荐医院科室
智能导诊系统是一款基于AI技术的医疗辅助工具,利用自然语言处理和机器学习分析患者病情,精准推荐科室和医生。系统支持按性别分类导诊,设有3D人体模型辅助定位症状,界面简洁易操作。采用B/S架构,可无缝对接HIS数据库,支持多种接入形式,包括公众号、小程序和App,有效提升就诊效率并减轻医护人员负担。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
34 0
|
2月前
|
人工智能 Apache
Flux AI:释放你的想象力,用文字生成图像
Flux AI 是一款支持多种风格的 AI 图像生成器。它使用先进的基于变换器的管道模型来实现高质量、精确的输出。它具有用户友好的界面,适合专业人士和业余爱好者。Flux AI 可以快速将文本提示转换为精确的图像,从而提高创作效率。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
126 9
|
4月前
|
人工智能 图形学
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
61 1
【制作100个unity游戏之24】unity制作一个3D动物AI生态系统游戏2(附项目源码)
|
2月前
|
机器学习/深度学习 人工智能 算法
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
揭开AI的神秘面纱:人工智能简介
这是一篇人工智能简介,从人工智能的定义,起源,分类,相关技术,应用前景与存在的挑战几个方面介绍人工智能
|
4月前
|
人工智能 算法 计算机视觉
无论真实还是AI视频,摩斯卡都能重建恢复4D动态可渲染场景
【6月更文挑战第30天】摩斯卡系统革命性地从单视角视频重建4D动态场景,融合2D视觉模型与物理优化,实现渲染。利用“Motion Scaffold”表示几何、外观和运动,即使在多视角输入困难时也能保证高质量重建与渲染。虽有输入质量和计算资源限制,但其创新性提升了动态场景处理的实用性和可控性。[arXiv:2405.17421](https://arxiv.org/pdf/2405.17421)
44 2

热门文章

最新文章

下一篇
无影云桌面