PIFuHD简介:使用AI从2D图像生成人的3D高分辨率重建

简介: PIFuHD简介:使用AI从2D图像生成人的3D高分辨率重建


image.png

关于这篇新文章的最酷的事情是,他们在Google colab上提供了一个演示,您可以在其中轻松地自己尝试一下,正如我将在本文中展示的那样!但首先,让我们看看他们是如何做到的。

640.png

Facebook和南加州大学的研究人员最近推出了一篇名为“ PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization”的新论文。简而言之,它使用某人的2D图像来重构该人的3D高分辨率版本。我们的主要目标是对穿着衣服的人进行高保真3d重建,并获得详细信息,例如手指,面部特征和衣服褶皱,正如我们在此图中看到的那样。因为的原因,目前的方法没有使用全高分辨率图像,所以它们降低了图像的尺寸,并丢失了在3D中创建高分辨率细节的重要信息,但是看起来还是不错的。

640.png

PiFuHD通过两步解决问题来实现这一目标。首先,以较低的分辨率(缩小比例)对模型进行训练,以专注于整体推理。这样,它可以覆盖图片的更大空间背景上下文。然后,使用这些上下文信息,模型通过观察图像和更高分辨率的第一个输出来估计人的详细几何形状。粗略层通过对图像进行下采样并将其输入到PIFu模型中来捕获全局3D结构,而高分辨率的详细信息是通过在相似的轻量级PIFu网络中使用这些第一个3D输出作为高分辨率输入来添加的。由于精细层级将第一层级的特征作为3d嵌入,因此不需要以更高的分辨率查看整个图像,从而可以在没有背景的情况下提供此人的高分辨率图像。具有较低分辨率的背景信息和较高分辨率的模型解决了先前方法遇到的计算时间问题。

640.png

正像图中展示的,需要多层PIFu才能获得高分辨率3D模型,但是使用单层PIFu可以更快地创建准确的模型。这种新方法是精确的,并且使用这种双向模型使它在现阶段的内存限制下可以成功运行。下面是使用这种技术取得的一些更令人印象深刻的结果……

640.png

他们做了一个公开演示,在那里你可以简单地上传你的图片并在谷歌colab上看到结果!只需要一分钟左右。这只是这篇新论文的一个简单概述。

下面是这个演示的链接。

论文地址: https://arxiv.org/pdf/2004.00452.pdf

colab演示: https://colab.research.google.com/drive/11z58bl3meSzo6kFqkahMa35G5jmh2Wgt

源代码: https://github.com/facebookresearch/pifuhd


目录
打赏
0
1
0
0
542
分享
相关文章
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
75 4
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
EasyControl 是基于扩散变换器架构的高效灵活控制框架,通过轻量级条件注入模块实现多模态预训练支持,具备任意分辨率生成能力和显著优化的推理效率。
94 1
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
86 0
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
61 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。
62 13
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。
86 3
Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!
LanPaint:零训练消除AI图像违和感!与ComfyUI完美兼容的无损修复神器
LanPaint 是一款基于 Stable Diffusion 的零训练 AI 图像修复工具,支持无缝修复和内容替换,适用于从简单修复到复杂损坏恢复的多种场景。
79 0
LanPaint:零训练消除AI图像违和感!与ComfyUI完美兼容的无损修复神器
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
275 18
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
147 4
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
110 8

热门文章

最新文章