Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 「一张人像照片秒变3D视频?Meta用30亿张照片训练出「3D打印机」:开源多视角生成模型实测」
大家好,我是蚝油菜花。当别人还在讨论AI生成2D视频时,Meta已经让静态照片「长出」360°3D身体了!

Pippo模型的三大核弹级突破:

  • ✅ 单图破维:1张自拍照→1K分辨率多视角视频
  • ✅ 细节复活:自动补全鞋子/颈部等遮挡部位
  • ✅ 工业级精度:重投影误差指标保障3D一致性

基于 30亿张人像预训练+ControlMLP黑科技,它正在重新定义数字内容生产线——文末附开源代码部署指南,手把手教你生成会呼吸的AI人像!

🚀 快速阅读

Pippo 是一个强大的图像到视频生成模型。

  1. 核心功能:Pippo 能从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
  2. 技术原理:基于多视角扩散变换器和 ControlMLP 模块,Pippo 实现了高效的多视角生成和 3D 一致性。

Pippo 是什么

pippo

Pippo 是 Meta Reality Labs 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频。该模型基于多视角扩散变换器(Multi-View Diffusion Transformer),并在 30 亿张无结构的人像图像上进行了预训练。在 2500 张高质量工作室捕捉的图像上进行了后训练,以提高生成内容的质量和 3D 一致性。

Pippo 的核心技术包括 ControlMLP 模块,用于注入像素对齐的条件,如 Plücker 射线和空间锚点,以及注意力偏差技术,能够在推理时生成比训练时多 5 倍以上的视角。此外,Pippo 引入了重投影误差(Re-projection Error)作为评估多视角生成 3D 一致性的指标。

Pippo 的主要功能

  • 多视角生成:Pippo 可以从单张全身或面部照片生成多视角的高清视频,支持全身、面部或头部的生成。
  • 高效内容生成:通过多视角扩散变换器,Pippo 能生成多达 5 倍于训练视角的视频内容。
  • 高分辨率支持:Pippo 首次实现了 1K 分辨率下的一致多视角人像生成。
  • 空间锚点与 ControlMLP:通过 ControlMLP 模块注入像素对齐的条件,如 Plücker 射线和空间锚点,实现更好的 3D 一致性。
  • 自动补全细节:在处理单目视频时,Pippo 可以自动补全缺失的细节,如鞋子、面部或颈部等。

Pippo 的技术原理

  • 多阶段训练策略
    • 预训练阶段:Pippo 首先在 30 亿张无结构的人像图像上进行预训练,这些图像没有标注信息。
    • 中间训练阶段:在高质量工作室数据集上,模型联合生成多个视角的图像,使用低分辨率的视图进行去噪,通过浅层 MLP 粗略编码目标相机。
    • 后训练阶段:在高分辨率下对少量视图进行去噪,引入像素对齐控制(如空间锚点和 Plücker 射线),实现 3D 一致性。
  • 像素对齐控制(ControlMLP 模块):Pippo 通过 ControlMLP 模块注入像素对齐的条件,如 Plücker 射线和空间锚点,这些条件在训练阶段使用,在推理阶段固定为任意位置。
  • 注意力偏差技术:在推理阶段,Pippo 提出了注意力偏差技术,支持模型同时生成比训练阶段多 5 倍以上的视角。
  • 3D 一致性评估指标:Pippo 引入了改进的 3D 一致性评估指标——重投影误差(Re-projection Error),用于评估多视角生成的 3D 一致性。

如何运行 Pippo

1. 设置代码

克隆并添加仓库到你的路径:

git clone git@github.com:facebookresearch/pippo.git
cd pippo
export PATH=$PATH:$PWD

2. 安装依赖

创建并激活 conda 环境:

conda create -n pippo python=3.10.1 -c conda-forge
conda activate pippo

# 可根据需要调整配置(我们测试了以下配置)
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.0 -c pytorch -c nvidia

pip install -r requirements.txt

3. 下载并训练样本

你可以启动一个小型训练任务,使用 Ava-256 数据集 的少量样本。我们提供了预打包的样本文件,存储为 npy 文件,可以从 HuggingFace 下载。确保你已使用登录令牌认证 HuggingFace。

# 下载预打包的 Ava-256 样本
python scripts/pippo/download_samples.py

我们提供了不同分辨率的模型配置文件,分别位于 config/full/ 目录下。

# 启动训练(测试于单个 A100 GPU 80GB):完整尺寸模型
python train.py config/full/128_4v.yml

对于较小的 GPU,我们还提供了 tiny 模型配置文件。

# 启动训练(测试于单个 T4 GPU 16GB):tiny 模型
python train.py config/tiny/128_4v_tiny.yml

4. 计算重投影误差

要计算生成图像与真实图像之间的重投影误差,运行以下命令:

python scripts/pippo/reprojection_error.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
数据采集 机器学习/深度学习 人工智能
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
351 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
Story-flicks 是一款基于AI大模型的视频生成工具,支持一键生成包含图像、文本、音频和字幕的高清故事短视频,适用于教育、内容创作、广告营销等多个领域。
411 7
Story-flicks:AI一键生成高清故事视频,5分钟搞定全流程创作
|
20天前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
678 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
|
8天前
|
存储 人工智能 Docker
Heygem:开源数字人克隆神器!1秒视频生成4K超高清AI形象,1080Ti显卡也能轻松跑
Heygem 是硅基智能推出的开源数字人模型,支持快速克隆形象和声音,30秒内完成克隆,60秒内生成4K超高清视频,适用于内容创作、直播、教育等场景。
812 7
|
25天前
|
数据采集 机器学习/深度学习 人工智能
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
106 4
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接
Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。
121 2
|
机器学习/深度学习 人工智能 算法
AI自动生成人脸照片?还能穿越时空变幻幼时和未来的模样?
AI一直是一个神秘且又令人心生敬畏和向往的概念。先且不论常人对AI的认知,就连游走在边缘的程序员们对AI也是知之甚少。
|
16天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
882 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
|
9天前
|
人工智能 前端开发 JavaScript
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
117 2
|
3天前
|
Web App开发 人工智能 机器人
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!

热门文章

最新文章