See3D:智源研究院开源的无标注视频学习 3D 生成模型

简介: See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:See3D 支持从文本、单视图和稀疏视图生成 3D 内容,并能进行 3D 编辑与高斯渲染。
  2. 技术:采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  3. 数据:构建了大规模多视角图像数据集 WebVi3D,涵盖 1600 万个视频片段的 3.2 亿帧图像。

正文(附运行示例)

See3D 是什么

公众号: 蚝油菜花 - See3D

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的 3D 生成模型,能够基于大规模无标注的互联网视频进行学习,实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同,See3D 采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

See3D 避免了昂贵的 3D 或相机标注的需求,能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,能进行 3D 编辑与高斯渲染。

See3D 的主要功能

  • 从文本、单视图和稀疏视图到 3D 的生成:See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
  • 3D 编辑与高斯渲染:模型支持对生成的 3D 内容进行编辑,使用高斯渲染技术来提高渲染效果。
  • 解锁 3D 互动世界:输入图片后,可以生成沉浸式可交互的 3D 场景,支持用户实时探索真实空间结构。
  • 基于稀疏图片的 3D 重建:输入少量图片(3-6 张),模型能生成精细化的 3D 场景。
  • 开放世界 3D 生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的 3D 场景。
  • 基于单视图的 3D 生成:输入一张真实场景的图片,模型能生成逼真的 3D 场景。

See3D 的技术原理

  • 视觉条件技术:See3D 不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  • 大规模无标注视频学习:See3D 能从互联网视频中高效学习 3D 先验,不依赖于昂贵的 3D 或相机标注。
  • 数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D,涵盖来自 1600 万个视频片段的 3.2 亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。
  • 多视图扩散模型训练:See3D 引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的 2D 归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得 3D”的目标。
  • 3D 生成框架:See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

如何运行 See3D

安装

git clone https://github.com/baaivision/See3D.git
cd See3D

pip install -r requirements.txt

推理代码

See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率,这需要更多的推理时间和 GPU 内存。

基于单视图输入的生成

bash single_infer.sh

基于稀疏视图输入的生成

bash sparse_infer.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
消息中间件 监控 Java
图解Kafka线程模型及其设计缺陷
图解Kafka线程模型及其设计缺陷
图解Kafka线程模型及其设计缺陷
|
关系型数据库 MySQL PostgreSQL
MySQL和PostgreSQL的常用语法差异
背景 在去年的DBMS评比中,PostgreSQL夺冠,PostgreSQL一直保持上升姿态,越来越多的客户选择使用PostgreSQL,还有一部分客户从MySQL迁往PostgreSQL,那PostgreSQL和MySQL对于开发者来说的差异在哪里呢?末学对比了下语法差异,不一样的地方用红色标记了出来,供大家参考。
14548 0
|
关系型数据库 数据库 PostgreSQL
PostgreSQL 数据库实例只读锁定(readonly) - 硬锁定,软锁定,解锁
PostgreSQL 数据库实例只读锁定(readonly) - 硬锁定,软锁定,解锁
3059 0
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch学习笔记(1):基本概念、安装、张量操作、逻辑回归
Pytorch学习笔记(1):基本概念、安装、张量操作、逻辑回归
877 0
Pytorch学习笔记(1):基本概念、安装、张量操作、逻辑回归
|
存储 关系型数据库 MySQL
深入理解MySQL:查询表的历史操作记录
深入理解MySQL:查询表的历史操作记录
1882 0
|
API 开发工具 vr&ar
从零开始的PICO教程(2)--搭建VR场景并打包至PICO中运行
这篇文章是PICO开发系列教程的第二部分,主要介绍了如何在Unity中搭建简单的VR场景、创建XR Origin对象、配置PICO开发环境、以及将场景打包并运行在PICO设备上的完整流程。
|
安全 网络协议 关系型数据库
|
小程序 API 调度
消费级显卡,17G显存,玩转图像生成模型FLUX.1!
近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。
|
域名解析 缓存 网络协议
如何在 Linux 上刷新本地 DNS 缓存?
如何在 Linux 上刷新本地 DNS 缓存?
1653 0
如何在 Linux 上刷新本地 DNS 缓存?
|
Linux
CentOS 7 安装WireShark,桌面版
CentOS 7 安装WireShark,桌面版
1621 0

热门文章

最新文章