See3D:智源研究院开源的无标注视频学习 3D 生成模型

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:See3D 支持从文本、单视图和稀疏视图生成 3D 内容,并能进行 3D 编辑与高斯渲染。
  2. 技术:采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  3. 数据:构建了大规模多视角图像数据集 WebVi3D,涵盖 1600 万个视频片段的 3.2 亿帧图像。

正文(附运行示例)

See3D 是什么

公众号: 蚝油菜花 - See3D

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的 3D 生成模型,能够基于大规模无标注的互联网视频进行学习,实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同,See3D 采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

See3D 避免了昂贵的 3D 或相机标注的需求,能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,能进行 3D 编辑与高斯渲染。

See3D 的主要功能

  • 从文本、单视图和稀疏视图到 3D 的生成:See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
  • 3D 编辑与高斯渲染:模型支持对生成的 3D 内容进行编辑,使用高斯渲染技术来提高渲染效果。
  • 解锁 3D 互动世界:输入图片后,可以生成沉浸式可交互的 3D 场景,支持用户实时探索真实空间结构。
  • 基于稀疏图片的 3D 重建:输入少量图片(3-6 张),模型能生成精细化的 3D 场景。
  • 开放世界 3D 生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的 3D 场景。
  • 基于单视图的 3D 生成:输入一张真实场景的图片,模型能生成逼真的 3D 场景。

See3D 的技术原理

  • 视觉条件技术:See3D 不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  • 大规模无标注视频学习:See3D 能从互联网视频中高效学习 3D 先验,不依赖于昂贵的 3D 或相机标注。
  • 数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D,涵盖来自 1600 万个视频片段的 3.2 亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。
  • 多视图扩散模型训练:See3D 引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的 2D 归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得 3D”的目标。
  • 3D 生成框架:See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

如何运行 See3D

安装

git clone https://github.com/baaivision/See3D.git
cd See3D

pip install -r requirements.txt

推理代码

See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率,这需要更多的推理时间和 GPU 内存。

基于单视图输入的生成

bash single_infer.sh

基于稀疏视图输入的生成

bash sparse_infer.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5天前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
116 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
机器学习/深度学习 人工智能 自然语言处理
【计算机视觉】最新综述:南洋理工和上海AI Lab提出基于Transformer的视觉分割综述
近期,南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于Transformer-Based的Segmentation的综述,系统地回顾了近些年来基于Transformer的分割与检测模型,调研的最新模型截止至今年6月!
|
机器学习/深度学习 人工智能 自然语言处理
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
163 0
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
227 0
|
人工智能 算法 网络架构
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(1)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
201 0
|
机器学习/深度学习 存储 自然语言处理
强化学习中的Transformer发展到哪一步了?清华、北大等联合发布TransformRL综述(2)
强化学习中的Transformer发展到哪一步了?清华、北大等联合发布TransformRL综述
232 0
|
机器学习/深度学习 人工智能 算法
强化学习中的Transformer发展到哪一步了?清华、北大等联合发布TransformRL综述(1)
强化学习中的Transformer发展到哪一步了?清华、北大等联合发布TransformRL综述
173 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
213 0
|
机器学习/深度学习 人工智能 编解码
2022年AI顶级论文 —生成模型之年(上)
2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。
368 0
|
机器学习/深度学习 人工智能 编解码
2022年AI顶级论文 —生成模型之年(下)
2020年,随着OpenAI GPT-3模型(模型参数约1750亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。
296 0

热门文章

最新文章