See3D:智源研究院开源的无标注视频学习 3D 生成模型

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:See3D 支持从文本、单视图和稀疏视图生成 3D 内容,并能进行 3D 编辑与高斯渲染。
  2. 技术:采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  3. 数据:构建了大规模多视角图像数据集 WebVi3D,涵盖 1600 万个视频片段的 3.2 亿帧图像。

正文(附运行示例)

See3D 是什么

公众号: 蚝油菜花 - See3D

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的 3D 生成模型,能够基于大规模无标注的互联网视频进行学习,实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同,See3D 采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

See3D 避免了昂贵的 3D 或相机标注的需求,能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,能进行 3D 编辑与高斯渲染。

See3D 的主要功能

  • 从文本、单视图和稀疏视图到 3D 的生成:See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
  • 3D 编辑与高斯渲染:模型支持对生成的 3D 内容进行编辑,使用高斯渲染技术来提高渲染效果。
  • 解锁 3D 互动世界:输入图片后,可以生成沉浸式可交互的 3D 场景,支持用户实时探索真实空间结构。
  • 基于稀疏图片的 3D 重建:输入少量图片(3-6 张),模型能生成精细化的 3D 场景。
  • 开放世界 3D 生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的 3D 场景。
  • 基于单视图的 3D 生成:输入一张真实场景的图片,模型能生成逼真的 3D 场景。

See3D 的技术原理

  • 视觉条件技术:See3D 不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  • 大规模无标注视频学习:See3D 能从互联网视频中高效学习 3D 先验,不依赖于昂贵的 3D 或相机标注。
  • 数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D,涵盖来自 1600 万个视频片段的 3.2 亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。
  • 多视图扩散模型训练:See3D 引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的 2D 归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得 3D”的目标。
  • 3D 生成框架:See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

如何运行 See3D

安装

git clone https://github.com/baaivision/See3D.git
cd See3D

pip install -r requirements.txt

推理代码

See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率,这需要更多的推理时间和 GPU 内存。

基于单视图输入的生成

bash single_infer.sh

基于稀疏视图输入的生成

bash sparse_infer.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
154 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
1月前
|
人工智能 算法 测试技术
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
Insight-V是由南洋理工大学、腾讯公司和清华大学联合推出的多模态模型,旨在提升长链视觉推理能力。通过渐进式数据生成、多智能体系统和两阶段训练流程,Insight-V在多个视觉推理基准测试中表现出色,展现出强大的视觉推理能力。
95 42
Insight-V:腾讯联合南洋理工、清华大学推出提升长链视觉推理能力的多模态模型
|
1月前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41524 20
|
2月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
49 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
1月前
|
人工智能 自然语言处理 物联网
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。
|
人工智能 达摩院 算法
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
|
机器学习/深度学习 人工智能 自然语言处理
【计算机视觉】最新综述:南洋理工和上海AI Lab提出基于Transformer的视觉分割综述
近期,南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于Transformer-Based的Segmentation的综述,系统地回顾了近些年来基于Transformer的分割与检测模型,调研的最新模型截止至今年6月!
|
机器学习/深度学习 数据采集 人工智能
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
247 0
|
机器学习/深度学习 人工智能 自然语言处理
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(1)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
388 0
|
人工智能 编解码 自然语言处理
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
191 0

热门文章

最新文章