See3D:智源研究院开源的无标注视频学习 3D 生成模型

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:See3D 支持从文本、单视图和稀疏视图生成 3D 内容,并能进行 3D 编辑与高斯渲染。
  2. 技术:采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  3. 数据:构建了大规模多视角图像数据集 WebVi3D,涵盖 1600 万个视频片段的 3.2 亿帧图像。

正文(附运行示例)

See3D 是什么

公众号: 蚝油菜花 - See3D

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的 3D 生成模型,能够基于大规模无标注的互联网视频进行学习,实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同,See3D 采用视觉条件技术,仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

See3D 避免了昂贵的 3D 或相机标注的需求,能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,能进行 3D 编辑与高斯渲染。

See3D 的主要功能

  • 从文本、单视图和稀疏视图到 3D 的生成:See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
  • 3D 编辑与高斯渲染:模型支持对生成的 3D 内容进行编辑,使用高斯渲染技术来提高渲染效果。
  • 解锁 3D 互动世界:输入图片后,可以生成沉浸式可交互的 3D 场景,支持用户实时探索真实空间结构。
  • 基于稀疏图片的 3D 重建:输入少量图片(3-6 张),模型能生成精细化的 3D 场景。
  • 开放世界 3D 生成:根据文本提示,模型可以生成艺术化的图片,基于此图片生成虚拟化的 3D 场景。
  • 基于单视图的 3D 生成:输入一张真实场景的图片,模型能生成逼真的 3D 场景。

See3D 的技术原理

  • 视觉条件技术:See3D 不依赖于传统的相机参数,采用视觉条件技术,通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
  • 大规模无标注视频学习:See3D 能从互联网视频中高效学习 3D 先验,不依赖于昂贵的 3D 或相机标注。
  • 数据集构建:团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D,涵盖来自 1600 万个视频片段的 3.2 亿帧图像,数据集可以通过自动化流程随互联网视频量的增长不断扩充。
  • 多视图扩散模型训练:See3D 引入了一种新的视觉条件,通过向掩码视频数据添加时间依赖噪声,生成纯粹的 2D 归纳视觉信号,支持可扩展的多视图扩散模型(MVD)训练,避免了对相机条件的依赖,实现了“仅通过视觉获得 3D”的目标。
  • 3D 生成框架:See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能,包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等,支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

如何运行 See3D

安装

git clone https://github.com/baaivision/See3D.git
cd See3D

pip install -r requirements.txt

推理代码

See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率,这需要更多的推理时间和 GPU 内存。

基于单视图输入的生成

bash single_infer.sh

基于稀疏视图输入的生成

bash sparse_infer.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
11月前
|
SQL BI
分页查询和分页查询的性能优化
分页查询和分页查询的性能优化
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
11月前
|
机器学习/深度学习 人工智能 测试技术
O1-CODER:北交大推出的O1代码版开源项目,专注于编码任务
O1-CODER是由北京交通大学研究团队推出的开源项目,专注于编码任务。该项目结合强化学习和蒙特卡洛树搜索技术,提升模型的System-2思维能力,旨在生成更高效、逻辑性更强的代码。
306 24
O1-CODER:北交大推出的O1代码版开源项目,专注于编码任务
|
12月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
242 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
7月前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
716 0
|
11月前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
1139 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
7月前
|
人工智能 API 计算机视觉
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
583 18
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
|
10月前
|
人工智能 自然语言处理
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解
联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。
643 20
联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解
|
11月前
|
人工智能 文字识别 测试技术
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
Florence-VL是由微软和马里兰大学共同开源的多模态大语言模型,结合生成式视觉基础模型Florence-2和深度-广度融合技术,实现视觉与语言理解的深度融合,适用于多种下游任务。
338 29
Florence-VL:微软和马里兰大学共同开源的多模态大语言模型
|
11月前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
505 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息

热门文章

最新文章