See3D：智源研究院开源的无标注视频学习 3D 生成模型

2024-12-10 845

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： See3D 是智源研究院推出的无标注视频学习 3D 生成模型，能够从大规模无标注的互联网视频中学习 3D 先验，实现从视频中生成 3D 内容。See3D 采用视觉条件技术，支持从文本、单视图和稀疏视图到 3D 的生成，并能进行 3D 编辑与高斯渲染。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：See3D 支持从文本、单视图和稀疏视图生成 3D 内容，并能进行 3D 编辑与高斯渲染。
技术：采用视觉条件技术，通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
数据：构建了大规模多视角图像数据集 WebVi3D，涵盖 1600 万个视频片段的 3.2 亿帧图像。

正文（附运行示例）

See3D 是什么

公众号: 蚝油菜花 - See3D

See3D（See Video, Get 3D）是北京智源人工智能研究院推出的 3D 生成模型，能够基于大规模无标注的互联网视频进行学习，实现从视频中生成 3D 内容。与传统依赖相机参数的 3D 生成模型不同，See3D 采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。

See3D 避免了昂贵的 3D 或相机标注的需求，能高效地从互联网视频中学习 3D 先验。See3D 支持从文本、单视图和稀疏视图到 3D 的生成，能进行 3D 编辑与高斯渲染。

See3D 的主要功能

从文本、单视图和稀疏视图到 3D 的生成：See3D 能根据文本描述、单个视角的图片或少量图片生成 3D 内容。
3D 编辑与高斯渲染：模型支持对生成的 3D 内容进行编辑，使用高斯渲染技术来提高渲染效果。
解锁 3D 互动世界：输入图片后，可以生成沉浸式可交互的 3D 场景，支持用户实时探索真实空间结构。
基于稀疏图片的 3D 重建：输入少量图片（3-6 张），模型能生成精细化的 3D 场景。
开放世界 3D 生成：根据文本提示，模型可以生成艺术化的图片，基于此图片生成虚拟化的 3D 场景。
基于单视图的 3D 生成：输入一张真实场景的图片，模型能生成逼真的 3D 场景。

See3D 的技术原理

视觉条件技术：See3D 不依赖于传统的相机参数，采用视觉条件技术，通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
大规模无标注视频学习：See3D 能从互联网视频中高效学习 3D 先验，不依赖于昂贵的 3D 或相机标注。
数据集构建：团队构建了一个高质量、多样化的大规模多视角图像数据集 WebVi3D，涵盖来自 1600 万个视频片段的 3.2 亿帧图像，数据集可以通过自动化流程随互联网视频量的增长不断扩充。
多视图扩散模型训练：See3D 引入了一种新的视觉条件，通过向掩码视频数据添加时间依赖噪声，生成纯粹的 2D 归纳视觉信号，支持可扩展的多视图扩散模型（MVD）训练，避免了对相机条件的依赖，实现了“仅通过视觉获得 3D”的目标。
3D 生成框架：See3D 学到的 3D 先验能使一系列 3D 创作应用成为可能，包括基于单视图的 3D 生成、稀疏视图重建以及开放世界场景中的 3D 编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。

如何运行 See3D

安装

git clone https://github.com/baaivision/See3D.git
cd See3D

pip install -r requirements.txt

推理代码

See3D 提供了基于单视图和稀疏视图的多视图生成推理代码。根据需要添加或删除 --super_resolution 参数。多视图超分辨率模型会将默认的 512 分辨率提升到 1024 分辨率，这需要更多的推理时间和 GPU 内存。

基于单视图输入的生成

bash single_infer.sh

基于稀疏视图输入的生成

bash sparse_infer.sh

资源

项目官网：https://vision.baai.ac.cn/see3d
GitHub 仓库：https://github.com/baaivision/See3D
arXiv 技术论文：https://arxiv.org/pdf/2412.06699