StereoCrafter:腾讯开源将任意2D视频转换为立体3D视频的框架,适用于Apple Vision Pro等多种显示设备

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: StereoCrafter 是腾讯开源的框架,能够将单目2D视频转换为高保真度的立体3D视频,适用于多种显示设备。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:StereoCrafter 能够将单目2D视频转换为立体3D视频,适用于多种显示设备。
  2. 技术:基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的视频转换。
  3. 应用:广泛应用于影视制作、虚拟现实、游戏开发、在线教育和广告营销等领域。

正文(附运行示例)

StereoCrafter 是什么

公众号: 蚝油菜花 - StereoCrafter

StereoCrafter 是腾讯 AI Lab 和 ARC Lab 共同推出的创新框架,旨在将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。该框架基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。

StereoCrafter 使用预训练的稳定视频扩散模型作为基础,并针对立体视频修复任务进行微调,能够适应不同长度和分辨率的视频输入。通过这一框架,开发者可以轻松将传统的2D视频素材转换为沉浸式的3D版本,为数字媒体的未来发展提供新的可能性。

StereoCrafter 的主要功能

  1. 2D到3D视频转换:将单目2D视频转换为沉浸式立体3D视频,适用于多种显示设备,如3D眼镜和Apple Vision Pro。
  2. 高保真度生成:使用深度学习技术,确保生成的视频具有高质量和一致性,满足现代3D显示设备的需求。
  3. 深度估计:基于先进的深度估计方法,获取输入视频的深度信息,为后续处理提供基础。
  4. 视频splatting:使用深度图进行视频变形,生成右视图并提取遮挡掩码,处理视频中的遮挡区域。
  5. 立体视频修复:填补变形后视频中的空缺区域,确保最终生成的立体视频完整且自然。

StereoCrafter 的技术原理

  1. 深度估计:基于先进的深度估计模型(如DepthCrafter)从输入的单目视频中提取深度图。
  2. 视频splatting:基于深度图,将左视图视频变形为右视图,生成遮挡掩码,处理视频中的遮挡情况。
  3. 立体视频修复:使用生成的遮挡掩码,基于立体视频修复技术填补变形后视频中的空缺区域,生成最终的右视图视频。
  4. 数据处理流水线:构建高质量的数据集支持模型训练,确保生成结果的高保真度和一致性。

如何运行 StereoCrafter

1. 设置环境

StereoCrafter 运行在 Python 3.8 和 Cuda 11.8 环境下。你可以使用 Anaconda 或 Docker 来构建基础环境。

2. 克隆仓库

git clone --recursive https://github.com/TencentARC/StereoCrafter
cd StereoCrafter

3. 安装依赖

pip install -r requirements.txt

4. 安装自定义的 Forward-Warp 包

cd ./dependency/Forward-Warp
chmod a+x install.sh
./install.sh

5. 下载模型权重

mkdir weights
cd ./weights
git lfs install
git clone https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1
git clone https://huggingface.co/tencent/DepthCrafter
git clone https://huggingface.co/TencentARC/StereoCrafter

6. 运行推理脚本

sh run_inference.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 自然语言处理 文字识别
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
【2月更文挑战第17天】阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
458 2
阿里推出AnyText: 解决AI绘图不会写字的问题,可以任意指定文字位置,且支持多国语言!
|
17天前
|
存储 索引
「Mac畅玩鸿蒙与硬件44」UI互动应用篇21 - 随机励志语录生成器
本篇将带你实现一个随机励志语录生成器应用。用户点击按钮后,界面会随机显示一条预设的励志语录。该应用展示了如何结合数组操作、状态管理和动态更新界面内容的功能,是一个轻量级的互动应用示例。
88 21
「Mac畅玩鸿蒙与硬件44」UI互动应用篇21 - 随机励志语录生成器
|
8月前
|
人工智能 自然语言处理 开发者
ICLR 2024 Spotlight:大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
【2月更文挑战第29天】研究人员在ICLR 2024展示了OmniQuant技术,这是一种针对大型语言模型(如GPT-4和LLaMA)的全面低比特量化方法,旨在降低内存占用和提高计算效率。OmniQuant包含可学习的权重裁剪(LWC)和可学习的等价变换(LET),在保持模型性能的同时减少了计算资源需求。该技术已在商用APP中实施,并在LLaMA-2模型上验证了其高效性。OmniQuant的开源代码已发布在GitHub,促进了技术交流和进步,有望推动资源受限环境中的AI应用。
133 1
ICLR 2024 Spotlight:大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP
|
编解码 数据挖掘 Go
Google Earth Engine ——数据全解析专辑(US NED mTPI (生态相关地貌(ERGo)270m分辨率数据集)
Google Earth Engine ——数据全解析专辑(US NED mTPI (生态相关地貌(ERGo)270m分辨率数据集)
182 0
Google Earth Engine ——数据全解析专辑(US NED mTPI (生态相关地貌(ERGo)270m分辨率数据集)
|
机器学习/深度学习 人工智能 算法
手机看PDF有救了!Adobe发布「Liquid Mode」液体模式自适应手机屏幕
Adobe近日在手机应用程序Acrobat Reader中发布了一个叫做「Liquid Mode」液体模式的功能,可以根据智能手机的屏幕大小来自适应调节PDF的排版,获得更好的效果。
834 0
手机看PDF有救了!Adobe发布「Liquid Mode」液体模式自适应手机屏幕
|
Go Android开发 iOS开发
Surface Pro 8原型机图片曝光,设计保持不变
目前全球占比最高的三大系统仍然是Android、Windows和iOS,其中微软和苹果都想建立包含手机、平板、电脑的完整软硬件生态系统。
170 0
Surface Pro 8原型机图片曝光,设计保持不变

热门文章

最新文章