ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散(SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像,显著减少伪影,提升视觉质量。ViewExtrapolator具有广泛的应用前景,尤其在虚拟现实、3D内容创建、电影制作等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

技术基础:基于稳定视频扩散(SVD)模型,无需微调。
主要功能:生成超出训练视图范围的新视角,减少伪影。
应用场景:广泛应用于虚拟现实、3D内容创建、电影制作等领域。

正文(附运行示例)

ViewExtrapolator 是什么

公众号: 蚝油菜花 - ViewExtrapolator

ViewExtrapolator是由南洋理工大学和UCAS研究团队共同开发的一种新型视图合成方法。它基于稳定视频扩散(Stable Video Diffusion, SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像。这种方法通过重新设计SVD的去噪过程,有效优化辐射场或点云渲染中易产生伪影的视图,生成更清晰、更逼真的新视角图像。

ViewExtrapolator不仅在数据和计算上具有高效性,还能广泛应用于不同的3D渲染技术,包括从单视图或单目视频派生的点云渲染。

ViewExtrapolator 的主要功能

  • 新视角外推:生成超出训练视图范围的新视角图像,对于提供沉浸式3D体验和自由探索重建的辐射场至关重要。
  • 伪影减少:基于稳定视频扩散(SVD)的生成先验,优化由辐射场或点云渲染产生的伪影,提高合成新视角的视觉质量。
  • 数据和计算效率:作为一个无需微调SVD的推断阶段方法,在数据和计算上都很高效,让新视角外推更加实用和可访问。
  • 广泛的适用性:与不同的3D渲染方法配合使用,包括从单视图或单目视频派生的点云渲染,具有很好的通用性和适应性。

ViewExtrapolator 的技术原理

  • SVD去噪过程:基于稳定视频扩散(SVD)模型,模型基于逐步去噪高斯噪声生成视频。
  • 引导退火和重采样退火:引入引导退火和重采样退火技术,基于在去噪过程中的不同阶段应用不同程度的引导,有效地修复未见区域并提高视觉质量。
  • 多视图一致性:用SVD的多视图一致性,对辐射场或点云渲染中未观测到的部分进行自然视频细节的生成,且保留原始内容,包括相机运动和场景动态。
  • 无需训练:用SVD的生成先验进行新视角外推,在数据和计算上都很高效。
  • 3D渲染的灵活性:无论是从多视图图像生成的辐射场,还是从单视图生成的点云,ViewExtrapolator都能处理,并有效提升渲染质量。

如何运行 ViewExtrapolator

环境配置

ViewExtrapolator的代码已经在python=3.11, pytorch=2.2.0, CUDA=12.1环境下测试通过。

运行步骤

  1. 克隆仓库

    git clone https://github.com/Kunhao-Liu/ViewExtrapolator.git
    cd ViewExtrapolator
    
  2. 多视图图像的新视角外推
    请参考multiview文件夹中的教程,使用3D Gaussian Splatting进行新视角外推。

  3. 单视图或单目视频的新视角外推
    请参考monocular文件夹中的教程,使用点云进行新视角外推。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9天前
|
自然语言处理 测试技术
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
在大语言模型(LLM)领域,结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而,以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
|
1月前
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
58 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
1月前
|
人工智能 编解码
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。
36 1
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
|
1月前
|
人工智能 安全 数据挖掘
远离生成式AI大乱斗,SAS公司揭示亚太区千亿AI市场蓝图
远离生成式AI大乱斗,SAS公司揭示亚太区千亿AI市场蓝图
|
7月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
64 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
机器学习/深度学习 人工智能 自然语言处理
北大、阿里妈妈成立联合实验室,产学大牛合体,图模型、博弈论都安排上了!
北大、阿里妈妈成立联合实验室,产学大牛合体,图模型、博弈论都安排上了!
104 0
|
数据采集 机器学习/深度学习 人工智能
国产框架MindSpore联合山水自然保护中心,寻找、保护「中华水塔」中的宝藏生命
国产框架MindSpore联合山水自然保护中心,寻找、保护「中华水塔」中的宝藏生命
全景空间唐海鹰:成果转化难在于与市场、产业资本脱节|双创载体百人谈
1.为了在孵企业在投融资上不受地域限制,全景空间在2018年上线了全景产融智能投融服务平台。 2.目前,平台已拥有2000+精选项目、100+认证投资机构、10000+认证投资人、100+创业导师。此外,全景空间举办了200多期线上线下路演活动,已为50多家企业和项目方提供深度路演综合服务,募资总额合计超12亿元。
302 0
全景空间唐海鹰:成果转化难在于与市场、产业资本脱节|双创载体百人谈
|
存储
ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法
近年来,互联网环境中的多媒体内容大量增加,如何通过视频文本相互检索,提升用户获取信息的效率,满足不同的用户对多媒体内容的消费需求变得异常重要。随着短视频内容社区的兴起,多媒体内容的创作门槛变低,UGC 内容成为主流,视频文本检索任务面临更加复杂和困难的挑战。本文针对视频文本检索任务提出层次化对比学习的跨模态检索思路,实现了更加高效且精准的视频文本检索方法,目前该论文已经被 ICCV2021 接收。
370 0
ICCV2021 | 快手联合北大提出多层次对比学习的跨模态检索方法

热门文章

最新文章