CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务

简介: 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来,神经辐射场(NeRF)技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示,为三维场景的编辑和转换提供了新的可能性。然而,现有的NeRF转换方法通常针对特定的任务进行设计,缺乏通用性和灵活性。为了解决这个问题,CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N,可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题,然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说,GenN2N首先将NeRF表示转换为二维图像,然后使用一个预训练的图像到图像转换器对图像进行编辑,最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务,如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性,GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器(VAE)和生成对抗网络(GAN)的结合体,能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐,并使用对抗损失对NeRF的渲染结果进行监督,GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外,为了进一步提高编辑结果的三维一致性,GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码,并鼓励潜在代码在不同的视角下保持一致,GenN2N框架可以更好地捕捉到三维编辑操作的本质,从而提高编辑结果的质量。

实验结果表明,GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比,GenN2N框架在保持性能的同时,还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具,可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而,GenN2N框架也存在一些局限性。首先,由于将NeRF转换任务转化为图像到图像的转换问题,GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳,可能会影响到GenN2N框架的编辑结果。其次,GenN2N框架的计算成本相对较高,可能不适合实时应用。

论文地址:https://arxiv.org/abs/2404.02788

目录
相关文章
|
消息中间件 存储 运维
浅析阿里《云原生架构白皮书》
提前看了《云原生架构白皮书》一直想着要写点东西,拖延来去[《白皮书》](https://developer.aliyun.com/topic/cn-architecture-paper)已经正式发布2天了,我还迟迟没有动手。没动手的一方面原因是我的懒癌症又犯了;另一个原因是《白皮书》覆盖面之广,基本触及到云原生的方方面面,而我在云原生方面的知识储备不足以支撑我写出一篇好文。
5986 0
浅析阿里《云原生架构白皮书》
|
8月前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
367 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
人工智能 Cloud Native Java
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
新趋势、新开源、新实践|云栖大会 AI 原生应用架构专场邀您参会
559 124
|
10月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
613 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
11月前
|
消息中间件 开发框架 .NET
.NET 8 强大功能 IHostedService 与 BackgroundService 实战
【11月更文挑战第7天】本文介绍了 ASP.NET Core 中的 `IHostedService` 和 `BackgroundService` 接口及其用途。`IHostedService` 定义了 `StartAsync` 和 `StopAsync` 方法,用于在应用启动和停止时执行异步操作,适用于资源初始化和清理等任务。`BackgroundService` 是 `IHostedService` 的抽象实现,简化了后台任务的编写,通过 `ExecuteAsync` 方法实现长时间运行的任务逻辑。文章还提供了创建和注册这两个服务的实战步骤,帮助开发者在实际项目中应用这些功能。
437 0
|
前端开发 小程序 容器
wxss和css的区别
wxss和css的区别
678 2
|
12月前
|
数据采集 存储 数据安全/隐私保护
CDGA|数据治理:自上而下与自下而上的双重策略
数据治理是一个复杂而长期的过程,需要企业从多个方面入手进行综合治理。自上而下和自下而上的双重策略可以相互补充、相互促进,共同推动企业数据治理工作的深入开展。在实践中,企业需要根据自身实际情况选择合适的策略和方法,确保数据治理工作的有效性和可持续性。
|
数据采集 存储 算法
【2024泰迪杯】B 题:基于多模态特征融合的图像文本检索20页论文及Python代码
本文介绍了2024年泰迪杯B题的解决方案,该题目要求构建基于多模态特征融合的图像文本检索模型和算法,通过深入分析和预处理数据集,构建了OFA、BertCLIP和ChineseCLIP三种多模态特征融合模型,并通过投票融合机制优化检索效果,实验结果表明所提模型在图像与文本检索任务中显著提高了检索准确性和效率。
313 3
|
人工智能 Java 测试技术
开源上新|FunASR英文离线文件转写软件包发布
开源上新|FunASR英文离线文件转写软件包发布