CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务

简介: 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来,神经辐射场(NeRF)技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示,为三维场景的编辑和转换提供了新的可能性。然而,现有的NeRF转换方法通常针对特定的任务进行设计,缺乏通用性和灵活性。为了解决这个问题,CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N,可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题,然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说,GenN2N首先将NeRF表示转换为二维图像,然后使用一个预训练的图像到图像转换器对图像进行编辑,最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务,如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性,GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器(VAE)和生成对抗网络(GAN)的结合体,能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐,并使用对抗损失对NeRF的渲染结果进行监督,GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外,为了进一步提高编辑结果的三维一致性,GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码,并鼓励潜在代码在不同的视角下保持一致,GenN2N框架可以更好地捕捉到三维编辑操作的本质,从而提高编辑结果的质量。

实验结果表明,GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比,GenN2N框架在保持性能的同时,还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具,可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而,GenN2N框架也存在一些局限性。首先,由于将NeRF转换任务转化为图像到图像的转换问题,GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳,可能会影响到GenN2N框架的编辑结果。其次,GenN2N框架的计算成本相对较高,可能不适合实时应用。

论文地址:https://arxiv.org/abs/2404.02788

目录
相关文章
|
2天前
|
图形学 计算机视觉
CVPR 2024:仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景
【4月更文挑战第22天】CustomNeRF是CVPR 2024会议上的一项创新框架,它利用文本描述或参考图像实现3D场景的精准编辑。通过局部-全局迭代编辑(LGIE)训练和类别先验正则化,该框架能精确编辑前景区域同时保持背景一致性。尽管依赖预训练模型且局限于文本和图像输入,CustomNeRF在实验中展现了高效编辑能力,为3D场景编辑开辟新路径。[链接](https://arxiv.org/abs/2312.01663)
21 2
|
2天前
|
人工智能 算法 数据可视化
AI Earth ——开发者模式案例7:植被覆盖度提取
AI Earth ——开发者模式案例7:植被覆盖度提取
45 9
|
8月前
|
机器学习/深度学习 人工智能 算法
AI Earth工具箱中的路网中心线提取算法
AI Earth工具箱中的路网中心线提取算法
198 1
|
9月前
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
206 0
|
5月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
304 1
|
9月前
|
数据挖掘 测试技术
【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式
128 0
|
12月前
|
Web App开发 自然语言处理 图形学
自然语言融入NeRF,给点文字就生成3D图的LERF来了
自然语言融入NeRF,给点文字就生成3D图的LERF来了
113 0
|
12月前
|
机器学习/深度学习 图计算 图形学
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
309 0
|
机器学习/深度学习 自然语言处理 JavaScript
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
212 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(1)
7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构