CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务

简介: 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来,神经辐射场(NeRF)技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示,为三维场景的编辑和转换提供了新的可能性。然而,现有的NeRF转换方法通常针对特定的任务进行设计,缺乏通用性和灵活性。为了解决这个问题,CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N,可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题,然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说,GenN2N首先将NeRF表示转换为二维图像,然后使用一个预训练的图像到图像转换器对图像进行编辑,最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务,如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性,GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器(VAE)和生成对抗网络(GAN)的结合体,能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐,并使用对抗损失对NeRF的渲染结果进行监督,GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外,为了进一步提高编辑结果的三维一致性,GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码,并鼓励潜在代码在不同的视角下保持一致,GenN2N框架可以更好地捕捉到三维编辑操作的本质,从而提高编辑结果的质量。

实验结果表明,GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比,GenN2N框架在保持性能的同时,还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具,可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而,GenN2N框架也存在一些局限性。首先,由于将NeRF转换任务转化为图像到图像的转换问题,GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳,可能会影响到GenN2N框架的编辑结果。其次,GenN2N框架的计算成本相对较高,可能不适合实时应用。

论文地址:https://arxiv.org/abs/2404.02788

目录
相关文章
|
6月前
|
人工智能 算法 数据可视化
AI Earth ——开发者模式案例6:决策树模型实现冬小麦提取
AI Earth ——开发者模式案例6:决策树模型实现冬小麦提取
77 2
|
6月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
3月前
|
机器学习/深度学习 自然语言处理 vr&ar
ICML 2024:复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
【8月更文挑战第24天】近年来,3D内容生成技术为虚拟现实和游戏领域带来革新,但仍面临处理复杂场景和多对象交互的挑战。为此,研究者提出了Layout-guided Gaussian Splatting (LGS)框架,结合大型语言模型(LLMs)和扩散模型,实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局,再使用扩散模型和自适应几何控制技术优化3D高斯表示,生成更准确、细腻的场景。实验表明,LGS在复杂场景生成方面表现优异,但计算成本和训练时间较长,且主要针对静态场景。论文详情参见:https://arxiv.org/pdf/2402.07207
46 3
|
存储 自然语言处理 测试技术
【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全
补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同
243 0
|
11月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
334 1
|
机器学习/深度学习 自然语言处理 搜索推荐
【论文速递】NAACL2022- 文档级事件论元抽取的双流AMR增强模型
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
172 0
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
174 0
|
Web App开发 自然语言处理 图形学
自然语言融入NeRF,给点文字就生成3D图的LERF来了
自然语言融入NeRF,给点文字就生成3D图的LERF来了
140 0
|
机器学习/深度学习 图计算 图形学
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
350 0
|
机器学习/深度学习 自然语言处理 JavaScript
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
7 Papers & Radios | 首个用于工业开发的自动代码生成系统;多模态图像合成与编辑综述
238 0