CVPR 2024:全新生成式编辑框架GenN2N,统一NeRF转换任务

简介: 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架,统一处理NeRF转换任务,将NeRF编辑转化为图像到图像转换,适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化,保证三维一致性。虽依赖高质量预训练转换器且计算成本高,但展示了出色性能和通用性,有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来,神经辐射场(NeRF)技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示,为三维场景的编辑和转换提供了新的可能性。然而,现有的NeRF转换方法通常针对特定的任务进行设计,缺乏通用性和灵活性。为了解决这个问题,CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N,可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题,然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说,GenN2N首先将NeRF表示转换为二维图像,然后使用一个预训练的图像到图像转换器对图像进行编辑,最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务,如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性,GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器(VAE)和生成对抗网络(GAN)的结合体,能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐,并使用对抗损失对NeRF的渲染结果进行监督,GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外,为了进一步提高编辑结果的三维一致性,GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码,并鼓励潜在代码在不同的视角下保持一致,GenN2N框架可以更好地捕捉到三维编辑操作的本质,从而提高编辑结果的质量。

实验结果表明,GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比,GenN2N框架在保持性能的同时,还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具,可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而,GenN2N框架也存在一些局限性。首先,由于将NeRF转换任务转化为图像到图像的转换问题,GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳,可能会影响到GenN2N框架的编辑结果。其次,GenN2N框架的计算成本相对较高,可能不适合实时应用。

论文地址:https://arxiv.org/abs/2404.02788

目录
相关文章
|
6月前
|
图形学 计算机视觉
CVPR 2024:仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景
【4月更文挑战第22天】CustomNeRF是CVPR 2024会议上的一项创新框架,它利用文本描述或参考图像实现3D场景的精准编辑。通过局部-全局迭代编辑(LGIE)训练和类别先验正则化,该框架能精确编辑前景区域同时保持背景一致性。尽管依赖预训练模型且局限于文本和图像输入,CustomNeRF在实验中展现了高效编辑能力,为3D场景编辑开辟新路径。[链接](https://arxiv.org/abs/2312.01663)
80 2
|
6月前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
11天前
|
人工智能 文字识别 测试技术
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮
苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。
30 3
|
3月前
|
机器学习/深度学习 自然语言处理 vr&ar
ICML 2024:复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
【8月更文挑战第24天】近年来,3D内容生成技术为虚拟现实和游戏领域带来革新,但仍面临处理复杂场景和多对象交互的挑战。为此,研究者提出了Layout-guided Gaussian Splatting (LGS)框架,结合大型语言模型(LLMs)和扩散模型,实现高质量3D场景生成。LGS通过LLMs提取文本描述中的实例关系并转化为布局,再使用扩散模型和自适应几何控制技术优化3D高斯表示,生成更准确、细腻的场景。实验表明,LGS在复杂场景生成方面表现优异,但计算成本和训练时间较长,且主要针对静态场景。论文详情参见:https://arxiv.org/pdf/2402.07207
54 3
|
机器学习/深度学习 人工智能 算法
AI Earth工具箱中的路网中心线提取算法
AI Earth工具箱中的路网中心线提取算法
255 1
|
6月前
|
人工智能 算法 数据可视化
AI Earth ——开发者模式案例7:植被覆盖度提取
AI Earth ——开发者模式案例7:植被覆盖度提取
95 9
|
11月前
|
机器学习/深度学习 人工智能 算法
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢?
338 1
|
数据挖掘 测试技术
【论文速递】EMNLP 2022 - 一种大规模中文标题数据集的开放事件抽取基准
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式
204 0
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
人工智能 人机交互
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
可组合扩散模型主打Any-to-Any生成:文本、图像、视频、音频全都行
178 0