备案控制台

开发者社区人工智能文章正文

CVPR 2024：全新生成式编辑框架GenN2N，统一NeRF转换任务

2024-04-29 102

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第29天】CVPR 2024 提出GenN2N框架，统一处理NeRF转换任务，将NeRF编辑转化为图像到图像转换，适用于文本驱动编辑、着色等。通过结合VAE和GAN的生成模型及对比学习正则化，保证三维一致性。虽依赖高质量预训练转换器且计算成本高，但展示了出色性能和通用性，有望广泛应用于图形学和视觉领域。[CVPR 2024, NeRF, GenN2N, 生成式编辑, 图像到图像转换]

近年来，神经辐射场（NeRF）技术在计算机图形学和计算机视觉领域取得了巨大的成功。NeRF技术能够从一组二维图像中恢复出高质量的三维场景表示，为三维场景的编辑和转换提供了新的可能性。然而，现有的NeRF转换方法通常针对特定的任务进行设计，缺乏通用性和灵活性。为了解决这个问题，CVPR 2024的一篇论文提出了一种全新的生成式编辑框架GenN2N，可以统一处理各种NeRF转换任务。

GenN2N框架的核心思想是将NeRF转换任务转化为图像到图像的转换问题，然后通过一个可插拔的图像到图像转换器来完成编辑操作。具体来说，GenN2N首先将NeRF表示转换为二维图像，然后使用一个预训练的图像到图像转换器对图像进行编辑，最后将编辑后的图像转换回NeRF表示。这种设计使得GenN2N框架可以灵活地应用于各种NeRF转换任务，如文本驱动的NeRF编辑、着色、超分辨率、图像修复等。

为了确保编辑后的NeRF表示在三维空间中的一致性，GenN2N框架引入了一个生成模型来建模潜在的三维编辑操作。该生成模型是一个变分自编码器（VAE）和生成对抗网络（GAN）的结合体，能够同时编码图像并解码NeRF表示。通过将潜在空间与高斯分布对齐，并使用对抗损失对NeRF的渲染结果进行监督，GenN2N框架可以生成各种可能的编辑后的NeRF表示。

此外，为了进一步提高编辑结果的三维一致性，GenN2N框架还引入了一种对比学习方案来正则化潜在代码。通过在不同的二维视角下对同一NeRF表示进行编码，并鼓励潜在代码在不同的视角下保持一致，GenN2N框架可以更好地捕捉到三维编辑操作的本质，从而提高编辑结果的质量。

实验结果表明，GenN2N框架在各种NeRF转换任务上都取得了出色的性能。与任务特定的方法相比，GenN2N框架在保持性能的同时，还具有更高的灵活性和可扩展性。这使得GenN2N框架成为一个通用的NeRF转换工具，可以广泛应用于计算机图形学和计算机视觉领域的各种应用中。

然而，GenN2N框架也存在一些局限性。首先，由于将NeRF转换任务转化为图像到图像的转换问题，GenN2N框架的性能在一定程度上依赖于预训练的图像到图像转换器的质量。如果预训练的转换器在特定任务上表现不佳，可能会影响到GenN2N框架的编辑结果。其次，GenN2N框架的计算成本相对较高，可能不适合实时应用。

论文地址：https://arxiv.org/abs/2404.02788

文章标签：

计算机视觉

图形学

机器学习/深度学习

编解码

楠竹11

目录

相关文章

蚝油菜花

|

26天前

|

机器学习/深度学习人工智能编解码

MV-Adapter：上交大、北航和 VAST 等联合开源多视图一致图像生成模型，将预训练的文生图扩散模型转为多视图生成器

MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器，支持生成高分辨率的多视角图像。

蚝油菜花

128 18 19

MV-Adapter：上交大、北航和 VAST 等联合开源多视图一致图像生成模型，将预训练的文生图扩散模型转为多视图生成器

蚝油菜花

|

2月前

|

人工智能

LongAlign：港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法，旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化，LongAlign显著提高了模型在长文本对齐任务上的性能，超越了现有的先进模型。

蚝油菜花

45 1 1

LongAlign：港大推出的提升文本到图像扩散模型处理长文本对齐方法

楠竹11

|

5月前

|

机器学习/深度学习计算机视觉

ICML 2024：人物交互图像，现在更懂你的提示词了，北大推出基于语义感知的人物交互图像生成框架

【8月更文挑战第30天】在计算机视觉和机器学习领域，人物交互图像生成一直充满挑战。然而，北京大学团队在ICML 2024上提出的SA-HOI（Semantic-Aware Human Object Interaction）框架带来了新突破。该框架通过评估人物姿态质量和检测交互边界区域，结合去噪与细化技术，显著提升了生成图像的合理性与质量。广泛实验表明，SA-HOI在多样化和细粒度的人物交互类别上表现出色，为该领域提供了新的解决方案。尽管存在数据集质量和计算复杂度等局限，未来仍有很大改进空间和应用潜力。

楠竹11

72 3 3

Trouble..

|

存储自然语言处理测试技术

【论文速递】COLING 2022 - 联合语言语义和结构嵌入用于知识图补全

补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同

Trouble..

259 0 0

小Lee

|

机器学习/深度学习人工智能算法

AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢？

AI Earth有没有相关文档或论文介绍平台地物分类、目标提取、变化检测等算法的原理呢？

小Lee

351 1 1

汀丶人工智能

|

机器学习/深度学习人工智能自然语言处理

中文人物关系知识图谱（含码源）：中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.

中文人物关系知识图谱（含码源）：中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.

汀丶人工智能

263 0 0

中文人物关系知识图谱（含码源）：中文人物关系图谱构建、数据回标、基于远程监督人物关系抽取、知识问答等应用.

-开发达人-

|

人工智能编解码移动开发

NeRF基于线稿生成逼真三维人脸，细节风格随意改，论文已上SIGGRAPH

NeRF基于线稿生成逼真三维人脸，细节风格随意改，论文已上SIGGRAPH

-开发达人-

472 0 0

-开发达人-

|

机器学习/深度学习算法数据挖掘

NeurIPS 2022 Spotlight｜生成式语义分割新范式GMMSeg，可同时处理闭集和开集识别

NeurIPS 2022 Spotlight｜生成式语义分割新范式GMMSeg，可同时处理闭集和开集识别

-开发达人-

80 0 0

NeurIPS 2022 Spotlight｜生成式语义分割新范式GMMSeg，可同时处理闭集和开集识别

-开发达人-

|

Web App开发自然语言处理图形学

自然语言融入NeRF，给点文字就生成3D图的LERF来了

自然语言融入NeRF，给点文字就生成3D图的LERF来了

-开发达人-

154 0 0

-开发达人-

|

机器学习/深度学习图计算图形学

NeurIPS 2022 | 文本图片编辑新范式，单个模型实现多文本引导图像编辑

NeurIPS 2022 | 文本图片编辑新范式，单个模型实现多文本引导图像编辑

-开发达人-

368 0 0

热门文章

最新文章

ip查询显示泛播是什么意思？

charles抓包显示乱码解决方法

持续定义SaaS模式云数据仓库+数据银行

从0开始打造一款APP：前端+搭建本机服务，定制暖冬卫衣先到先得

patch 命令用法详解（转）

小程序审核常见驳回类型

评测：AI客服接入钉钉与微信的对比分析

Linux的归档及压缩，Linux的cron时间计划任务， NTP网络时间协议，查看网络连接

全新Gmail网络钓鱼攻击出现最细心的用户也可能上当

Eclipse内存监控插件 FreeMem

《docker基础篇：2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理

通义万相2.1：VBench榜单荣登第一！阿里通义万相最新视频生成模型，支持生成1080P长视频

GLM-Zero：智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型，开放在线免费使用和API调用

DeepSeek Artifacts：在线实时预览的前端 AI 编程工具，基于DeepSeek V3快速生成React App

智能运维新时代：AI在云资源管理中的应用与实践

假如AI欺骗了你 | AI大咖说

写在最前的话

深度强化学习实战：训练DQN模型玩超级马里奥兄弟

体验《多模态数据信息提取》

相关课程

更多

创空间应用训练个性化模型

跨越N次元一键变身AI漫画人

计算机视觉类比赛汇总

人机对话技术浅析

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

个性化语音合成模型微调

相关电子书

更多

语义技术在儿童及其人上的突破

营销设计场景下的图像和文字生成

强化学习在电商环境下的若干应用与研究

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

以电商场景为例搭建AI语义搜索应用

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

奥运时刻！零代码生成奥运风格AI写真。

【图生图】一键部署3D卡通风格模型

下一篇

DataWorks智能交互式数据开发与分析之旅