每日学术速递4.11

简介: 最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

ba355b45023ece64c3a6789fbb06d777.png

标题:InstantBooth:无需测试时间微调的个性化文本到图像生成

作者:Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung

文章链接:https://arxiv.org/abs/2304.03411

项目代码:https://jshi31.github.io/InstantBooth/

471b107c61be86de9af0130dd8c0bd77.png

f7146e379410c080fc0e2ff6e021ba2c.png

aef63b04da65c4af43356295c0d30627.png

f97530c99b82cb536385c7fd0d96b9d3.png

摘要:

       个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时间微调,这既耗时又难以扩展。我们提出了 InstantBooth,这是一种基于预训练的文本到图像模型的新颖方法,无需任何测试时间微调即可实现即时文本引导图像个性化。我们通过几个主要组件来实现这一点。首先,我们通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。其次,为了保持身份的精细细节,我们通过向预训练模型引入一些适配器层来学习丰富的视觉特征表示。我们只在文本图像对上训练我们的组件,而不使用相同概念的成对图像。与 DreamBooth 和 Textual-Inversion 等基于测试时间微调的方法相比,我们的模型可以在语言-图像对齐、图像保真度和身份保存等不可见概念上产生具有竞争力的结果,同时速度提高 100 倍。

2.Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field

f0aa8d0c853f40bec41dc6f0e8506fa4.png


标题:Lift3D:通过将 2D GAN 提升到 3D 生成辐射场来合成 3D 训练数据

作者:Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen

文章链接:https://arxiv.org/abs/2304.03526

项目代码:https://len-li.github.io/lift3d-web

0fe96095d4663606602e0bb4f4146b22.png

be02ae1e8853d7c20ab0f62987718d8e.png

f379b1e136c581973581264f3c1d3548.png


摘要:

       这项工作探索了使用 3D 生成模型来合成 3D 视觉任务的训练数据。生成模型的关键要求是生成的数据应逼真以匹配真实场景,并且相应的 3D 属性应与给定的采样标签对齐。然而,我们发现最近基于 NeRF 的 3D GAN 由于其设计的生成管道和缺乏明确的 3D 监督而很难满足上述要求。在这项工作中,我们提出了 Lift3D,这是一种倒置的 2D 到 3D 生成框架,以实现数据生成目标。与之前的方法相比,Lift3D 有几个优点:(1) 与之前的 3D GAN 不同,训练后输出分辨率是固定的,Lift3D 可以泛化到任何具有更高分辨率和逼真输出的相机固有特性。 (2) 通过将分离良好的 2D GAN 提升到 3D 对象 NeRF,Lift3D 提供生成对象的显式 3D 信息,从而为下游任务提供准确的 3D 注释。我们通过扩充自动驾驶数据集来评估我们框架的有效性。实验结果表明,我们的数据生成框架可以有效提高 3D 对象检测器的性能。

3.FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction

48dfaddc63039b642c398d8526175f9c.png

标题:FineRecon:用于详细 3D 重建的深度感知前馈网络

作者:Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles

文章链接:https://arxiv.org/abs/2304.01480

be0f0f0330bbde27948f3e21cd5d2148.png

fae0cb891620414eac9fd444f0dd44be.png

64d51050ab3c05d0879369e46d2bb820.png

466b8ff791b86b06984d3a4792e721d2.png

摘要:

       最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。然而,通常表示为 3D 截断符号距离函数 (TSDF) 的重建几何结构通常很粗糙,没有精细的几何细节。为了解决这个问题,我们提出了三种有效的解决方案来提高基于推理的 3D 重建的保真度。我们首先提出了一种与分辨率无关的 TSDF 监督策略,以便在训练期间为网络提供更准确的学习信号,避免之前工作中出现的 TSDF 插值的缺陷。然后,我们引入了一种使用多视图深度估计的深度引导策略,以增强场景表示并恢复更准确的表面。最后,我们为网络的最后一层开发了一种新颖的架构,除了粗糙的体素特征之外,还对高分辨率图像特征的输出 TSDF 预测进行了调节,从而能够更清晰地重建精细细节。我们的方法产生平滑且高度准确的重建,显示出跨多个深度和 3D 重建指标的显着改进。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
12922 58
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
|
10月前
|
存储 供应链 数据可视化
惊艳!2025 蛇年新春汉服租赁管理软件哪家强?实测告诉你!
随着汉服热潮升温,2025蛇年新春临近,汉服制作与租赁行业迎来业务高峰。MBTI-J型管理者需高效协作工具,可视化团队协作软件成关键。本文推荐6款精品软件:板栗看板、Miro、Asana、Notion、Slack和Airtable。这些工具分别在流程管理、创意协作、任务分配、知识沉淀、沟通优化及数据统筹等方面各显神通,助力汉服企业提升效率、精准决策,确保新春活动顺利开展,推动品牌发展。
223 5
|
Python
Python实现万花筒效果:创造炫目的动态图案
Python实现万花筒效果:创造炫目的动态图案
329 2
|
缓存 安全 网络安全
Apache服务器配置与优化指南
【5月更文挑战第7天】Apache服务器配置与优化指南包括基础配置和性能优化。安装Apache后,编辑`httpd.conf`配置文件,设置`ServerRoot`、`Listen`、`ServerName`和`DocumentRoot`。启用虚拟主机以托管多个网站。性能优化涉及启用MPM模块(如worker或event),启用压缩功能,优化KeepAlive参数,配置缓存和限制并发连接数。安全配置包括禁用不必要的模块,设置目录权限,启用SSL/TLS及限制IP访问。通过这些措施,提升服务器性能和安全性。
|
机器学习/深度学习 存储 人工智能
极智AI | 一文看懂Google TPU脉动阵列加速卷积计算原理
本教程详细解释了 Google TPU 脉动阵列加速卷积计算原理。
2327 0
|
存储 Ubuntu Linux
嵌入式Linux系列第5篇:Nand Flash根文件系统制作
嵌入式Linux系列第5篇:Nand Flash根文件系统制作
|
JSON 缓存 算法
【Eureka】如何实现注册,续约,剔除,服务发现(一)
【Eureka】如何实现注册,续约,剔除,服务发现
479 0
|
设计模式 JavaScript 前端开发
为什么说 Vue 的响应式更新精确到组件级别?(原理深度解析)
我们都知道 Vue 对于响应式属性的更新,只会精确更新依赖收集的当前组件,而不会递归的去更新子组件,这也是它性能强大的原因之一。