每日学术速递4.11

简介: 最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

ba355b45023ece64c3a6789fbb06d777.png

标题:InstantBooth:无需测试时间微调的个性化文本到图像生成

作者:Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung

文章链接:https://arxiv.org/abs/2304.03411

项目代码:https://jshi31.github.io/InstantBooth/

471b107c61be86de9af0130dd8c0bd77.png

f7146e379410c080fc0e2ff6e021ba2c.png

aef63b04da65c4af43356295c0d30627.png

f97530c99b82cb536385c7fd0d96b9d3.png

摘要:

       个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时间微调,这既耗时又难以扩展。我们提出了 InstantBooth,这是一种基于预训练的文本到图像模型的新颖方法,无需任何测试时间微调即可实现即时文本引导图像个性化。我们通过几个主要组件来实现这一点。首先,我们通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。其次,为了保持身份的精细细节,我们通过向预训练模型引入一些适配器层来学习丰富的视觉特征表示。我们只在文本图像对上训练我们的组件,而不使用相同概念的成对图像。与 DreamBooth 和 Textual-Inversion 等基于测试时间微调的方法相比,我们的模型可以在语言-图像对齐、图像保真度和身份保存等不可见概念上产生具有竞争力的结果,同时速度提高 100 倍。

2.Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field

f0aa8d0c853f40bec41dc6f0e8506fa4.png


标题:Lift3D:通过将 2D GAN 提升到 3D 生成辐射场来合成 3D 训练数据

作者:Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen

文章链接:https://arxiv.org/abs/2304.03526

项目代码:https://len-li.github.io/lift3d-web

0fe96095d4663606602e0bb4f4146b22.png

be02ae1e8853d7c20ab0f62987718d8e.png

f379b1e136c581973581264f3c1d3548.png


摘要:

       这项工作探索了使用 3D 生成模型来合成 3D 视觉任务的训练数据。生成模型的关键要求是生成的数据应逼真以匹配真实场景,并且相应的 3D 属性应与给定的采样标签对齐。然而,我们发现最近基于 NeRF 的 3D GAN 由于其设计的生成管道和缺乏明确的 3D 监督而很难满足上述要求。在这项工作中,我们提出了 Lift3D,这是一种倒置的 2D 到 3D 生成框架,以实现数据生成目标。与之前的方法相比,Lift3D 有几个优点:(1) 与之前的 3D GAN 不同,训练后输出分辨率是固定的,Lift3D 可以泛化到任何具有更高分辨率和逼真输出的相机固有特性。 (2) 通过将分离良好的 2D GAN 提升到 3D 对象 NeRF,Lift3D 提供生成对象的显式 3D 信息,从而为下游任务提供准确的 3D 注释。我们通过扩充自动驾驶数据集来评估我们框架的有效性。实验结果表明,我们的数据生成框架可以有效提高 3D 对象检测器的性能。

3.FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction

48dfaddc63039b642c398d8526175f9c.png

标题:FineRecon:用于详细 3D 重建的深度感知前馈网络

作者:Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles

文章链接:https://arxiv.org/abs/2304.01480

be0f0f0330bbde27948f3e21cd5d2148.png

fae0cb891620414eac9fd444f0dd44be.png

64d51050ab3c05d0879369e46d2bb820.png

466b8ff791b86b06984d3a4792e721d2.png

摘要:

       最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。然而,通常表示为 3D 截断符号距离函数 (TSDF) 的重建几何结构通常很粗糙,没有精细的几何细节。为了解决这个问题,我们提出了三种有效的解决方案来提高基于推理的 3D 重建的保真度。我们首先提出了一种与分辨率无关的 TSDF 监督策略,以便在训练期间为网络提供更准确的学习信号,避免之前工作中出现的 TSDF 插值的缺陷。然后,我们引入了一种使用多视图深度估计的深度引导策略,以增强场景表示并恢复更准确的表面。最后,我们为网络的最后一层开发了一种新颖的架构,除了粗糙的体素特征之外,还对高分辨率图像特征的输出 TSDF 预测进行了调节,从而能够更清晰地重建精细细节。我们的方法产生平滑且高度准确的重建,显示出跨多个深度和 3D 重建指标的显着改进。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
158 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
150 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
111 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
162 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
160 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
76 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
136 0

热门文章

最新文章