每日学术速递4.22

简介: 在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

bbf374f438fa4194542ab27a5e5f029b.png

标题:通过结构感知扩散模型与草图进行基于参考的图像合成

作者:Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo

文章链接:https://arxiv.org/abs/2304.09748

项目代码:https://github.com/kangyeolk/Paint-by-Sketch

181e1b045d8ccea0aaef6240290a0fbe.png

9c7a4507b1247db1a9689cdc8652b667.png

4c3f82a40fc213fcf144009e70e142f9.png


摘要:

       最近大规模文本到图像生成模型的显着改进在生成高保真图像方面显示出有希望的结果。为了进一步增强可编辑性并实现细粒度生成,我们引入了一种多输入条件图像合成模型,该模型将草图作为一种新颖的模态与参考图像结合在一起。由于使用草图的边缘级可控性,我们的方法使用户能够编辑或完成具有所需结构(即草图)和内容(即参考图像)的图像子部分。我们的框架微调预训练扩散模型以使用参考图像完成缺失区域,同时保持草图引导。尽管简单,但这会带来广泛的机会来满足用户获取所需图像的需求。通过广泛的实验,我们证明我们提出的方法为图像处理提供了独特的用例,支持用户驱动的任意场景修改。

2.Anything-3D: Towards Single-view Anything Reconstruction in the Wild

082a723f5043d3e870c5dc1a95a23ad3.png

标题:Anything-3D:迈向野外的单视图任何重建

作者:Qiuhong Shen, Xingyi Yang, Xinchao Wang

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/Anything-of-anything/Anything-3D

4bdad24e9719b9c1e5fcabcaeca7d0b4.png

e3f1070c66701ccc9532fa02dc3ec5af.png

摘要:

       由于物体和环境固有的多样性和复杂性,在不受约束的现实世界场景中从单 RGB 图像进行 3D 重建提出了许多挑战。在本文中,我们介绍了 Anything-3D,这是一个巧妙地结合了一系列视觉语言模型和 Segment-Anything 对象分割模型以将对象提升为 3D 的系统框架,从而为单视图条件 3D 重建提供了可靠且通用的系统任务。我们的方法采用 BLIP 模型生成纹理描述,利用 Segment-Anything 模型有效提取感兴趣的对象,并利用文本到图像扩散模型将对象提升到神经辐射场。\emph{Anything-3D\footnotemark[2]} 展示了其为各种对象生成准确和详细的 3D 重建的能力,显示了解决现有方法局限性的希望。通过对各种数据集的综合实验和评估,我们展示了我们方法的优点,强调了它在 3D 重建领域做出有意义贡献的潜力。

3.ReLight My NeRF: A Dataset for Novel View Synthesis and Relighting of Real World Objects

776de22eb4f4a3fa56cedd1f38754fe4.png

标题:ReLight My NeRF:用于现实世界对象的新颖视图合成和重新照明的数据集

作者:Marco Toschi, Riccardo De Matteo, Riccardo Spezialetti, Daniele De Gregorio, Luigi Di Stefano, Samuele Salti

文章链接:https://arxiv.org/abs/2304.10448

项目代码:https://eyecan-ai.github.io/rene/

cf1edd51b58ba7f20d1a20e9dd6d78c2.png

95d672d0812124dd94bdac4a269b635b.png

2ec9a821fca04ed3e69965af490c20fd.png

3170a3dd4bbb0a7fc0dd4fa78acce7ca.png

d1b4f3c67f07f1ef347c0c3a69d028a2.png

摘要:

       在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。我们的采集管道利用两个机械臂,分别拿着一个相机和一个全向点光源。我们总共发布了 20 个场景,描绘了具有复杂几何形状和具有挑战性材料的各种物体。每个场景包括 2000 张图像,这些图像是在 40 种不同的 OLAT 条件下从 50 个不同的视角获取的。通过利用数据集,我们对普通 NeRF 架构变体的重新照明能力进行了消融研究,并确定了一种轻量级架构,该架构可以在新颖的光照条件下呈现物体的新颖视图,我们使用它来建立一个重要的基线数据集。

相关文章
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
146 0
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
147 0
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
141 0
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
183 0
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
159 0
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
244 0
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
168 0
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
209 0
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
229 0
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
202 0