每日学术速递4.22

简介: 在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

bbf374f438fa4194542ab27a5e5f029b.png

标题:通过结构感知扩散模型与草图进行基于参考的图像合成

作者:Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo

文章链接:https://arxiv.org/abs/2304.09748

项目代码:https://github.com/kangyeolk/Paint-by-Sketch

181e1b045d8ccea0aaef6240290a0fbe.png

9c7a4507b1247db1a9689cdc8652b667.png

4c3f82a40fc213fcf144009e70e142f9.png


摘要:

       最近大规模文本到图像生成模型的显着改进在生成高保真图像方面显示出有希望的结果。为了进一步增强可编辑性并实现细粒度生成,我们引入了一种多输入条件图像合成模型,该模型将草图作为一种新颖的模态与参考图像结合在一起。由于使用草图的边缘级可控性,我们的方法使用户能够编辑或完成具有所需结构(即草图)和内容(即参考图像)的图像子部分。我们的框架微调预训练扩散模型以使用参考图像完成缺失区域,同时保持草图引导。尽管简单,但这会带来广泛的机会来满足用户获取所需图像的需求。通过广泛的实验,我们证明我们提出的方法为图像处理提供了独特的用例,支持用户驱动的任意场景修改。

2.Anything-3D: Towards Single-view Anything Reconstruction in the Wild

082a723f5043d3e870c5dc1a95a23ad3.png

标题:Anything-3D:迈向野外的单视图任何重建

作者:Qiuhong Shen, Xingyi Yang, Xinchao Wang

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/Anything-of-anything/Anything-3D

4bdad24e9719b9c1e5fcabcaeca7d0b4.png

e3f1070c66701ccc9532fa02dc3ec5af.png

摘要:

       由于物体和环境固有的多样性和复杂性,在不受约束的现实世界场景中从单 RGB 图像进行 3D 重建提出了许多挑战。在本文中,我们介绍了 Anything-3D,这是一个巧妙地结合了一系列视觉语言模型和 Segment-Anything 对象分割模型以将对象提升为 3D 的系统框架,从而为单视图条件 3D 重建提供了可靠且通用的系统任务。我们的方法采用 BLIP 模型生成纹理描述,利用 Segment-Anything 模型有效提取感兴趣的对象,并利用文本到图像扩散模型将对象提升到神经辐射场。\emph{Anything-3D\footnotemark[2]} 展示了其为各种对象生成准确和详细的 3D 重建的能力,显示了解决现有方法局限性的希望。通过对各种数据集的综合实验和评估,我们展示了我们方法的优点,强调了它在 3D 重建领域做出有意义贡献的潜力。

3.ReLight My NeRF: A Dataset for Novel View Synthesis and Relighting of Real World Objects

776de22eb4f4a3fa56cedd1f38754fe4.png

标题:ReLight My NeRF:用于现实世界对象的新颖视图合成和重新照明的数据集

作者:Marco Toschi, Riccardo De Matteo, Riccardo Spezialetti, Daniele De Gregorio, Luigi Di Stefano, Samuele Salti

文章链接:https://arxiv.org/abs/2304.10448

项目代码:https://eyecan-ai.github.io/rene/

cf1edd51b58ba7f20d1a20e9dd6d78c2.png

95d672d0812124dd94bdac4a269b635b.png

2ec9a821fca04ed3e69965af490c20fd.png

3170a3dd4bbb0a7fc0dd4fa78acce7ca.png

d1b4f3c67f07f1ef347c0c3a69d028a2.png

摘要:

       在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。我们的采集管道利用两个机械臂,分别拿着一个相机和一个全向点光源。我们总共发布了 20 个场景,描绘了具有复杂几何形状和具有挑战性材料的各种物体。每个场景包括 2000 张图像,这些图像是在 40 种不同的 OLAT 条件下从 50 个不同的视角获取的。通过利用数据集,我们对普通 NeRF 架构变体的重新照明能力进行了消融研究,并确定了一种轻量级架构,该架构可以在新颖的光照条件下呈现物体的新颖视图,我们使用它来建立一个重要的基线数据集。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
122 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
142 0
每日学术速递3.20
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
102 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
154 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
144 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
152 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
170 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
118 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
95 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
82 0