每日学术速递3.23

简介: 我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Zero-1-to-3: Zero-shot One Image to 3D Object

c77893e4ab32210a640959c368663c69.png

标题:Zero-1-to-3:零拍一张图像到 3D 对象


作者:Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick

文章链接:https://arxiv.org/abs/2303.11328

项目代码:https://t.co/M0EbzrrIEh

9f2e0ab664656966e5cfa5f4d6ce8113.png

4c3f662d4eefc6a2bed9e70b3b26e454.png

870f9c6f808bf6c053528c96db217ef0.png


摘要:

       我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但我们的模型对分布外数据集以及野外图像(包括印象派绘画)保留了强大的零样本泛化能力。我们的视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,我们的方法通过利用互联网规模的预训练,显着优于最先进的单视图 3D 重建和新颖的视图合成模型。

2.A Recipe for Watermarking Diffusion Models

807dab20ace2e550978d3088d38926fd.png

标题:水印扩散模型的秘诀

作者:Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin

文章链接:https://arxiv.org/abs/2303.10137

项目代码:https://github.com/yunqing-me/WatermarkDM

c4c31b51b2197aa1c0747ebed5b4f12f.png

ef104e05987b113a1191482245ec6619.png

摘要:

       最近,扩散模型 (DM) 已经证明了它们在生成任务方面的优势潜力。人们普遍对将 DM 整合到下游应用程序中存在兴趣,例如制作或编辑逼真的图像。然而,DM 的实际部署和前所未有的强大功能引发了法律问题,包括版权保护和生成内容的监控。在这方面,水印已成为版权保护和内容监控的成熟解决方案,但在 DM 文献中尚未得到充分探索。具体来说,DM 从较长的轨道生成样本,并且可能具有新设计的多模态结构,因此需要修改传统的水印管道。为此,我们进行了全面的分析,并通过从头开始的训练或微调,得出了一个有效地为最先进的 DM(例如,稳定扩散)加水印的方法。我们的配方很简单,但涉及经验消融的实现细节,为未来水印 DM 研究提供了坚实的基础。

3.SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

99157d98c95437b267718bf32b4e362b.png


标题:SVDiff:用于扩散微调的紧凑参数空间

作者:Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang

文章链接:https://arxiv.org/abs/2303.11305

15766af9f0705ae4dd3734362ff4e50b.png

4dd9006c5ea04482c3bf95d50efdb918.png

摘要:

       扩散模型在文本到图像生成方面取得了显着的成功,能够从文本提示或其他模式创建高质量图像。然而,现有的定制这些模型的方法受到处理多个个性化对象和过度拟合风险的限制。此外,它们的大量参数对于模型存储来说是低效的。在本文中,我们提出了一种新方法来解决现有文本到图像扩散模型中的这些局限性以进行个性化。我们的方法涉及对权重矩阵的奇异值进行微调,从而形成紧凑高效的参数空间,从而降低过度拟合和语言漂移的风险。我们还提出了一种 Cut-Mix-Unmix 数据增强技术,以提高多主题图像生成的质量和一个简单的基于文本的图像编辑框架。与现有方法(vanilla DreamBooth 3.66GB,Custom Diffusion 73MB)相比,我们提出的 SVDiff 方法具有明显更小的模型大小(StableDiffusion 为 1.7MB),使其在实际应用中更加实用。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
117 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
161 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
156 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
133 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
136 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
83 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
100 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
138 0

热门文章

最新文章