每日学术速递3.23

简介: 我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Zero-1-to-3: Zero-shot One Image to 3D Object

c77893e4ab32210a640959c368663c69.png

标题:Zero-1-to-3:零拍一张图像到 3D 对象


作者:Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick

文章链接:https://arxiv.org/abs/2303.11328

项目代码:https://t.co/M0EbzrrIEh

9f2e0ab664656966e5cfa5f4d6ce8113.png

4c3f662d4eefc6a2bed9e70b3b26e454.png

870f9c6f808bf6c053528c96db217ef0.png


摘要:

       我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但我们的模型对分布外数据集以及野外图像(包括印象派绘画)保留了强大的零样本泛化能力。我们的视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,我们的方法通过利用互联网规模的预训练,显着优于最先进的单视图 3D 重建和新颖的视图合成模型。

2.A Recipe for Watermarking Diffusion Models

807dab20ace2e550978d3088d38926fd.png

标题:水印扩散模型的秘诀

作者:Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin

文章链接:https://arxiv.org/abs/2303.10137

项目代码:https://github.com/yunqing-me/WatermarkDM

c4c31b51b2197aa1c0747ebed5b4f12f.png

ef104e05987b113a1191482245ec6619.png

摘要:

       最近,扩散模型 (DM) 已经证明了它们在生成任务方面的优势潜力。人们普遍对将 DM 整合到下游应用程序中存在兴趣,例如制作或编辑逼真的图像。然而,DM 的实际部署和前所未有的强大功能引发了法律问题,包括版权保护和生成内容的监控。在这方面,水印已成为版权保护和内容监控的成熟解决方案,但在 DM 文献中尚未得到充分探索。具体来说,DM 从较长的轨道生成样本,并且可能具有新设计的多模态结构,因此需要修改传统的水印管道。为此,我们进行了全面的分析,并通过从头开始的训练或微调,得出了一个有效地为最先进的 DM(例如,稳定扩散)加水印的方法。我们的配方很简单,但涉及经验消融的实现细节,为未来水印 DM 研究提供了坚实的基础。

3.SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

99157d98c95437b267718bf32b4e362b.png


标题:SVDiff:用于扩散微调的紧凑参数空间

作者:Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang

文章链接:https://arxiv.org/abs/2303.11305

15766af9f0705ae4dd3734362ff4e50b.png

4dd9006c5ea04482c3bf95d50efdb918.png

摘要:

       扩散模型在文本到图像生成方面取得了显着的成功,能够从文本提示或其他模式创建高质量图像。然而,现有的定制这些模型的方法受到处理多个个性化对象和过度拟合风险的限制。此外,它们的大量参数对于模型存储来说是低效的。在本文中,我们提出了一种新方法来解决现有文本到图像扩散模型中的这些局限性以进行个性化。我们的方法涉及对权重矩阵的奇异值进行微调,从而形成紧凑高效的参数空间,从而降低过度拟合和语言漂移的风险。我们还提出了一种 Cut-Mix-Unmix 数据增强技术,以提高多主题图像生成的质量和一个简单的基于文本的图像编辑框架。与现有方法(vanilla DreamBooth 3.66GB,Custom Diffusion 73MB)相比,我们提出的 SVDiff 方法具有明显更小的模型大小(StableDiffusion 为 1.7MB),使其在实际应用中更加实用。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
114 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
156 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
109 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
145 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
93 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
121 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
98 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
132 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
166 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
119 0