CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Zero-1-to-3: Zero-shot One Image to 3D Object
标题:Zero-1-to-3:零拍一张图像到 3D 对象
作者:Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick
文章链接:https://arxiv.org/abs/2303.11328
摘要:
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但我们的模型对分布外数据集以及野外图像(包括印象派绘画)保留了强大的零样本泛化能力。我们的视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,我们的方法通过利用互联网规模的预训练,显着优于最先进的单视图 3D 重建和新颖的视图合成模型。
2.A Recipe for Watermarking Diffusion Models
标题:水印扩散模型的秘诀
作者:Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin
文章链接:https://arxiv.org/abs/2303.10137
项目代码:https://github.com/yunqing-me/WatermarkDM
摘要:
最近,扩散模型 (DM) 已经证明了它们在生成任务方面的优势潜力。人们普遍对将 DM 整合到下游应用程序中存在兴趣,例如制作或编辑逼真的图像。然而,DM 的实际部署和前所未有的强大功能引发了法律问题,包括版权保护和生成内容的监控。在这方面,水印已成为版权保护和内容监控的成熟解决方案,但在 DM 文献中尚未得到充分探索。具体来说,DM 从较长的轨道生成样本,并且可能具有新设计的多模态结构,因此需要修改传统的水印管道。为此,我们进行了全面的分析,并通过从头开始的训练或微调,得出了一个有效地为最先进的 DM(例如,稳定扩散)加水印的方法。我们的配方很简单,但涉及经验消融的实现细节,为未来水印 DM 研究提供了坚实的基础。
3.SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
标题:SVDiff:用于扩散微调的紧凑参数空间
作者:Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang
文章链接:https://arxiv.org/abs/2303.11305
摘要:
扩散模型在文本到图像生成方面取得了显着的成功,能够从文本提示或其他模式创建高质量图像。然而,现有的定制这些模型的方法受到处理多个个性化对象和过度拟合风险的限制。此外,它们的大量参数对于模型存储来说是低效的。在本文中,我们提出了一种新方法来解决现有文本到图像扩散模型中的这些局限性以进行个性化。我们的方法涉及对权重矩阵的奇异值进行微调,从而形成紧凑高效的参数空间,从而降低过度拟合和语言漂移的风险。我们还提出了一种 Cut-Mix-Unmix 数据增强技术,以提高多主题图像生成的质量和一个简单的基于文本的图像编辑框架。与现有方法(vanilla DreamBooth 3.66GB,Custom Diffusion 73MB)相比,我们提出的 SVDiff 方法具有明显更小的模型大小(StableDiffusion 为 1.7MB),使其在实际应用中更加实用。