每日学术速递3.23

简介: 我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Zero-1-to-3: Zero-shot One Image to 3D Object

c77893e4ab32210a640959c368663c69.png

标题:Zero-1-to-3:零拍一张图像到 3D 对象


作者:Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick

文章链接:https://arxiv.org/abs/2303.11328

项目代码:https://t.co/M0EbzrrIEh

9f2e0ab664656966e5cfa5f4d6ce8113.png

4c3f662d4eefc6a2bed9e70b3b26e454.png

870f9c6f808bf6c053528c96db217ef0.png


摘要:

       我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但我们的模型对分布外数据集以及野外图像(包括印象派绘画)保留了强大的零样本泛化能力。我们的视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,我们的方法通过利用互联网规模的预训练,显着优于最先进的单视图 3D 重建和新颖的视图合成模型。

2.A Recipe for Watermarking Diffusion Models

807dab20ace2e550978d3088d38926fd.png

标题:水印扩散模型的秘诀

作者:Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin

文章链接:https://arxiv.org/abs/2303.10137

项目代码:https://github.com/yunqing-me/WatermarkDM

c4c31b51b2197aa1c0747ebed5b4f12f.png

ef104e05987b113a1191482245ec6619.png

摘要:

       最近,扩散模型 (DM) 已经证明了它们在生成任务方面的优势潜力。人们普遍对将 DM 整合到下游应用程序中存在兴趣,例如制作或编辑逼真的图像。然而,DM 的实际部署和前所未有的强大功能引发了法律问题,包括版权保护和生成内容的监控。在这方面,水印已成为版权保护和内容监控的成熟解决方案,但在 DM 文献中尚未得到充分探索。具体来说,DM 从较长的轨道生成样本,并且可能具有新设计的多模态结构,因此需要修改传统的水印管道。为此,我们进行了全面的分析,并通过从头开始的训练或微调,得出了一个有效地为最先进的 DM(例如,稳定扩散)加水印的方法。我们的配方很简单,但涉及经验消融的实现细节,为未来水印 DM 研究提供了坚实的基础。

3.SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

99157d98c95437b267718bf32b4e362b.png


标题:SVDiff:用于扩散微调的紧凑参数空间

作者:Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang

文章链接:https://arxiv.org/abs/2303.11305

15766af9f0705ae4dd3734362ff4e50b.png

4dd9006c5ea04482c3bf95d50efdb918.png

摘要:

       扩散模型在文本到图像生成方面取得了显着的成功,能够从文本提示或其他模式创建高质量图像。然而,现有的定制这些模型的方法受到处理多个个性化对象和过度拟合风险的限制。此外,它们的大量参数对于模型存储来说是低效的。在本文中,我们提出了一种新方法来解决现有文本到图像扩散模型中的这些局限性以进行个性化。我们的方法涉及对权重矩阵的奇异值进行微调,从而形成紧凑高效的参数空间,从而降低过度拟合和语言漂移的风险。我们还提出了一种 Cut-Mix-Unmix 数据增强技术,以提高多主题图像生成的质量和一个简单的基于文本的图像编辑框架。与现有方法(vanilla DreamBooth 3.66GB,Custom Diffusion 73MB)相比,我们提出的 SVDiff 方法具有明显更小的模型大小(StableDiffusion 为 1.7MB),使其在实际应用中更加实用。

目录
相关文章
|
供应链 数据建模 BI
打开阿里|阿里巴巴数字化的关键时刻
阿里巴巴如何跨越从信息化(IT)到数字化(DT)转型的关键时刻?
2042 0
打开阿里|阿里巴巴数字化的关键时刻
|
JavaScript 前端开发 API
007 Umi 使用 TypeScript 提升开发者体验
007 Umi 使用 TypeScript 提升开发者体验
1383 0
007 Umi 使用 TypeScript 提升开发者体验
|
移动开发 弹性计算 缓存
阿里云服务器上如何部署 H5 游戏?
在自学游戏开发的路上,最有成就感的时刻就是将自己的小游戏做出来分享给朋友试玩,原生的游戏开可以打包分享,小游戏上线流程又长,那 H5 小游戏该怎么分享呢?本文就带大家通过 nginx 将构建好的 H5 游戏托管的阿里云上。
阿里云服务器上如何部署 H5 游戏?
|
11月前
|
数据采集 网络安全 Python
【Python】怎么解决:urllib.error.HTTPError: HTTP Error 403: Forbidden
解决 `urllib.error.HTTPError: HTTP Error 403: Forbidden`错误需要根据具体情况进行不同的尝试。通过检查URL、模拟浏览器请求、使用代理服务器和Cookies、减慢请求速度、使用随机的User-Agent以及使用更加方便的 `requests`库,可以有效解决此类问题。通过逐步分析和调试,可以找到最合适的解决方案。
806 18
|
SQL 数据库 C++
SQL 执行顺序,通俗易懂!
在数据库的世界里,SQL(Structured Query Language)是我们与数据对话的桥梁。编写一个高效的SQL查询,不仅要求我们理解数据库的结构和数据模型,还需要掌握SQL的执行顺序。但往往,这个顺序与我们在编写SQL时书写的顺序并不一致,这常常让初学者感到困惑。今天,我们就来用通俗易懂的方式,揭开SQL执行顺序的神秘面纱。
592 2
|
数据采集 Python
Python正则表达式提取车牌号
Python正则表达式提取车牌号
377 0
|
Linux 数据安全/隐私保护 iOS开发
使用pdf2docx轻松将PDF转换成docx
使用pdf2docx轻松将PDF转换成docx
1139 0
|
机器学习/深度学习 人工智能
人工智能实践 | VGG-16迁移模型
传统的机器学习训练模型需要大量的标签数据,而且每一个模型是为了解决特定任务设计的,所以当面对全新领域问题就显得无能为力,因此采用迁移学习来解决不同领域之间知识迁移问题,能达到“举一反三”的作用,使学习性能显著提高。
1127 0
|
监控 Kubernetes Cloud Native
专为云原生、微服务架构而设计的链路追踪工具 【SkyWalking介绍及搭建】(上)
专为云原生、微服务架构而设计的链路追踪工具 【SkyWalking介绍及搭建】(上)
专为云原生、微服务架构而设计的链路追踪工具 【SkyWalking介绍及搭建】(上)
|
架构师 云计算
阿里云的认证有几个等级?适合什么人考?
为什么在这样的大环境下,还有一部分人能挣钱,因为此消彼长,实体经济收到冲击的情况下,虚拟经济必然要大幅增长,这样一来市场就需要大量的人才来满足需求。
阿里云的认证有几个等级?适合什么人考?