Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字（2）-阿里云开发者社区

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字（2）

2023-05-10 174

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

DALL-E的复制品（体积更小，对架构和数据的调整很少）。数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。因为没有任何内容过滤器或 API 限制，DALL-E mini为创造性探索提供了巨大的潜力，并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。2021-2022Katherine Crowson发布了一系列CoLab笔记，探索制作 CLIP 引导生成模型的方法。例如512x512CLIP-guided diffusion和VQGAN-CLIP（Open domain image generation and editing with natural language guidance，仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验）。就像在早期的GAN时代一样，艺术家和开发者以非常有限的手段对现有架构进行重大改进，然后由公司简化，最后由wombo.ai等「初创公司」商业化。2022 年 4 月论文《具有 CLIP 潜能的分层文本条件图像生成》发表。该论文介绍了DALL-E 2。它建立在仅几周前发布的 GLIDE论文（《 GLIDE：使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。同时，由于 DALL-E 2 的访问受限和有意限制，人们对DALL-E mini重新产生了兴趣。根据模型卡，数据包括「公开可用资源和我们许可的资源的组合」，以及根据该论文的完整CLIP和 DALL-E数据集。

「金发女郎的人像照片，用数码单反相机拍摄，中性背景，高分辨率」，使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构（如 StyleGAN 2）的真实感相匹配，但允许创建广泛的各种主题和图案2022 年 5-6 月5月，论文《具有深度语言理解的真实感文本到图像扩散模型》发表。 6月，论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。这两篇论文中，介绍了Imagegen和Parti。以及谷歌对DALL-E 2的回答。

「你知道我今天为什么阻止你吗？」由DALL-E 2生成，「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop（2022年至今）

虽然DALL-E 2为图像模型设定了新标准，但它迅速商业化，也意味着在使用上从一开始就受到限制。用户仍继续尝试DALL-E mini等较小的模型。紧接着，随着石破天惊的Stable Diffusion的发布，所有这一切都发生了变化。可以说，Stable Diffusion标志着图像合成「Photoshop时代」的开始。「有四串葡萄的静物，试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez，1636 年，马德里普拉多的葡萄一样栩栩如生的葡萄」，Stable Diffusion产生的六种变化2022 年 8 月Stability.ai发布Stable Diffusion模型。

在论文《具有潜在扩散模型的高分辨率图像合成》中，Stability.ai隆重推出了Stable Diffusion。

这个模型可以实现与DALL-E 2同等的照片级真实感。除了DALL-E 2，模型几乎立即向公众开放，并且可以在CoLab和Huggingface平台上运行。2022 年 8 月谷歌发表论文《DreamBooth：为主题驱动生成微调文本到图像扩散模型》。 DreamBooth提供了对扩散模型越来越细粒度的控制。然而，即使没有此类额外的技术干预，使用像 Photoshop 这样的生成模型也变得可行，从草图开始，逐层添加生成的修改。2022 年 10 月 最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像，可以预计，图库市场将受到Stable Diffusion等生成模型的严重影响。参考资料：https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis