DALL-E的复制品(体积更小,对架构和数据的调整很少)。数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。2021-2022Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。2022 年 4 月论文《具有 CLIP 潜能的分层文本条件图像生成》发表。该论文介绍了DALL-E 2。它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。
「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案2022 年 5-6 月5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。这两篇论文中,介绍了Imagegen和Parti。以及谷歌对DALL-E 2的回答。
「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法
AI Photoshop(2022年至今)
虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。用户仍继续尝试DALL-E mini等较小的模型。紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化2022 年 8 月Stability.ai发布Stable Diffusion模型。
在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。
这个模型可以实现与DALL-E 2同等的照片级真实感。除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。2022 年 8 月谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。DreamBooth提供了对扩散模型越来越细粒度的控制。然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。2022 年 10 月最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。参考资料:https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis