Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字（1）-阿里云开发者社区

Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字（1）

2023-05-10 171

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： Hinton上榜！盘点AI图像合成10年史，那些值得被记住的论文和名字

【新智元导读】让我们回顾一下AI图像合成的十年历史上，「the names to be remembered」。

现在，已是2022年底。深度学习模型在生成图像上的表现，已经如此出色。很显然，它在未来会给我们更多的惊喜。十年来，我们是如何走到今天这一步的？在下面的时间线里，我们会追溯一些里程碑式的时刻，也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。一切，都要从十年前的那个夏天说起。

开端（2012-2015）

深度神经网络面世之后，人们意识到：它将彻底改变图像分类。

同时，研究人员开始探索相反的方向，如果使用一些对分类非常有效的技术（例如卷积层）来制作图像，会发生什么？这就是「人工智能之夏」诞生的伊始。2012 年 12 月一切发端于此。这一年，论文《深度卷积神经网络的ImageNet分类》横空出世。论文作者之一，就是「AI三巨头」之一的Hinton。它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集（ImageNet）结合在一起。 2014 年 12 月Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。GAN是第一个致力于图像合成而非分析的现代神经网络架构（「现代」的定义即2012年后）。它引入了一种基于博弈论的独特学习方法，由两个子网络“生成器”和“鉴别器”进行竞争。最终，只有「生成器」被保留在系统之外，并用于图像合成。 Hello World！来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的，该数据集已从网络上删除2015 年 11 月具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。在这篇论文中，作者描述了第一个实际可用的GAN 架构 (DCGAN)。这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向？

GAN的五年（2015-2020）

这五年间，GAN被应用于各种图像处理任务，例如风格转换、修复、去噪和超分辨率。期间，GAN架构的论文开始爆炸式井喷。

项目地址：https://github.com/nightrome/really-awesome-gan与此同时，GAN的艺术实验开始兴起，Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像，这副肖像成为第一幅在佳士得被拍卖的AI画像。与此同时，transformer架构彻底改变了NLP。在不久的将来，这件事会对图像合成产生重大影响。2017 年 6 月《Attention Is All You Need》论文发布。在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里，也有详实的解释。自此，Transformer架构（以BERT等预训练模型的形式）彻底改变了自然语言处理 (NLP) 领域。 2018 年 7 月 《概念性标注：用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。2018-20年NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。在《使用有限数据训练生成对抗网络》这篇论文中，介绍了最新的StyleGAN2-ada。 GAN 生成的图像第一次变得与自然图像无法区分，至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。 Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表，其中生成模型的非写实性是艺术探索的重点2020 年 5 月论文《语言模型是小样本学习者》发表。 OpenAI的LLM Generative Pre-trained Transformer 3（GPT-3）展示了变压器架构的强大功能。 2020 年 12 月论文《用于高分辨率图像合成的Taming transformers》发表。 ViT表明，Transformer架构可用于图像。本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。 2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估，对于更多异构数据集的效果很有限。因此，在学术/工业和艺术实验中，人脸仍然是一个重要的参考点。

Transformer的时代（2020-2022）

Transformer架构的出现，彻底改写了图像合成的历史。从此，图像合成领域开始抛下GAN。「多模态」深度学习整合了NLP和计算机视觉的技术，「即时工程」取代了模型训练和调整，成为图像合成的艺术方法。《从自然语言监督中学习可迁移视觉模型》这篇论文中，提出了CLIP 架构。可以说，当前的图像合成热潮，是由CLIP首次引入的多模态功能推动的。

论文中的CLIP架构2021 年 1 月 论文《零样本文本到图像生成》发表（另请参阅OpenAI 的博客文章），其中介绍了即将轰动全世界的DALL-E的第一个版本。这个版本通过将文本和图像（由VAE压缩为「TOKEN」）组合在单个数据流中来工作。该模型只是「continues」the「sentence」。数据（250M 图像）包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。CLIP为图像合成的「多模态」方法奠定了基础。2021 年 1 月论文《从自然语言监督学习可迁移视觉模型》发表。论文中介绍了CLIP，这是一种结合了ViT和普通Transformer的多模态模型。 CLIP会学习图像和标题的「共享潜在空间」，因此可以标记图像。模型在论文附录A.1中列出的大量数据集上进行训练。2021 年 6 月论文《扩散模型的发布在图像合成方面击败了GAN》发表。扩散模型引入了一种不同于GAN方法的图像合成方法。研究者通过从人工添加的噪声中重建图像来学习。它们与变分自动编码器 (VAE) 相关。2021 年 7 月DALL-E mini发布。它是