Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字(1)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字
【新智元导读】让我们回顾一下AI图像合成的十年历史上,「the names to be remembered」。


现在,已是2022年底。深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。十年来,我们是如何走到今天这一步的?在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?这就是「人工智能之夏」诞生的伊始。2012 年 12 月一切发端于此。这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。论文作者之一,就是「AI三巨头」之一的Hinton。它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。2014 年 12 月Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。最终,只有「生成器」被保留在系统之外,并用于图像合成。Hello World!来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除2015 年 11 月具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2020)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。期间,GAN架构的论文开始爆炸式井喷。

项目地址:https://github.com/nightrome/really-awesome-gan与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。与此同时,transformer架构彻底改变了NLP。在不久的将来,这件事会对图像合成产生重大影响。2017 年 6 月《Attention Is All You Need》论文发布。在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。2018 年 7 月《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。2018-20年NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点2020 年 5 月论文《语言模型是小样本学习者》发表。OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。2020 年 12 月论文《用于高分辨率图像合成的Taming transformers》发表。ViT表明,Transformer架构可用于图像。本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2020-2022)

Transformer架构的出现,彻底改写了图像合成的历史。从此,图像合成领域开始抛下GAN。「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。

论文中的CLIP架构2021 年 1 月论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。该模型只是「continues」the「sentence」。数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。CLIP为图像合成的「多模态」方法奠定了基础。2021 年 1 月论文《从自然语言监督学习可迁移视觉模型》发表。论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。模型在论文附录A.1中列出的大量数据集上进行训练。2021 年 6 月论文《扩散模型的发布在图像合成方面击败了GAN》发表。扩散模型引入了一种不同于GAN方法的图像合成方法。研究者通过从人工添加的噪声中重建图像来学习。它们与变分自动编码器 (VAE) 相关。2021 年 7 月DALL-E mini发布。它是

相关文章
|
5月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
649 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。
715 1
还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述
|
5月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
344 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
5月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
1852 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
6月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
349 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
6月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
268 0
|
6月前
|
人工智能 自然语言处理 算法
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科研工具,基于大型语言模型(LLM)代理,支持从研究想法到论文发表的全流程自动化,涵盖文献综述、算法设计、实验验证和论文撰写等功能。
473 8
AI-Researcher:告别熬夜肝论文!港大开源AI科研神器,从选题到发表全自动
|
8月前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
180 27
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
652 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
11月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
1275 1
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!

热门文章

最新文章