史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?



 新智元报道  

编辑:LRS

【新智元导读】Transformer家族成员太多?一个目录就够了!


如果说过去几年是什么在支撑着大规模模型的发展,那一定是Transformer了!


基于Transformer,大量模型在各个领域犹如雨后春笋般不断涌现,每个模型都有不同的架构,不同的细节,以及一个不容易解释的名字。



最近有作者对近几年发布的所有流行的Transformer模型进行了一次全面的分类和索引,尽可能提供一个全面但简单的目录(catalog),文中包括对Transformer创新的简介,以及发展脉络梳理。


论文链接:https://arxiv.org/pdf/2302.07730.pdf


图灵奖得主Yann LeCun表示认可。



文章作者Xavier (Xavi) Amatriain于2005年博士毕业于西班牙庞培法布拉大学,目前是LinkedIn工程部副总裁,主要负责产品人工智能战略。



什么是Transformer?


Transformer是一类深度学习模型,具有一些独特的架构特征,最早出现在谷歌研究人员于2017年发表的著名的「Attention is All you Need」论文中,该论文在短短5年内积累了惊人的38000次引用。


Transformer架构也属于编码器-解码器模型(encoder-decoder),只不过在此之前的模型,注意力只是其中的机制之一,大多都是基于LSTM(长短时记忆)和其他RNN(循环神经网络)的变体。


提出Transformer的这篇论文的一个关键见解如标题所说,注意力机制可以作为推导输入和输出之间依赖关系的唯一机制,这篇论文并不打算深入研究Transformer架构的所有细节,感兴趣的朋友可以搜索「The Illustrated Transformer」博客。


博客链接:https://jalammar.github.io/illustrated-transformer/


下面只简要地描述最重要的一些组件。


编码器-解码器架构


一个通用的编码器/解码器架构由两个模型组成,编码器接受输入并将其编码为一个固定长度的向量;解码器接收该向量并将其解码为输出序列。


对编码器和解码器进行联合训练以最小化条件对数似然。训练完成后,编码器/解码器就可以根据给定输入序列的生成一个输出,或者可以给一对输入/输出序列打分。



在最初的Transformer架构下,编码器和解码器都有6个相同的层,在这6层中的每一层,编码器有两个子层:一个多头注意层,和一个简单的前馈网络,每个子层都有一个残差连接和一个层归一化。


编码器的输出大小为512,解码器增加了第三个子层,即在编码器输出上的另一个多头注意层。此外,解码器中的另一个多头层被mask掉,以防止对后续位置应用注意力,造成信息泄露。


注意力机制


从上面的描述中可以看出,模型结构中唯一「奇特」的元素是多头的注意力,也正是该模型的全部力量所在。


注意力函数是query和一组key-value pairs到输出之间的映射,输出的计算为数值的加权和,其中分配给每个数值的权重是由query与相应的key的compatibility函数计算的。


Transformer使用多头注意力(multi-head attention),即对一组注意力函数的并行计算,也称为缩放点积注意力。


与递归和卷积网络相比,注意力层有几个优势,比较重要的是其较低的计算复杂性和较高的连接性,对学习序列中的长期依赖关系特别有用。


Transformer可以做什么?为什么流行起来了?


最初的Transformer是为语言翻译而设计的,主要是从英语翻译到德语,但是初版论文的实验结果已经表明,该架构可以很好地推广到其他语言任务。


这一特殊的趋势很快就被研究界注意到了。


在接下来的几个月里,任何与语言相关的ML任务的排行榜都完全被某个版本的Transformer架构所占据,比如问答任务Squad很快就被各种Transformer模型屠榜了。


Transofrmer能够如此迅速地占领大多数NLP排行榜的关键原因之一是:它们能够快速适应其他任务,也就是迁移学习;预先训练好的Transformer模型可以非常容易和迅速地适应它们没有被训练过的任务,相比其他模型有巨大的优势。


作为一个ML从业者,你不再需要在一个巨大的数据集上从头训练一个大型模型,只需要在手头任务上重新使用预训练过的模型,也许只是用一个小得多的数据集对其稍作调整。


用来使预训练的模型适应不同任务的具体技术是所谓的微调(fine-tuning)。

事实证明,Transformer适应其他任务的能力是如此之强,虽然它们最初是为语言相关的任务而开发的,但它们很快就对其他任务有用了,从视觉或音频和音乐应用一直到下棋或做数学。


当然,如果不是因为有无数的工具,使任何能写几行代码的人都能随时使用这些工具,所有这些应用就不可能实现。


Transformer不仅很快被整合到主要的人工智能框架中(即Pytorch和TensorFlow),还有一些完全为Transformer而生的公司。


Huggingface,一家到今天为止已经筹集了超过6000万美元的创业公司,几乎完全是围绕着将他们的开源Transformer库商业化的想法而建立的。


GPT-3是OpenAI在2020年5月推出的Transformer模型,是他们早期GPT和GPT-2的后续版本。该公司在一份预印本中介绍了该模型,引起了很大的轰动,论文中声称该模型非常强大,以至于他们没有资格向世界发布。


而且,OpenAI不仅没有发布GPT-3,而且通过和微软之间的一个非常大的伙伴关系实现了商业化。


现在,GPT-3为300多个不同的应用程序提供底层技术支持,并且是OpenAI商业战略的基础。对于一个已经获得超过10亿美元资金的公司来说,这是很重要的。


RLHF


从人类反馈(或偏好)中强化学习,又称RLHF(或RLHP),最近已经成为人工智能工具箱的一个巨大补充。


这个概念最早来自2017年的论文「来自人类偏好的深度强化学习」,但最近它被应用于ChatGPT和类似的对话智能体中,取得了相当好的效果,又引起了大众的关注。



文中的想法是非常简单的,一旦语言模型被预训练后,就可以对对话产生不同的回应,并让人类对结果进行排名,可以使用这些排名(又称偏好或反馈)利用强化学习机制来训练奖励。


扩散模型Diffusion


扩散模型已经成为图像生成的新的SOTA,大有取代GANs(生成对抗网络)的趋势。


扩散模型是一类经过训练的变分推理(varitional inference)的潜变量模型,在实践中的意思就是训练一个深度神经网络来对用某种噪声函数模糊的图像进行去噪。



以这种方式训练的网络实际上是在学习这些图像所代表的潜空间。


看完介绍,快开启Transformer的回溯之旅吧!


参考资料:https://arxiv.org/abs/2302.07730

相关文章
|
5月前
|
数据采集 人工智能 算法
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
【6月更文挑战第20天】探索AI如何理解与生成图像和文本,VLM结合图像与文本映射,涉及图像描述、问答等任务。论文由多所名校和机构研究人员共创,介绍VLM历史、类型(对比学习、掩码、生成、预训练)及应用,如图像生成和问答。同时,讨论数据质量、计算资源和模型可解释性的挑战。[阅读更多](https://arxiv.org/pdf/2405.17247)
173 2
|
6月前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
206 1
|
机器学习/深度学习 人工智能 自然语言处理
500篇论文!最全代码大模型综述来袭
11月14日,蚂蚁集团联合上海交通大学发布55页代码大模型综述,覆盖超过50个模型、30个下游任务、500篇参考文献,全方位总结大语言模型在代码相关应用中的最新进展与挑战。
1348 0
|
机器学习/深度学习 人工智能 测试技术
三篇论文:速览GPT在网络安全最新论文中的应用案例
三篇论文:速览GPT在网络安全最新论文中的应用案例
185 0
|
数据采集 机器学习/深度学习 自然语言处理
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
336 0
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
|
机器学习/深度学习 人工智能 自然语言处理
重磅!花书《深度学习》,这份精炼笔记可能是最全面的
重磅!花书《深度学习》,这份精炼笔记可能是最全面的
2551 0
重磅!花书《深度学习》,这份精炼笔记可能是最全面的
|
机器学习/深度学习 自然语言处理 搜索推荐
机器学习新宠:对比学习论文实现大合集,60多篇分门别类,从未如此全面(一)
机器学习新宠:对比学习论文实现大合集,60多篇分门别类,从未如此全面(一)
285 0
机器学习新宠:对比学习论文实现大合集,60多篇分门别类,从未如此全面(一)
|
机器学习/深度学习 算法 数据库
收录180篇文献,上海交大推出深度学习图像合成领域首篇综述
作者:牛力 收录 180 篇文献的首个深度学习图像合成技术综述文章。
375 0
收录180篇文献,上海交大推出深度学习图像合成领域首篇综述
|
机器学习/深度学习 人工智能 自然语言处理
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办。今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 1591 篇,接收率为 20.6%。为了向读者们介绍更多 AAAI2020 的优质论文,机器之心组织策划了 AAAI 2020 论文分享,邀请国内外著名大学、研究机构以及工业界的研究人员详细介绍他们发布在 AAAI 2020 的文章,欢迎大家持续关注。
299 0
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
|
机器学习/深度学习 存储 人工智能
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇。元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习。本文对本次接收的元学习论文进行了梳理和解读。
1193 0
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展

热门文章

最新文章