Transformer 架构正在快速拓展自己的影响范围。
背景信息
Transformers 架构最初专为自然语言处理所开发,但目前已经成为深度学习领域的“万金油”。2021 年,人们已经在用它发现药物、识别语音和图像等。
重要标杆
Transformers 已经用实际行动证明自己在视觉任务、地震预测、蛋白质分类与合成等领域的优异表现。
过去一年以来,研究人员开始将其推向更广阔的新领域。
TransGAN 是一套生成对抗网络,结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。
Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列,而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络,能够在更短时间内分析更长的视频片段,因此能耗也控制在更低水平。
Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2,之后冻结了其 self-attention 与 feed-forward 层。在此基础上,他们可以针对不同用例进行模型微调,包括数学、逻辑问题及计算机视觉等。
DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波,人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。
新闻背后
Transformer 于 2017 年首次亮相,之后迅速改变了语言处理模型的设计思路。其 self-attention 机制能够跟踪序列中各元素与其他元素间的关系,不仅可用于分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。
基于 transformer 的大型语言模型已经建立起新的客观标准,包括在大型未标记语料库上进行模型预训练,利用有限数量的标记示例针对特定任务进行微调等。
Transformer 架构良好的普适性,可能预示着未来我们将创造出能解决多领域多问题的 AI 模型。
发展现状
在深度学习的发展过程中,有几个概念曾经迅速普及:ReLU 激活函数、Adam 优化器、attention 注意力机制,再加上现在的 transformer。
过去一年的发展证明,这种架构确实具有旺盛的生命力。