从感知机到Transformer，一文概述深度学习简史（1）-阿里云开发者社区

从感知机到Transformer，一文概述深度学习简史（1）

2023-05-16 415

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从感知机到Transformer，一文概述深度学习简史

这篇文章从感知机开始，按照时间顺序回顾了深度学习的历史。

1958 年：感知机的兴起

1958 年，弗兰克 · 罗森布拉特发明了感知机，这是一种非常简单的机器模型，后来成为当今智能机器的核心和起源。

感知机是一个非常简单的二元分类器，可以确定给定的输入图像是否属于给定的类。为了实现这一点，它使用了单位阶跃激活函数。使用单位阶跃激活函数，如果输入大于 0，则输出为 1，否则为 0。

下图是感知机的算法。

感知机

Frank 的意图不是将感知机构建为算法，而是构建成一种机器。感知机是在名为 Mark I 感知机的硬件中实现的。Mark I 感知机是一台纯电动机器。它有 400 个光电管（或光电探测器），其权重被编码到电位器中，权重更新（发生在反向传播中）由电动机执行。下图是 Mark I 感知机。

Mark I 感知机。图片来自美国国家历史博物馆

就像你今天在新闻中看到的关于神经网络的内容一样，感知机也是当时的头条新闻。《纽约时报》报道说，“[海军] 期望电子计算机的初步模型能够行走、说话、观察、书写、自我复制并意识到它的存在”。今天，我们都知道机器仍然难以行走、说话、观察、书写、复制自己，而意识则是另一回事。

Mark I 感知机的目标仅仅是识别图像，而当时它只能识别两个类别。人们花了一些时间才知道添加更多层（感知机是单层神经网络）可以使网络具有学习复杂功能的能力。这进一步产生了多层感知机 (MLP)。

1982~1986 : 循环神经网络 (RNN)

在多层感知机显示出解决图像识别问题的潜力之后，人们开始思考如何对文本等序列数据进行建模。

循环神经网络是一类旨在处理序列的神经网络。与多层感知机 (MLP) 等前馈网络不同，RNN 有一个内部反馈回路，负责记住每个时间步的信息状态。

前馈网络与循环神经网络

第一种 RNN 单元在 1982 年到 1986 年之间被发现，但它并没有引起人们的注意，因为简单的 RNN 单元在用于长序列时会受到很大影响，主要是由于记忆力短和梯度不稳定的问题。

1998：LeNet-5：第一个卷积神经网络架构

LeNet-5 是最早的卷积网络架构之一，于 1998 年用于文档识别。LeNet-5 由 3 个部分组成：2 个卷积层、2 个子采样或池化层和 3 个全连接层。卷积层中没有激活函数。

正如论文所说，LeNet-5 已进行商业化部署，每天读取数百万张支票。下面是 LeNet-5 的架构。该图像取自其原始论文。

LeNet-5 在当时确实是一个有影响力的东西，但它（常规的卷积网络）直到 20 年后才受到关注！LeNet-5 建立在早期工作的基础上，例如福岛邦彦提出的第一个卷积神经网络、反向传播（Hinton 等人，1986 年）和应用于手写邮政编码识别的反向传播（LeCun 等人，1989 年）。

1998：长短期记忆（LSTM）

由于梯度不稳定的问题，简单 RNN 单元无法处理长序列问题。LSTM 是可用于处理长序列的 RNN 版本。LSTM 基本上是 RNN 单元的极端情况。

LSTM 单元的一个特殊设计差异是它有一个门机制，这是它可以控制多个时间步长的信息流的基础。

简而言之，LSTM 使用门来控制从当前时间步到下一个时间步的信息流，有以下 4 种方式：

输入门识别输入序列。

遗忘门去掉输入序列中包含的所有不相关信息，并将相关信息存储在长期记忆中。

LTSM 单元更新更新单元的状态值。

输出门控制必须发送到下一个时间步的信息。

LSTM 架构。图片取自 MIT 的课程《6.S191 Introduction to Deep Learning》

LSTM 处理长序列的能力使其成为适合各种序列任务的神经网络架构，例如文本分类、情感分析、语音识别、图像标题生成和机器翻译。

LSTM 是一种强大的架构，但它的计算成本很高。2014 年推出的 GRU（Gated Recurrent Unit）可以解决这个问题。与 LSTM 相比，它的参数更少，而且效果也很好。

从感知机到Transformer，一文概述深度学习简史（1）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从感知机到Transformer，一文概述深度学习简史（1）

热门文章

最新文章

相关课程

相关电子书