从感知机到Transformer,一文概述深度学习简史(1)

简介: 从感知机到Transformer,一文概述深度学习简史
这篇文章从感知机开始,按照时间顺序回顾了深度学习的历史。



1958 年:感知机的兴起

1958 年,弗兰克 · 罗森布拉特发明了感知机,这是一种非常简单的机器模型,后来成为当今智能机器的核心和起源。

感知机是一个非常简单的二元分类器,可以确定给定的输入图像是否属于给定的类。为了实现这一点,它使用了单位阶跃激活函数。使用单位阶跃激活函数,如果输入大于 0,则输出为 1,否则为 0。

下图是感知机的算法。

感知机


Frank 的意图不是将感知机构建为算法,而是构建成一种机器。感知机是在名为 Mark I 感知机的硬件中实现的。Mark I 感知机是一台纯电动机器。它有 400 个光电管(或光电探测器),其权重被编码到电位器中,权重更新(发生在反向传播中)由电动机执行。下图是 Mark I 感知机。

Mark I 感知机。图片来自美国国家历史博物馆


就像你今天在新闻中看到的关于神经网络的内容一样,感知机也是当时的头条新闻。《纽约时报》报道说,“[海军] 期望电子计算机的初步模型能够行走、说话、观察、书写、自我复制并意识到它的存在”。今天,我们都知道机器仍然难以行走、说话、观察、书写、复制自己,而意识则是另一回事。

Mark I 感知机的目标仅仅是识别图像,而当时它只能识别两个类别。人们花了一些时间才知道添加更多层(感知机是单层神经网络)可以使网络具有学习复杂功能的能力。这进一步产生了多层感知机 (MLP)。

1982~1986 : 循环神经网络 (RNN)

在多层感知机显示出解决图像识别问题的潜力之后,人们开始思考如何对文本等序列数据进行建模。

循环神经网络是一类旨在处理序列的神经网络。与多层感知机 (MLP) 等前馈网络不同,RNN 有一个内部反馈回路,负责记住每个时间步的信息状态。

前馈网络与循环神经网络


第一种 RNN 单元在 1982 年到 1986 年之间被发现,但它并没有引起人们的注意,因为简单的 RNN 单元在用于长序列时会受到很大影响,主要是由于记忆力短和梯度不稳定的问题。

1998:LeNet-5:第一个卷积神经网络架构

LeNet-5 是最早的卷积网络架构之一,于 1998 年用于文档识别。LeNet-5 由 3 个部分组成:2 个卷积层、2 个子采样或池化层和 3 个全连接层。卷积层中没有激活函数。

正如论文所说,LeNet-5 已进行商业化部署,每天读取数百万张支票。下面是 LeNet-5 的架构。该图像取自其原始论文。


LeNet-5 在当时确实是一个有影响力的东西,但它(常规的卷积网络)直到 20 年后才受到关注!LeNet-5 建立在早期工作的基础上,例如福岛邦彦提出的第一个卷积神经网络、反向传播(Hinton 等人,1986 年)和应用于手写邮政编码识别的反向传播(LeCun 等人,1989 年)。


1998:长短期记忆(LSTM)

由于梯度不稳定的问题,简单 RNN 单元无法处理长序列问题。LSTM 是可用于处理长序列的 RNN 版本。LSTM 基本上是 RNN 单元的极端情况。

LSTM 单元的一个特殊设计差异是它有一个门机制,这是它可以控制多个时间步长的信息流的基础。

简而言之,LSTM 使用门来控制从当前时间步到下一个时间步的信息流,有以下 4 种方式:

输入门识别输入序列。

遗忘门去掉输入序列中包含的所有不相关信息,并将相关信息存储在长期记忆中。

LTSM 单元更新更新单元的状态值。

输出门控制必须发送到下一个时间步的信息。


LSTM 架构。图片取自 MIT 的课程《6.S191 Introduction to Deep Learning》


LSTM 处理长序列的能力使其成为适合各种序列任务的神经网络架构,例如文本分类、情感分析、语音识别、图像标题生成和机器翻译。


LSTM 是一种强大的架构,但它的计算成本很高。2014 年推出的 GRU(Gated Recurrent Unit)可以解决这个问题。与 LSTM 相比,它的参数更少,而且效果也很好。


相关文章
|
6月前
|
机器学习/深度学习 算法 测试技术
Python中实现多层感知机(MLP)的深度学习模型
Python中实现多层感知机(MLP)的深度学习模型
145 0
|
14天前
|
机器学习/深度学习 自然语言处理 并行计算
|
19天前
|
机器学习/深度学习
深度学习笔记(一): 神经网络之感知机详解
深度学习笔记(一):探索感知机模型及其在神经网络中的应用。
31 0
深度学习笔记(一): 神经网络之感知机详解
|
19天前
|
机器学习/深度学习 自然语言处理 并行计算
探索深度学习中的Transformer模型及其在自然语言处理中的应用
【10月更文挑战第6天】探索深度学习中的Transformer模型及其在自然语言处理中的应用
56 0
|
24天前
|
机器学习/深度学习 自然语言处理 异构计算
【NLP自然语言处理】初识深度学习模型Transformer
【NLP自然语言处理】初识深度学习模型Transformer
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】大语言模型系列-Transformer
Transformer是一种深度学习模型,最初由Vaswani等人在2017年的论文《Attention is All You Need》中提出,它彻底革新了自然语言处理(NLP)领域。在此之前,循环神经网络(RNNs)及其变体,如长短期记忆网络(LSTMs)和门控循环单元(GRUs),是处理序列数据(包括文本)的主流方法。然而,Transformer通过引入自注意力(self-attention)机制,解决了RNNs在处理长序列时存在的梯度消失、计算速度慢等问题,实现了并行化计算,大大提高了训练效率
68 9
|
3月前
|
机器学习/深度学习 自然语言处理 并行计算
【深度学习+面经】Transformer 网络学习笔记
Transformer模型的核心概念、优缺点以及在多个领域的应用,并提供了针对Transformer架构的面试问题及答案。
139 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深入神经网络:从感知机到深度学习
【7月更文第17天】当我们谈论人工智能时,神经网络常常是那个闪亮的明星。从最初的简单模型——感知机,到当今复杂而强大的深度学习系统,这场技术革命正以前所未有的方式改变着我们的世界。今天,咱们就用通俗易懂的语言,搭配一些简单的代码示例,来一场《深入神经网络:从感知机到深度学习》的探索之旅。
59 8
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
144 9
|
4月前
|
机器学习/深度学习 自然语言处理 计算机视觉
Transformer深度学习架构与GPT自然语言处理模型
Transformer和GPT(Generative Pre-trained Transformer)是深度学习和自然语言处理(NLP)领域的两个重要概念,它们之间存在密切的关系但也有明显的不同。
74 2