斯坦福NLP课程 | 第4讲 - 神经网络反向传播与计算图

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: NLP课程第4讲主要内容是:单神经网络的梯度矩阵与建议、计算图与反向传播、神经网络训练实用知识技能(包括正则化、向量化、非线性表达能力、参数初始化、优化算法、学习率策略)等。

ShowMeAI研究中心

作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI
教程地址http://www.showmeai.tech/tutorials/36
本文地址http://www.showmeai.tech/article-detail/236
声明:版权所有,转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容


神经网络反向传播与计算图

ShowMeAI斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!

神经网络与反向传播

本讲内容的深度总结教程可以在这里 查看。视频和课件等资料的获取方式见文末


引言

Backpropagation and Computation Graphs

内容覆盖

Backpropagation and Computation Graphs

1 简单神经网络的梯度矩阵与建议
2 计算图与反向传播
3 神经网络训练实用知识技能

  • 正则化(用于环节过拟合)
  • 向量化
  • 非线性表达能力
  • 参数初始化
  • 优化算法
  • 学习率策略

1.简单神经网络的梯度矩阵与建议

1.1 权重矩阵的导数

权重矩阵的导数

  • 让我们仔细看看计算 equation?tex=%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20W%7D
  • 再次使用链式法则

equation?tex=%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20W%7D%3D%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20h%7D%20%5Cfrac%7B%5Cpartial%20h%7D%7B%5Cpartial%20z%7D%20%5Cfrac%7B%5Cpartial%20z%7D%7B%5Cpartial%20W%7D

equation?tex=%5Cbegin%7Baligned%7D%20s%20%26%3D%20u%5ET%20h%20%5C%5C%20h%20%26%3D%20f%28z%29%20%20%5C%5C%20z%20%26%3D%20Wx%2Bb%20%20%5Cend%7Baligned%7D

1.2 反向传播梯度求导

对反向传播的梯度求导

  • 这个函数(从上次开始)

equation?tex=%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20W%7D%3D%5Cdelta%20%5Cfrac%7B%5Cpartial%20z%7D%7B%5Cpartial%20W%7D%3D%5Cdelta%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20W%7D%20Wx%2Bb

  • 考虑单个权重 equation?tex=W_%7Bij%7D 的导数
  • equation?tex=W_%7Bij%7D 只对 equation?tex=z_i 有贡献

    • 例如 equation?tex=W_%7B23%7D 只对 equation?tex=z_2 有贡献,对 equation?tex=z_1 没有贡献

equation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%20z_%7Bi%7D%7D%7B%5Cpartial%20W_%7Bi%20j%7D%7D%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20W_%7Bi%20j%7D%7D%20W_%7Bi%20%5Ccdot%7D%20x%2Bb_%7Bi%7D%20%5C%5C%20%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20W_%7Bi%20j%7D%7D%20%5Csum_%7Bk%3D1%7D%5E%7Bd%7D%20W_%7Bi%20k%7D%20x_%7Bk%7D%3Dx_%7Bj%7D%20%5Cend%7Baligned%7D

对反向传播的梯度求导

  • 对于单个 equation?tex=W_%7Bij%7D 的导数:

equation?tex=%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20W_%7Bi%20j%7D%7D%20%3D%20%5Cdelta_i%20x_j

  • 我们想要整个 equation?tex=W 的梯度,但是每种情况都是一样的
  • 解决方案:外积

equation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%20s%7D%7B%5Cpartial%20%7BW%7D%7D%26%3D%5Cdelta%20%5E%7BT%7D%20x%5E%7BT%7D%5C%5C%20%5Bn%20%5Ctimes%20m%5D%20%26%3D%20%5Bn%20%5Ctimes%201%5D%5B1%20%5Ctimes%20m%5D%20%5Cend%7Baligned%7D

1.3 梯度求导:技巧与建议

梯度求导:技巧

  • 技巧1:仔细定义变量并关注它们的维度!
  • 技巧2:链式法则!如果 equation?tex=y%20%3D%20f%28u%29 , equation?tex=u%20%3D%20g%28x%29,即 equation?tex=y%20%3D%20f%28g%28x%29%29

equation?tex=%5Cfrac%7B%5Cpartial%20%7By%7D%7D%7B%5Cpartial%20%7Bx%7D%7D%3D%5Cfrac%7B%5Cpartial%20%7By%7D%7D%7B%5Cpartial%20%7Bu%7D%7D%20%5Cfrac%7B%5Cpartial%20%7Bu%7D%7D%7B%5Cpartial%20%7Bx%7D%7D

  • 提示3:模型的最上面的softmax部分:首先考虑当 equation?tex=c%20%3D%20y (正确的类)的导数 equation?tex=f_c,然后再考虑当 equation?tex=c%20%5Cneq%20y (所有不正确的类)的导数 equation?tex=f_c
  • 技巧4:如果你被矩阵微积分搞糊涂了,请计算逐个元素的偏导数!
  • 技巧5:使用形状约定。注意:到达隐藏层的错误消息 equation?tex=%5Cdelta 具有与该隐藏层相同的维度

1.4 为窗口模型推导梯度

为窗口模型推导梯度wrt单词

  • 到达并更新单词向量的梯度可以简单地分解为每个单词向量的梯度
  • equation?tex=%5Cnabla_%7Bx%7D%20J%3DW%5E%7BT%7D%20%5Cdelta%3D%5Cdelta_%7Bx_%7Bw%20i%20n%20d%20o%20w%7D%7D
  • equation?tex=X_%7Bwindow%7D%3D%5BX_%7Bmuseums%7D%20%5Cquad%20X_%7Bin%7D%20%5Cquad%20X_%7BParis%7D%20%5Cquad%20X_%7Bare%7D%20%20%5Cquad%20X_%7B%20amazing%7D%5D
  • 则得到

equation?tex=%5Cbegin%7Baligned%7D%20%5Cdelta_%7Bwindow%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cnabla_%7Bx_%7B%5Ctext%20%7Bmuseums%7D%7D%7D%7D%20%5C%5C%20%7B%5Cnabla_%7Bx_%7Bi%20n%7D%7D%7D%20%5C%5C%20%7B%5Cnabla_%7Bx_%7B%5Ctext%20%7BPare%7D%7D%7D%7D%20%5C%5C%20%7B%5Cnabla_%7Bx_%7B%5Ctext%20%7Bare%7D%7D%7D%7D%20%5C%5C%20%7B%5Cnabla_%7Bx_%7B%5Ctext%20%7Bamazing%7D%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7B5%20d%7D%20%5Cend%7Baligned%7D

  • 我们将根据梯度逐个更新对应的词向量矩阵中的词向量,所以实际上是对词向量矩阵的更新是非常稀疏的

1.5 在窗口模型中更新单词梯度

在窗口模型中更新单词梯度

  • 当我们将梯度更新到词向量中时,这将更新单词向量,使它们(理论上)在确定命名实体时更有帮助。
  • 例如,模型可以了解到,当看到 equation?tex=x_%7Bin%7D 是中心词之前的单词时,指示中心词是一个 Location

1.6 重新训练词向量时的陷阱

重新训练词向量时的陷阱

  • 背景:我们正在训练一个单词电影评论情绪的逻辑回归分类模型
  • 训练数据中,我们有“TV”和“telly”
  • 测试数据中我们有“television”
  • 预训练的单词向量有三个相似之处:

重新训练词向量时的陷阱

  • 问题:当我们更新向量时会发生什么
  • 回答

    • 那些在训练数据中出现的单词会四处移动
    • “TV”和“telly”
    • 没有包含在训练数据中的词汇保持原样
    • “television”

1.7 关于再训练的建议

关于“词向量”再训练的建议

  • 问题:应该使用可用的“预训练”词向量吗?
  • 回答

    • 几乎总是「应该用」
    • 他们接受了大量的数据训练,所以他们会知道训练数据中没有的单词,也会知道更多关于训练数据中的单词
    • 拥有上亿的数据语料吗?那可以随机初始化开始训练
  • 问题:我应该更新(“fine tune”)我自己的单词向量吗?
  • 回答

    • 如果你只有一个小的训练数据集,不要对预训练词向量做再训练
    • 如果您有一个大型数据集,那么基于任务训练更新词向量( train = update = fine-tune )效果会更好

2.计算图与反向传播

2.1 反向传播

反向传播

  • 我们几乎已经向你们展示了反向传播

    • 求导并使用(广义)链式法则
  • 另一个技巧:在计算较低层的导数时,我们重用对较深层计算的导数,以减小计算量

2.2 计算图和反向传播

计算图和反向传播

  • 我们把神经网络方程表示成一个图

    • 源节点:输入
    • 内部节点:操作
    • 边传递操作的结果

equation?tex=%5Cbegin%7Baligned%7D%20s%20%26%3D%20u%5ETh%20%5C%5C%20h%20%26%3D%20f%28z%29%20%5C%5C%20z%20%26%3D%20Wx%2Bb%20%5C%5C%20x%20%26%20%5Cquad%20%28input%29%20%20%5Cend%7Baligned%7D

Forward Propagation:前向传播
Back Propagation:沿着边回传梯度

2.3 反向传播:单神经元视角

反向传播:单神经元视角

  • 节点接收“上游梯度”

    • 目标是传递正确的“下游梯度”
  • 每个节点都有局部梯度 local gradient

    • 它输出的梯度是与它的输入有关
  • 每个节点都有局部梯度 local gradient

    • n它输出的梯度是与它的输入有关
  • 每个节点都有局部梯度 local gradient

    • 它输出的梯度是与它的输入有关

反向传播:单点

  • 有多个输入的节点呢? equation?tex=z%3DWx
  • 多个输入 → 多个局部梯度

2.4 反向传播计算图示例

示例

2.5 求和形态的梯度计算

上图中的 equation?tex=%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20y%7D 的梯度的计算

equation?tex=%5Cbegin%7Baligned%7D%20a%20%26%3D%20x%20%2B%20y%20%5C%5C%20b%20%26%3D%20max%28y%2Cz%29%5C%5C%20f%20%26%3D%20ab%20%5Cend%7Baligned%7D

equation?tex=%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20y%7D%20%3D%20%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20a%7D%5Cfrac%7B%5Cpartial%20a%7D%7B%5Cpartial%20y%7D%20%2B%20%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20b%7D%5Cfrac%7B%5Cpartial%20b%7D%7B%5Cpartial%20y%7D

2.6 直挂理解神经元的梯度传递

直观理解神经元的梯度传递

  • equation?tex=%2B “分发” 上游梯度
  • equation?tex=max “路由” 上游梯度,将梯度发送到最大的方向
  • equation?tex=%5Cast “切换”上游梯度

2.7 同步计算所有梯度以提速

同步计算所有梯度以提速

  • 错误的反向传播计算方式

    • 先计算 equation?tex=b 的偏导
    • 接着计算 equation?tex=W 的偏导
    • 重复计算!
  • 正确的反向传播计算方式

    • 一次性计算所有偏导
    • 类似手动计算梯度时的方式

2.8 一般计算图中的反向传播

一般计算图中的反向传播

1 Fprop:按拓扑排序顺序访问节点

  • 计算给定父节点的节点的值

2 Bprop

  • 初始化输出梯度为 1
  • 以相反的顺序方位节点,使用节点的后继的梯度来计算每个节点的梯度
  • equation?tex=%5C%7By_1%2Cy_2%2C%5Ccdots%2Cy_n%5C%7Dequation?tex=x 的后继

equation?tex=%5Cfrac%7B%5Cpartial%20z%7D%7B%5Cpartial%20x%7D%20%3D%20%5Csum_%7Bi%3D1%7D%5En%20%5Cfrac%7B%5Cpartial%20z%7D%7B%5Cpartial%20y_i%7D%5Cfrac%7B%5Cpartial%20y_i%7D%7B%5Cpartial%20x%7D

  • 正确地说,Fprop 和 Bprop 的计算复杂度是一样的
  • 一般来说,我们的网络有固定的层结构,所以我们可以使用矩阵和雅可比矩阵

2.9 自动微分

自动微分

  • 梯度计算可以从 Fprop 的符号表达式中自动推断
  • 每个节点类型需要知道如何计算其输出,以及如何在给定其输出的梯度后计算其输入的梯度
  • 现代DL框架(Tensorflow, Pytoch)为您做反向传播,但主要是令作者手工计算层/节点的局部导数

2.10 反向传播的实现

反向传播的实现

为了计算反向传播,我们需要在前向传播时存储一些变量的值

2.11 实现:前向/反向API

实现:前向/反向API

为了计算反向传播,我们需要在前向传播时存储一些变量的值

2.12 梯度检查:数值梯度

梯度检查:数值梯度

  • 对于 equation?tex=h%20%5Capprox%201e%5E%7B-4%7D

equation?tex=f%5E%7B%5Cprime%7D%28x%29%20%5Capprox%20%5Cfrac%7Bf%28x%2Bh%29-f%28x-h%29%7D%7B2%20h%7D

  • 易于正确实现
  • 但近似且非常缓慢

    • 必须对模型的每个参数重新计算 equation?tex=f
  • 用于检查您的实现

    • 在过去我们手写所有东西的时候,在任何地方都这样做是关键。
    • 现在,当把图层放在一起时,就不需要那么多了

2.13 总结

总结

  • 我们已经掌握了神经网络的核心技术
  • 反向传播:沿计算图递归应用链式法则

    • [downstream gradient] = [upstream gradient] x [local gradient]
  • 前向传递:计算操作结果并保存中间值
  • 反向传递:应用链式法则计算梯度

2.14 为什么要学习梯度的所有细节?

为什么要学习梯度的所有细节?

  • 现代深度学习框架为您计算梯度
  • 但是,当编译器或系统为您实现时,为什么要学习它们呢?

    • 了解底层原理是有帮助的
  • 反向传播并不总是完美地工作

    • 理解为什么对调试和改进模型至关重要

      • 未来课程的例子:爆炸和消失的梯度

3.神经网络训练实用知识技能

3.1 模型正则化防止过拟合

模型正则化防止过拟合

  • 实际上一个完整的损失函数包含了所有参数 equation?tex=%5Ctheta 的正则化(下式中最后一项),例如L2正则化:

equation?tex=J%28%5Ctheta%29%3D%5Cfrac%7B1%7D%7BN%7D%20%5Csum_%7Bi%3D1%7D%5E%7BN%7D-%5Clog%20%28%5Cfrac%7Be%5E%7Bf_%7By_%7Bi%7D%7D%7D%7D%7B%5Csum_%7Bc%3D1%7D%5E%7BC%7D%20e%5E%7Bf_%7Bc%7D%7D%7D%29%2B%5Clambda%20%5Csum_%7Bk%7D%20%5Ctheta_%7Bk%7D%5E%7B2%7D

  • 正则化(在很大程度上)可以防止在我们有很多特征时过拟合(或者是一个非常强大/深层的模型等等)

3.2 向量化形态

向量化形态

  • 例如,对单词向量进行循环,而不是将它们全部连接到一个大矩阵中,然后将softmax权值与该矩阵相乘

    • 1000 loops, best of 3: 639 μs per loop
    • 10000 loops, best of 3: 53.8 μs per loop
  • (10x)更快的方法是使用 equation?tex=C%20%5Ctimes%20N 矩阵
  • 总是尝试使用向量和矩阵,而不是循环
  • 你也应该快速测试你的代码
  • 矩阵向量化的方式太棒了

3.3 非线性:常规激活函数

非线性:常规激活函数

tanh 只是一个重新放缩和移动的 sigmoid (两倍陡峭,[-1,1])

equation?tex=%5Ctanh%20%28z%29%3D2%20logistic%282%20z%29-1

logistic 和 tanh 仍然被用于特定的用途,但不再是构建深度网络的默认值。

tiplogistic和tanh

  • 设计复杂的数学运算,指数计算会减慢速度。所以人们提出了 hard tanh,并且效果很不错。于是才有了 ReLU

3.4 非线性:新的激活函数

非线性:新的激活函数

  • 为了建立一个前馈深度网络,你应该做的第一件事是ReLU——由于良好的梯度回流,训练速度快,性能好

tipReLU

  • 每个单元要么已经死了,要么在传递信息。
  • 非零范围内只有一个斜率,这一位置梯度十分有效的传递给了输入,所以模型非常有效的训练

3.5 参数初始化

参数初始化

  • 通常 必须将权重初始化为小的随机值 (这样才能在激活函数的有效范围内, 即存在梯度可以使其更新)

    • 避免对称性妨碍学习/特殊化的
  • 初始化隐含层偏差为0,如果权重为0,则输出(或重构)偏差为最优值(例如,均值目标或均值目标的反s形)
  • 初始化 所有其他权重为 Uniform(–r, r),选择使数字既不会太大也不会太小的 equation?tex=r
  • Xavier初始化中,方差与 fan-in equation?tex=n_%7Bin%7D (前一层尺寸)和 fan-out equation?tex=n_%7Bout%7D (下一层尺寸)成反比

equation?tex=Var%28W_i%29%3D%5Cfrac%7B2%7D%7Bn_%7Bin%7D%2Bn_%7Bout%7D%7D

3.6 优化算法

优化算法

通常,简单的SGD就可以了

  • 然而,要得到好的结果通常需要手动调整学习速度(下一张幻灯片)
  • 对于更复杂的网络和情况,或者只是为了避免担心,更有经验的复杂的 “自适应”优化器通常会令你做得更好,通过累积梯度缩放参数调整。
  • 这些模型给每个参数调整学习速度

    • Adagrad
    • RMSprop
    • Adam 相当好,在许多情况下是安全的选择
    • SparseAdam

3.7 学习率策略

学习率策略

  • 你可以用一个固定的学习速度。从 equation?tex=lr%20%3D%200.001 开始?

    • 它必须是数量级的——尝试10的幂
    • 太大:模型可能会发散或不收敛
    • 太小:你的模型可能训练不出很好的效果
  • 如果你在训练时降低学习速度,通常可以获得更好的效果

    • 手工:每隔 equation?tex=k 个阶段(epoch)将学习速度减半

      • epoch = 遍历一次数据 (打乱或采样的)
    • 通过一个公式: equation?tex=l%20r%3Dl%20r_%7B0%7D%20e%5E%7B-k%20t%7D , {for epoch }t
    • 还有更新奇的方法,比如循环学习率(q.v.)
  • 更高级的优化器仍然使用学习率,但它可能是优化器缩小的初始速度——因此可能可以从较高的速度开始

4.视频教程

可以点击 B站 查看视频的【双语字幕】版本

5.参考资料

ShowMeAI 系列教程推荐

自然语言处理(NLP)系列教程

斯坦福 CS224n 课程带学详解

ShowMeAI用知识加速每一次技术成长

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:理解神经网络与反向传播算法
【9月更文挑战第20天】本文将深入浅出地介绍深度学习中的基石—神经网络,以及背后的魔法—反向传播算法。我们将通过直观的例子和简单的数学公式,带你领略这一技术的魅力。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你打开深度学习的大门,让你对神经网络的工作原理有一个清晰的认识。
|
3月前
|
机器学习/深度学习
神经网络各种层的输入输出尺寸计算
神经网络各种层的输入输出尺寸计算
151 1
|
1月前
|
存储 缓存 算法
|
1月前
|
存储
|
1月前
|
机器学习/深度学习 算法
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
【机器学习】揭秘反向传播:深度学习中神经网络训练的奥秘
WK
|
2月前
|
机器学习/深度学习 算法
神经网络的反向传播是什么
反向传播(Backpropagation)是用于训练神经网络的一种关键算法,其目标是通过计算损失函数关于网络参数的梯度来优化这些参数,从而提升网络性能。该算法包括前向传播和反向传播两个阶段:前者计算预测结果与损失值,后者利用链式法则逐层计算梯度以更新权重和偏置。作为深度学习中最常用的优化方法之一,反向传播广泛应用于多种神经网络模型中,通过不断迭代改进模型的预测准确性和泛化能力。
WK
50 5
|
2月前
|
机器学习/深度学习
小土堆-pytorch-神经网络-损失函数与反向传播_笔记
在使用损失函数时,关键在于匹配输入和输出形状。例如,在L1Loss中,输入形状中的N代表批量大小。以下是具体示例:对于相同形状的输入和目标张量,L1Loss默认计算差值并求平均;此外,均方误差(MSE)也是常用损失函数。实战中,损失函数用于计算模型输出与真实标签间的差距,并通过反向传播更新模型参数。
|
3月前
|
云安全 安全 网络安全
云端防御战线:融合云计算与网络安全的未来策略
【7月更文挑战第47天】 在数字化时代,云计算已成为企业运营不可或缺的部分,而网络安全则是维护这些服务正常运行的基石。随着技术不断进步,传统的安全措施已不足以应对新兴的威胁。本文将探讨云计算环境中的安全挑战,并提出一种融合云服务与网络安全的综合防御策略。我们将分析云服务模式、网络威胁类型以及信息安全实践,并讨论如何构建一个既灵活又强大的安全体系,确保数据和服务的完整性、可用性与机密性。
WK
|
2月前
|
机器学习/深度学习
在神经网络的反向传播中,Tanh和Sigmoid哪个更快
在神经网络反向传播中,Tanh与Sigmoid函数的速度差异并无定论,受网络结构、数据特性及参数设置影响。Sigmoid在远离零时易导致梯度消失,而Tanh因输出范围为(-1, 1)且以0为中心,能更好地缓解此问题,理论上训练速度更快。两者计算复杂度相近,现代硬件优化使这一差距不明显。实际应用中,Sigmoid常用于二分类输出层,Tanh则适用于隐藏层以加速收敛并减少权重更新偏向。随着深度学习发展,ReLU等新激活函数因高效性和轻度梯度消失问题成为主流选择。综合来看,Tanh可能比Sigmoid稍快,但需根据具体任务和网络结构选择。
WK
55 0
|
3月前
|
机器学习/深度学习 存储 自然语言处理
天啊!深度神经网络中 BNN 和 DNN 基于存内计算的传奇之旅,改写能量效率的历史!
【8月更文挑战第12天】深度神经网络(DNN)近年在图像识别等多领域取得重大突破。二进制神经网络(BNN)作为DNN的轻量化版本,通过使用二进制权重和激活值极大地降低了计算复杂度与存储需求。存内计算技术进一步提升了BNN和DNN的能效比,通过在存储单元直接进行计算减少数据传输带来的能耗。尽管面临精度和硬件实现等挑战,BNN结合存内计算代表了深度学习未来高效节能的发展方向。
47 1