- BEGIN -
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
前向传播
反向传播
推导过程
均值和标准差的梯度
- END -
我是godweiyang,字节跳动算法工程师,末流985计算机本硕均专业第一。秋招斩获三家大厂SSP offer,擅长算法、机器翻译和模型加速。
- BEGIN -
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。
- END -
我是godweiyang,字节跳动算法工程师,末流985计算机本硕均专业第一。秋招斩获三家大厂SSP offer,擅长算法、机器翻译和模型加速。