备案控制台

开发者社区人工智能文章正文

手推公式之“层归一化”梯度

2022-06-26 388

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 昨天推导了一下交叉熵的反向传播梯度，今天再来推导一下层归一化（LayerNorm），这是一种常见的归一化方法

- BEGIN -

昨天推导了一下交叉熵的反向传播梯度，今天再来推导一下层归一化（LayerNorm），这是一种常见的归一化方法。

“交叉熵”反向传播推导

前向传播

反向传播

推导过程

均值和标准差的梯度

- END -

我是godweiyang，字节跳动算法工程师，末流985计算机本硕均专业第一。秋招斩获三家大厂SSP offer，擅长算法、机器翻译和模型加速。

文章标签：

自然语言处理

算法

算法码上来

目录

相关文章

算法码上来

手推公式之“层归一化”梯度

手推公式之“层归一化”梯度

算法码上来

167 0 0

【方向】

|

机器学习/深度学习计算机视觉

全连接网络到卷积神经网络逐步推导（组图无公式）

在图像分析中，卷积神经网络（Convolutional Neural Networks, CNN）在时间和内存方面优于全连接网络（Full Connected, FC）。这是为什么呢？卷积神经网络优于全连接网络的优势是什么呢？卷积神经网络是如何从全连接网络中派生出来的呢？卷积神经网络这个术语又是从哪里而来？这些问题在本文中一一为大家解答。

【方向】

6978 0 0

uncle_ll

|

机器学习/深度学习算法 API

浅谈神经网络中的梯度爆炸问题

本文讲解梯度爆炸的相关问题，主要从以下三个方面介绍：什么是梯度爆炸，以及在训练过程中梯度爆炸会引发哪些问题、如何知道网络模型是否存在梯度爆炸、如何在网络模型中解决梯度爆炸问题。讲解比较通俗易懂，给出了一些判断梯度爆炸存在的方法及解决方法。

uncle_ll

1820 0 0

张继群

|

机器学习/深度学习人工智能自然语言处理

手写数字识别python代码卷积层，池化层，正向传播（relu：激活函数）

手写数字识别python代码卷积层，池化层，正向传播（relu：激活函数）

张继群

329 0 0

手写数字识别python代码卷积层，池化层，正向传播（relu：激活函数）

桃子红了呐

|

机器学习/深度学习 Java 计算机视觉

神经网络中归一化的重要作用

桃子红了呐

1402 0 0

JOYCE_Leo16

|

9月前

|

机器学习/深度学习缓存自然语言处理

PyTorch使用Tricks：梯度裁剪-防止梯度爆炸或梯度消失！！

PyTorch使用Tricks：梯度裁剪-防止梯度爆炸或梯度消失！！

JOYCE_Leo16

700 0 0

【方向】

|

机器学习/深度学习

人工神经网络中究竟使用多少隐藏层和神经元

本文讲述了人工神经网络中使用了多少隐藏层，每个隐藏层中包含多少神经元，使用隐藏层和神经元的目的，以及增加隐藏的层数和神经元的数量总是会带来什么结果。

【方向】

3765 0 0

桃子红了呐

|

机器学习/深度学习计算机视觉数据挖掘

神经网络中的激活函数——加入一些非线性的激活函数，整个网络中就引入了非线性部分，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，但是 ReLU 并不需要输入归一化

桃子红了呐

3734 0 0

架构师研究会

|

机器学习/深度学习缓存算法

神经网络计算爆炸

神经网络计算爆炸

架构师研究会

97 0 0

YuetianW

|

机器学习/深度学习算法数据可视化

使用Python实现单隐藏层神经网络的训练（一）

使用Python实现单隐藏层神经网络的训练（一）

YuetianW

277 0 0

使用Python实现单隐藏层神经网络的训练（一）

热门文章

最新文章

deepseek部署的详细步骤和方法，基于Ollama获取顶级推理能力！

讨论阶段性给予客户交付物所引发的风险问题

Linus Torvalds将中国亮相LinuxCon + ContainerCon + CloudOpen

DispatcherServlet与初始化主线

网络安全研究人员发现新漏洞：或成另一个WannaCry

Swift中常量和变量的声明

[20160516]adrci purge.txt

Docker Secure Deployment Guidelines

Eclipse没有权限操作rt.jar包中的sun包，导致sun.net.ftp.FtpClient引用报错

Learning Cocos2d-x for WP8（9）——Sprite到哪，我做主

去中心化存储：数据存储的新范式

AI 赋能混合云运维：告别手工操作，迈向智能自愈！

从Excel到大数据：别让工具限制你的思维！

Go 切片导致 rand.Shuffle 产生重复数据的原因与解决方案

基于SVPWM矢量控制的无速度传感器电机控制系统simulink建模与仿真

基于小波变换和峰值搜索的光谱检测matlab仿真,带GUI界面

DragAnything：视频PS来了！开源AI控制器让视频「指哪动哪」：拖拽任意物体轨迹，多对象独立运动一键生成

FoloUp：比HR更懂岗位需求！开源语音面试平台爆火：1份岗位需求生成100问，语音AI追问逻辑漏洞

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

基于深度学习的路面裂缝检测算法matlab仿真

相关电子书

更多

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

机器能理解上下文吗 RNN和LSTM神经网络的原理及应用

概率图模型

下一篇

阿里云oss简介和如何对接使用