手推公式之“层归一化”梯度

简介: 手推公式之“层归一化”梯度

昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。

“交叉熵”反向传播推导

前向传播

假设待归一化的维向量为,均值和标准差分别是和,LayerNorm的参数是和,那么层归一化后的输出为:

1685433242933.png

这里的极小量是为了防止标准差为0导致溢出。为了简单起见,我们不加上这一项,原公式也就变成了:

1685433251684.png

反向传播

假设损失函数对输出的梯度是,那么这里需要求三个梯度:、和。

令,那么原公式就变成了:

1685433230349.png

两个参数的梯度非常简单:

1685433217604.png

对输入的梯度等于:

1685433207434.png

推导过程

对输入的梯度可以写成:

1685433196242.png

这里只需要计算最后一项就行了:

1685433181920.png

其中只有当的时候才会等于1,否则都等于0。这里只需要求出均值和标准差对的梯度就行了。直接给出结论,证明比较简单,放在了文末:

1685433168796.png

代入可以得到:

1685433157503.png

最后带入梯度中可以得到:

1685433146251.png

均值和标准差的梯度

1685433132141.png

相关文章
|
3月前
|
机器学习/深度学习 存储 缓存
129_量化技术:INT8与动态量化 - 推导压缩的精度损失公式
在2025年的大语言模型(LLM)时代,随着模型规模的指数级增长,部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿,这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术,正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术,特别是INT8和动态量化方法,推导其精度损失公式,并提供2025年最新的优化策略和实现代码。
|
6月前
|
数据采集 安全 数据安全/隐私保护
微信加人要安全验证怎么回事
微信好友添加安全验证机制的技术解析 作为拥有12亿月活的国民级应用
|
5月前
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
334 9
|
3月前
|
并行计算 PyTorch 算法框架/工具
vLLM 架构学习指南
本指南深入解析vLLM高性能推理引擎架构,涵盖核心创新PagedAttention与连续批处理技术,结合代码结构、学习路径与实践建议,系统指导用户从入门到贡献源码的全过程。
1184 2
vLLM 架构学习指南
|
Java Linux 计算机视觉
全网首发:Could NOT find JNI (missing: JAVA_AWT_INCLUDE_PATH) 解决办法
全网首发:Could NOT find JNI (missing: JAVA_AWT_INCLUDE_PATH) 解决办法
577 0
|
存储 算法 Java
基数排序详解(Radix sort)
基数排序详解(Radix sort)
441 0
|
自然语言处理 搜索推荐 小程序
博物馆导览系统:提升观众参观效率与满意度
在这个快节奏时代,博物馆面临挑战与机遇。传统导览方式难以满足个性化、互动性和沉浸式学习需求。本文深入解析博物馆智能导览系统,包括精准定位导航、展品解说和AR技术应用,提升观众参观效率与满意度。
713 5
|
存储 分布式计算 监控
什么是 Hadoop 集群?
【8月更文挑战第12天】
715 4
树莓派换源教程 树莓派4B换源教程
树莓派换源教程 树莓派4B换源教程
927 2
|
机器学习/深度学习 JSON 自然语言处理
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
587 1

热门文章

最新文章