概述
归一化技术在大模型中起到稳定训练、加速收敛的关键作用。
🏗️ 归一化方法
1️⃣ LayerNorm
●
原理:对特征维度归一化
●
公式:
LayerNorm(x)=
σ
2
+ϵ
x−μ
⋅γ+β
●
应用:Transformer标准配置
2️⃣ RMSNorm
●
原理:去除均值计算,仅使用方差
●
公式:
RMSNorm(x)=
RMS(x)
x
⋅γ
●
优点:计算更高效
●
应用:LLaMA、RWKV
3️⃣ Pre-norm vs Post-norm
●
Pre-norm:归一化在残差连接前
●
Post-norm:归一化在残差连接后
●
趋势:现代模型倾向Pre-norm
📊 对比分析
方法
计算量
稳定性
现代应用
LayerNorm
高
高
标准Transformer
RMSNorm
中
高
LLaMA、RWKV
Pre-norm
-
更高
现代架构