🎯 概述
前馈网络(FFN)是Transformer中的重要组件,提供非线性变换能力。
🏗️ 网络结构
1️⃣ 标准FFN
- 结构:Linear → Activation → Linear
- 公式:
- 扩展系数:通常4倍隐藏维度
2️⃣ 混合专家模型 (MoE)
- 原理:稀疏激活的专家网络
- 特点:
- 参数量大但计算高效
- 动态路由机制
- 专家并行
⚡ 激活函数
1️⃣ ReLU
- 公式:
- 特点:简单高效,但可能神经元死亡
2️⃣ GELU
- 公式:
- 特点:平滑激活,BERT使用
3️⃣ SwiGLU
- 公式:
- 特点:GLU变体,LLaMA使用
📊 结构对比
类型 |
参数量 |
计算量 |
表达能力 |
标准FFN |
少 |
少 |
中 |
MoE |
多 |
中 |
强 |