注意力层:
输入 -> LLQ -> @ -> /√ES -> softmax -> @ -> LLO -> Dropout -> 输出 | ↑ ↑ +---> LLK ---+ | | | +---> LLV ----------------------------+
FFN 层:
输入 -> LL1 -> GELU -> Dropout -> LL2 -> 输出
TF 层:
输入 -> LN1 -> 注意力层 -> Dropout1 -> ⊕ -> 中间量 | ↑ +-----------------------------------+
中间量 -> LN2 -> PFF 层 -> Dropout2 -> ⊕ -> Dropout3 -> 输出 | ↑ +-----------------------------------+
Bert编码器:
输入 -> 嵌入层 -> TF 层 x NL -> 输出
Bert 解码器:
输入 -> LL -> softmax -> 输出