解决训练难题，1000层的Transformer来了，训练代码很快公开（二）-阿里云开发者社区

解决训练难题，1000层的Transformer来了，训练代码很快公开（二）

2022-04-29 182

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

语种识别，语种识别 100万字符

文档翻译，文档翻译 1千页

图片翻译，图片翻译 100张

简介： 解决训练难题，1000层的Transformer来了，训练代码很快公开（二）

DeepNet：极深的 Transformer 模型

研究者首先介绍了极深的 Transformer 模型 ——DeepNet，该模型可以通过缓解爆炸式模型更新问题来稳定优化过程。

DeepNet 基于 Transformer 架构。与原版 Transformer 相比，DeepNet 在每个子层使用了新方法 DEEPNORM，而不是以往的 Post-LN。DEEPNORM 的公式如下所示。

其中，α 是一个常数，G_l (x_l , θ_l) 是参数为 θ_l 的第 l 个 Transformer 子层（即注意力或前馈网络）的函数。DeepNet 还将残差内部的权重 θ_l 扩展了 β。

接着，研究者提供了对 DeepNet 模型更新预期大小（expected magnitude）的估计。

他们可视化了 IWSLT-14 De-En 翻译数据集上，Post-LN 和 DeepNet 在早期训练阶段的模型更新情况，如下图 5 所示。可以看到，相较于 Post-LN，DeepNet 的模型更新几乎保持恒定。

最后，研究者提供理论分析，以表明 DeepNet 的更新受到了 DEEPNORM 的常数限制。具体地，他们展示了 DeepNet 的预期模型更新受到了适当参数 α 和 β 的常数限制。研究者的分析基于 SGD 更新，并通过实证证明对 Adam 优化器效果很好。

研究者提供了对编码器 - 解码器架构的分析，它能够以相同的方式自然地扩展到仅编码器和仅解码器的模型。具体如下图所示，他们将模型更新的目标设定如下：

仅编码器（例如 BERT）和仅解码器（例如 GPT）架构的推导能够以相同的方式进行。研究者将步骤总结如下：

神经机器翻译

该研究验证了 DeepNet 在流行的机器翻译基准上的有效性，包括 IWSLT-14 德语 - 英语 (De-En) 数据集和 WMT-17 英语 - 德语 (En-De) 数据集。该研究将 DeepNet 与多个 SOTA 深度 Transformer 模型进行比较，包括 DLCL 、NormFormer 、ReZero 、R- Fixup 、T-Fixup 、DS-init 和 Admin。

下表 1 报告了 WMT-17 En-De 翻译数据集上的基线和 DeepNet 的结果：

下图 6 显示了 IWSLT-14 数据集的结果

下图 7 报告了 WMT-17 验证集的损失曲线

大规模多语言神经机器翻译

该研究首先使用 OPUS-100 语料库来评估模型。OPUS100 是一个以英语为中心的多语言语料库，涵盖 100 种语言，是从 OPUS 集合中随机抽取的。该研究将 DeepNet 扩展到 1,000 层，该模型有一个 500 层的编码器、 500 层的解码器、512 个隐藏大小、8 个注意力头和 2,048 维度的前馈层。

下表 2 总结了 DeepNet 和基线的结果。结果表明，增加网络深度可以显着提高 NMT 的翻译质量：48 层的模型比 12 层的模型平均获得 3.2 点的提高。DeepNet 可以成功地将深度扩展到 1,000 层，比基线提高 4.4 BLEU。值得注意的是，DeepNet 只训练了 4 个 epoch，并且在计算预算更多的情况下，性能可以进一步提高。

深度扩展规律：该研究在 OPUS100 数据集上训练具有 {12,20,100,200,1000} 层的 DeepNet，下图 8 显示了深度扩展曲线。与双语 NMT 相比，多语 NMT 从扩展模型深度受益更多。可以观察到多语 NMT 的 BLEU 值呈对数增长，规律可以写成：L (d) = A log (d) + B，其中 d 是深度，A, B 是关于其他超参数的常数。

更多数据和语言说明：为了探索 DeepNet 在多语 NMT 上的局限性，该研究随后使用 Schwenk 等人提出的 CCMatrix 扩展训练数据。此外，该研究还扩展了 CCAligned 、OPUS 和 Tatoeba 的数据，以涵盖 Flores101 评估集的所有语言。最终的数据由 102 种语言、1932 个方向和 12B 对句子组成。利用这些数据，该研究用 100 层编码器、100 层解码器、1024 个隐藏维度、16 个头、4096 个前馈层中间维度对 DeepNet 进行训练。

该研究将 DeepNet 与 SOTA 多语 NMT 模型 M2M-100 进行了比较。M2M-100 有一个 24 层的编码器、一个 24 层的解码器和 4,096 个隐藏大小，从而产生高达 12B 的参数。与 M2M-100 相比，DeepNet 深而窄，参数只有 3.2B。

在 M2M-100 之后，该研究在几个多语言翻译评估数据集上评估模型，包括 WMT、OPUS 、TED、 Flores。WMT 的语言对是以英语为中心的。包括英语在内的 10 种语言，其中大部分是高资源语言。对于 OPUS 数据集，该研究从包含 30 个评估对的测试集中选择非英语方向。TED 评估集有 28 种语言和 756 个方向，数据来自口语领域。Flores 数据集包含 102 种语言之间的所有翻译对。该研究使用涵盖 M2M-100 和 DeepNet 支持的语言的子集，产生 87 种语言和 7,482 个翻译方向。

下表 3 报告了结果，为了公平比较，该研究使用与基线相同的评估方法。结果表明 DeepNet 在所有评估数据集上的性能都明显优于 M2M-100，表明深化模型是提高 NMT 模型质量的一个非常有前景的方向。