识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷（2）-阿里云开发者社区

识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷（2）

2023-05-15 110

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷

实验

文章使用 PyTorch 的 transformer 内置实现的修改版本（Paszke 等人，2019）实现了上述两种建构。这些构造对长度从 [1, 1000] 采样的字符串实现了完美的准确性。然而，在下图 2 中，红色曲线（「没有做层归一化」）表明，随着字符串变长，交叉熵接近每个字符串 1 比特的最坏可能值。

层归一化

减轻或消除 Hahn 引理限制的第二种方法是层归一化 (Ba et al., 2016)，对于任何向量 x，其定义为

实验中，𝛽 = 0 和𝛾 = 1，因此结果的均值近似为零和方差近似为 1。常数 𝜖 没有出现在原始定义中（Ba et al., 2016），但为了数值稳定性，我们知道的所有实现中都添加了常数𝜖。

原始的 transformer 在每个残差连接后立即执行层归一化。在本节中，研究者修改了上面的两个结构的层归一化。，这一修改有两个步骤。

去除中心

第一个是通过使网络计算每个值𝑥以及 -𝑥来消除层归一化的中心效应。新单词的编码是根据原始结构中的编码定义的：

对于自注意力层的参数也是类似。

对于每个位置的 FFNN 参数也类似。

之后，每层的激活值为：

LN 的参数始终具有零均值，因此层标准化不会增加或减少任何内容。它确实缩放了激活，但在上面构建的两个 transformer 的情形中，任何激活层都可以按任何正数进行缩放，而不会改变最终决策。

减少交叉熵

此外，在任何转换器中，我们可以在任意 transformer 中使用层归一化来将交叉熵缩小到想要的任意小，这与 Hahn 的引理 5 相反。在 Hahn 的公式中，像层归一化这样的位置相关的函数可以包含在他的 𝑓^act 中，但是引理假设 𝑓^act 是 Lipschitz 连续的，而 ϵ = 0 的层归一化不是。

命题 2. 对于任何具有层归一化 (ϵ = 0) 并可以识别语言 L 的 transformer 𝑇，对任何 𝜂 > 0 而言，都存在一个可以以最多𝜂为交叉熵的、带有层归一化的识别语言 L 的 transformer。

证明。让𝑑表示原始激活向量中的维数，𝐿是层数。然后添加一个新层，这个层中的自注意力不做任何事情 (W^V,𝐿+1,ℎ = 0)，并且 FFNN 是根据原始输出层定义的：

这会导致残差连接除了 2 个维度外的所有维度为零，因此如果𝑠是原始输出 logit，则此新层的输出（层归一化之前）为

现在，如果 ϵ = 0，层归一化将该向量缩放到只具有单位方差，因此它变为：

新的输出层只是简单地选择第一维，并把它拓展到 c 倍。

实验

研究者测试了这一解决方案，它在层归一化时进行了如上修改。上图 2 显示 ϵ > 0 的层归一化提高了交叉熵，但它仍然随着 𝑛 增长并接近 1。

可学习性

在本节中，研究者将转向可学习性的问题，这时克服 Hahn 引理所提出的缺陷的第三种方法。

实验：标准的 transformer

研究者在 PARITY 和 FIRST 上训练 transformer。每个 transformer 都具有与对应的精确解相同的层数和头数以及相同的固定位置编码。与单词编码、自注意力相关的 FFNN 输出的𝑑_model 为 16，而与 FFNN 隐藏层相关的𝑑_FFNN 为 64。残差连接之后使用了层归一化（ϵ = 10^-5）。

实验使用 PyTorch 默认的初始化并使用 Adam (Kingma and Ba, 2015) 进行训练，学习率为 3 × 10^−4 (Karpathy, 2016)。实验没有使用 dropout，因为它似乎没有帮助。FIRST 更容易学习，但坏消息是学习到的 transformer 不能很好地泛化到更长的句子。下图 4（左列）显示，当 transformer 在较短的字符串（𝑛 = 10、30、100、300）上从头开始训练并在较长的字符串（𝑛 = 1000）上进行测试时，准确度并不非常好。事实上，对于𝑛 = 10 上的训练，准确度和随机猜测类似。

长度取对数后拓展的注意力

幸运的是，这个问题很容易通过以 log 𝑛的比例缩放每个注意力层的 logits 来解决，即将注意力重新定义为

然后使用 c = 1 下的针对 FIRST 的 Flawed transformer：

命题 3。对于任何 𝜂 > 0，都存在一个带有如公式 2 所定义的注意力的 transformer，它无论有无层归一化，都可以以最多𝜂的交叉熵来识别 FIRST 语言。

证明。当没有层归一化时，3.3 节中描绘的模型中 c 设为 1，并对注意力的权重进行对数尺度的缩放，它可以将公式（1）中的 s 从公式（1）转化为：

实验：缩放的注意力

下图 4（右栏）的 tranformer 模型使用了 log n 为缩放因子的注意力。

我们可以在稀缺资源英语 - 越南语的机器翻译任务上使用开源 transformer 模型（即 Witwicky）时看到相似的效应（如下表 1 所示）。

当训练集和测试即得长度分布一样得时候，缩放注意力的 logits 没有显著的影响，但如果仅在只有中等甚至更短（小于 20）长度的句子上训练，而测试句子长度大于中等长度（大于 20），缩放注意力则提高了 1 个 BLEU 分数，这在统计上已经很显著了（p 值小于 0.01）。

感兴趣的读者可以阅读论文原文，了解更多研究细节。

识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

识别形式语言能力不足，不完美的Transformer要克服自注意力的理论缺陷（2）

热门文章

最新文章

相关课程

相关电子书

相关实验场景