谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！-阿里云开发者社区

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！

2019-08-26 1314

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

文件存储 NAS，50GB 3个月

简介： Evolved Transformer不仅实现了最先进的翻译结果，与原始的Transformer相比，它还展示了语言建模的改进性能。

来源：新智元

文章来源：微信公众号数据派THU

本文约1600字，建议阅读8分钟。

Evolved Transformer不仅实现了最先进的翻译结果，与原始的Transformer相比，它还展示了语言建模的改进性能。

[ 导读 ]为了探索AutoML在序列域中的应用是否能够取得的成功，谷歌的研究团队在进行基于进化的神经架构搜索（NAS）之后，使用了翻译作为一般的序列任务的代理，并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先进的翻译结果，与原始的Transformer相比，它还展示了语言建模的改进性能。

自几年前推出以来，Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是，Transformer的高性能已经证明，当应用于序列任务（例如语言建模和翻译）时，前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受欢迎，但它们的架构几乎完全是手动设计的，与计算机视觉领域形成鲜明对比。AutoML方法已经找到了最先进的模型，其性能优于手工设计的模型。当然，我们想知道AutoML在序列域中的应用是否同样成功。

在进行基于进化的神经架构搜索（NAS）之后，我们使用翻译作为一般的序列任务的代理，我们找到了Evolved Transformer，这是一种新的Transformer架构，它展示了对各种自然语言处理（NLP）任务的有希望的改进。Evolved Transformer不仅实现了最先进的翻译结果，而且与原始的Transformer相比，它还展示了语言建模的改进性能。我们是将此新模型作为Tensor2Tensor的部分发布，它可用于任何序列问题。

开发技术

要开始进化NAS，我们有必要开发新技术，因为用于评估每个架构的“适应性”的任务——WMT'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵，这可以利用较小的数据集，如CIFAR-10。

这些技术中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索，从而使其能够更快地找到更好的模型。

第二种技术是我们开发的一种称为渐进动态障碍（PDH）（Progressive Dynamic Hurdles ）的新方法，这种算法增强了进化搜索，以便为最强的候选者分配更多的资源，这与先前的工作相反，其中NAS的每个候选模型被分配相同的评估时的资源量。如果模型明显不好，PDH允许我们提前终止对模型的评估，从而使有前途的架构获得更多资源。

Evolved Transformer简介

使用这些方法，我们在翻译任务上进行了大规模的NAS，并发现了Evolved Transformer（ET）。与大多数序列到序列（seq2seq）神经网络体系结构一样，它有一个编码器，将输入序列编码为嵌入，解码器使用这些嵌入构造输出序列；在翻译的情况下，输入序列是要翻译的句子，输出序列是翻译。

演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层，在两个地方都以类似的分支模式添加（即输入在加到一起之前通过两个单独的卷积层）。

Evolved Transformer与原始Transformer编码器架构的比较。注意模块底部的分支卷积结构，它独立地在编码器和解码器中形成

这一点特别有趣，因为在NAS期间编码器和解码器架构不共享，因此独立发现该架构对编码器和解码器都很有用，这说明了该设计的优势。虽然最初的Transformer完全依赖于自我关注，但Evolved Transformer是一种混合体，利用了自我关注和广泛卷积的优势。

对Evolved Transformer的评估

为了测试这种新架构的有效性，我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始Transformer进行了比较。我们发现在所有参数尺寸下，Evolved Transformer具有更好的BLEU和 perplexity performance，拥有最大增益与移动设备兼容（约700万个参数），证明了参数的有效使用。在更大的尺寸上，Evolved Transformer在WMT'14 En-De上达到了最先进的性能，BLEU得分为29.8，SacreBLEU得分为29.2。

不同尺寸的WMT'14 En-De Evolved Transformer与原Transformer的比较。性能的最大提高发生在较小的尺寸上，而ET在较大的尺寸上也显示出强度，优于最大的Transformer，参数减少37.6%（要比较的模型用绿色圈出）

为了测试普遍性，我们还在其他NLP任务上将ET与Transformer进行了比较。首先，我们研究了使用不同语言对的翻译，发现ET表现提升，其边缘与英语-德语相似; 再次，由于其有效使用参数，对于中型模型观察到了最大的提升。我们还比较了使用LM1B进行语言建模的两种模型的解码器，并且看到性能提升近2个perplexity。

未来工作

这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。Evolved Transformer 作为Tensor2Tensor的一部分已开源，在那里它可以用于任何序列问题。为了提高可重复性，我们还开源了我们用于搜索的搜索空间，以及实施渐进动态障碍的Colab。我们期待着看到研究团体用新模型做了什么，并希望其他人能够利用这些新的搜索技术！

参考链接：

https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

论文地址：

https://arxiv.org/abs/1901.11117

编辑：黄继彦

校对：林亦霖

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！

开发技术

Evolved Transformer简介

对Evolved Transformer的评估

未来工作

数据派

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！

开发技术

Evolved Transformer简介

对Evolved Transformer的评估

未来工作

数据派

热门文章

最新文章

相关课程

相关电子书