一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了（2）-阿里云开发者社区

一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了（2）

2023-05-26 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一定要「分词」吗？Andrej Karpathy：是时候抛弃这个历史包袱了

效率分析

训练效率

在缩放序列长度和模型大小时，研究者分析了不同架构的成本。如下图 3 所示，MEGABYTE 架构在各种模型大小和序列长度上使用的 FLOPS 少于同等大小的 transformer 和线性 transformer，允许相同的计算成本下使用更大的模型。

生成效率

考虑这样一个 MEGABYTE 模型，它在全局模型中有 L_global 层，在局部模块中有 L_local 层，patch 大小为 P，并与具有 L_local + L_global 层的 transformer 架构进行比较。用 MEGABYTE 生成每个 patch 需要一个 O (L_global + P・L_local) 串行操作序列。当 L_global ≥ L_local（全局模块的层多于局部模块）时，MEGABYTE 可以将推理成本降低近 P 倍。

实验结果

语言建模

研究者在强调长程依赖的 5 个不同数据集上分别评估了 MEGABYTE 的语言建模功能，它们是 Project Gutenberg (PG-19)、Books、Stories、arXiv 和 Code。结果如下表 7 所示，MEGABYTE 在所有数据集上的表现始终优于基线 transformer 和 PerceiverAR 。

研究者还扩展了在 PG-19 上的训练数据，结果如下表 8 所示，MEGABYTE 显著优于其他字节模型，并可与子词（subword）上训练的 SOTA 模型相媲美。

图像建模

研究者在 ImageNet 64x64 数据集上训练了一个大型 MEGABYTE 模型，其中全局和局部模块的参数分别为 2.7B 和 350M，并有 1.4T token。他们估计，训练该模型所用时间少于「Hawthorne et al., 2022」论文中复现最佳 PerceiverAR 模型所需 GPU 小时数的一半。如上表 8 所示，MEGABYTE 与 PerceiverAR 的 SOTA 性能相当的同时，仅用了后者一半的计算量。

研究者比较了三种 transformer 变体，即 vanilla、PerceiverAR 和 MEGABYTE，以测试在越来越大图像分辨率上长序列的可扩展性。结果如下表 5 所示，在这一计算控制设置下，MEGABYTE 在所有分辨率上均优于基线模型。