next-token被淘汰！Meta实测多token训练方法，推理提速3倍，性能大涨10%+-阿里云开发者社区

next-token被淘汰！Meta实测多token训练方法，推理提速3倍，性能大涨10%+

2024-06-11 139 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第11天】Meta AI的最新研究表明，多token训练方法能提升大型语言模型的性能和推理速度。与传统next-token预测相比，该方法让模型预测多个未来token，增强上下文理解和生成能力。实验显示，这种方法在代码生成、摘要生成和数学问题解答等任务上性能提升10%+，推理速度提升至原来的3倍，为模型部署提供了更优选择。论文链接：https://arxiv.org/pdf/2404.19737

Meta AI 的最新研究提出了一种多 token 训练方法，有望改变大型语言模型的训练方式。这项研究的论文题为《Better & Faster Large Language Models via Multi-token Prediction》，发表在 arXiv 上，并引起了广泛的关注。

在自然语言处理领域，大型语言模型（如 GPT 和 Llama）的训练通常基于 next-token 预测损失。这意味着模型在训练过程中会学习预测下一个 token（可以是单词或字符）的概率分布。然而，这种方式在处理多 token 序列时可能存在一些局限性。

为了解决这些局限性，Meta 的研究团队提出了一种多 token 训练方法。与传统的 next-token 预测不同，这种新方法要求模型在每个位置预测多个未来的 token。具体来说，在训练过程中，模型需要使用 n 个独立的输出头，在共享的模型主干上同时预测接下来的 n 个 token。

这种多 token 预测方法可以被视为一种辅助训练任务。通过在训练过程中同时预测多个未来的 token，模型可以学习到更长远的上下文信息，从而提高其生成和理解文本的能力。

为了验证这种多 token 训练方法的有效性，Meta 的研究团队进行了一系列的实验。他们发现，使用多 token 预测方法训练的大型语言模型在多个下游任务上都表现出了显著的性能提升。

在代码生成任务上，使用多 token 预测方法训练的模型在 HumanEval 和 MBPP 等基准测试上的性能分别提高了 12% 和 17%。此外，使用多 token 预测方法训练的模型在处理更长的字节序列时也表现出了更好的性能，这对于处理源代码等具有复杂语法结构的任务尤其重要。

在自然语言处理任务上，使用多 token 预测方法训练的模型在摘要生成和数学问题解答等任务上也表现出了更好的性能。特别是在摘要生成任务上，使用多 token 预测方法训练的模型在 ROUGE-L F1 分数上比使用 next-token 预测方法训练的模型提高了 2% 到 4%。

除了性能提升外，Meta 的研究团队还发现，使用多 token 预测方法训练的模型在推理速度上也得到了显著的提升。他们发现，使用 4-token 预测方法训练的模型在推理速度上可以提高 3 倍，即使对于较大的批处理规模也是如此。

这对于实际应用场景中的模型部署具有重要意义。在许多应用中，模型的推理速度是决定其可用性的关键因素之一。通过使用多 token 预测方法，可以显著提高模型的推理速度，从而提高其在实际应用中的可用性。

论文链接：https://arxiv.org/pdf/2404.19737

next-token被淘汰！Meta实测多token训练方法，推理提速3倍，性能大涨10%+

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

next-token被淘汰！Meta实测多token训练方法，推理提速3倍，性能大涨10%+

热门文章

最新文章

相关电子书