next-token被淘汰!Meta实测多token训练方法,推理提速3倍,性能大涨10%+

简介: 【6月更文挑战第11天】Meta AI的最新研究表明,多token训练方法能提升大型语言模型的性能和推理速度。与传统next-token预测相比,该方法让模型预测多个未来token,增强上下文理解和生成能力。实验显示,这种方法在代码生成、摘要生成和数学问题解答等任务上性能提升10%+,推理速度提升至原来的3倍,为模型部署提供了更优选择。论文链接:https://arxiv.org/pdf/2404.19737

Meta AI 的最新研究提出了一种多 token 训练方法,有望改变大型语言模型的训练方式。这项研究的论文题为《Better & Faster Large Language Models via Multi-token Prediction》,发表在 arXiv 上,并引起了广泛的关注。

在自然语言处理领域,大型语言模型(如 GPT 和 Llama)的训练通常基于 next-token 预测损失。这意味着模型在训练过程中会学习预测下一个 token(可以是单词或字符)的概率分布。然而,这种方式在处理多 token 序列时可能存在一些局限性。

为了解决这些局限性,Meta 的研究团队提出了一种多 token 训练方法。与传统的 next-token 预测不同,这种新方法要求模型在每个位置预测多个未来的 token。具体来说,在训练过程中,模型需要使用 n 个独立的输出头,在共享的模型主干上同时预测接下来的 n 个 token。

这种多 token 预测方法可以被视为一种辅助训练任务。通过在训练过程中同时预测多个未来的 token,模型可以学习到更长远的上下文信息,从而提高其生成和理解文本的能力。

为了验证这种多 token 训练方法的有效性,Meta 的研究团队进行了一系列的实验。他们发现,使用多 token 预测方法训练的大型语言模型在多个下游任务上都表现出了显著的性能提升。

在代码生成任务上,使用多 token 预测方法训练的模型在 HumanEval 和 MBPP 等基准测试上的性能分别提高了 12% 和 17%。此外,使用多 token 预测方法训练的模型在处理更长的字节序列时也表现出了更好的性能,这对于处理源代码等具有复杂语法结构的任务尤其重要。

在自然语言处理任务上,使用多 token 预测方法训练的模型在摘要生成和数学问题解答等任务上也表现出了更好的性能。特别是在摘要生成任务上,使用多 token 预测方法训练的模型在 ROUGE-L F1 分数上比使用 next-token 预测方法训练的模型提高了 2% 到 4%。

除了性能提升外,Meta 的研究团队还发现,使用多 token 预测方法训练的模型在推理速度上也得到了显著的提升。他们发现,使用 4-token 预测方法训练的模型在推理速度上可以提高 3 倍,即使对于较大的批处理规模也是如此。

这对于实际应用场景中的模型部署具有重要意义。在许多应用中,模型的推理速度是决定其可用性的关键因素之一。通过使用多 token 预测方法,可以显著提高模型的推理速度,从而提高其在实际应用中的可用性。

论文链接:https://arxiv.org/pdf/2404.19737

目录
相关文章
|
5月前
|
异构计算 索引
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
【7月更文挑战第24天】针对大语言模型(LLM)处理长上下文时的计算瓶颈,微软推出MInference,基于动态稀疏注意力加速预填充,使8B参数模型处理1M token从30分钟降至3分钟,推理延迟降低10倍。通过识别注意力矩阵模式(A形、斜线、块稀疏),仅计算关键权重,无需修改预训练或微调。实验证明,MInference在多个任务和模型上保持准确度,但可能不适用所有LLM类型,存在轻微性能损失风险。
178 17
|
5月前
|
机器学习/深度学习 计算机视觉
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
【7月更文挑战第1天】新方法将图像转为1D token序列,减少计算复杂度,提高生成效率。在保持高画质(如gFID: 1.97 on ImageNet 256x256)的同时,TiTok比现有模型快410倍。虽有资源需求及token限制问题,但展示了图像处理的新方向。[论文链接](https://arxiv.org/abs/2406.07550)
186 7
|
6月前
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
150 7
|
7月前
|
算法 异构计算
推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
260 10
|
7月前
|
机器学习/深度学习 人工智能 算法
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
【5月更文挑战第23天】Meta和哈佛的研究发现Flash Attention,一种用于加速Transformer模型的优化技术,可能导致数值偏差,影响模型权重稳定性。实验显示Flash Attention在BF16精度下的偏差是基线的10倍,权重偏差是低精度训练的2-5倍。虽然能提升效率,但其引入的不稳定性对训练过程构成挑战。该研究提出新方法评估数值偏差对训练稳定性的影响,为未来优化技术的研究提供了方向。[论文链接:https://arxiv.org/pdf/2405.02803]
104 2
|
7月前
|
人工智能 自然语言处理 物联网
极大降低大模型训练内存需求,Meta等推出高效方法
【2月更文挑战第27天】极大降低大模型训练内存需求,Meta等推出高效方法
98 2
极大降低大模型训练内存需求,Meta等推出高效方法
|
7月前
|
缓存 并行计算 负载均衡
大模型推理优化实践:KV cache复用与投机采样
在本文中,我们将详细介绍两种在业务中实践的优化策略:多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现,并分享一些实现时的关键技巧。
|
7月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
76 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
缓存 算法 PyTorch
比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了
比标准Attention提速5-9倍,大模型都在用的FlashAttention v2来了
410 0
|
机器学习/深度学习 算法
减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器
减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器
239 0