Meta等最新研究:多token预测,提升大模型推理效率

简介: 【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737

在人工智能领域,大型语言模型(LLMs)的发展日新月异,它们通过学习海量文本数据,不断优化自身的语言理解和生成能力。近期,Meta等机构的研究人员在这一领域取得了重要进展,他们提出了一种新的训练方法——多token预测,旨在提高模型的样本效率和推理速度。这项研究成果在预印本服务器arXiv上发表,迅速引起了学术界和工业界的广泛关注。

传统的大型语言模型,如GPT和Llama,通常采用下一个token预测损失(next-token prediction loss)作为训练目标。这种方法虽然在语言生成任务上取得了显著成就,但存在一定的局限性。具体来说,它倾向于捕捉局部模式,而忽略了更宏观的决策过程。这导致模型需要比人类儿童更多的数据才能达到相同的语言流利度水平。

为了解决这一问题,研究人员提出了多token预测的训练方法。与一次只预测一个token不同,新方法要求模型在训练语料库的每个位置同时预测接下来的n个token。实验表明,这种方法不仅提高了模型的样本效率,而且在训练时间上没有额外开销,对于代码和自然语言模型都有益。

研究人员通过一系列大规模实验验证了多token预测的有效性。他们训练了不同规模的模型,从300M到13B参数不等,并在多个基准测试上进行了评估。结果表明,随着模型规模的增大,多token预测的优势愈发明显。特别是在编程任务上,13B参数的模型在HumanEval和MBPP基准测试中解决问题的能力分别提高了12%和17%。

此外,多token预测还有助于提升模型的推理速度。实验显示,使用4-token预测训练的模型在推理时速度可提高至3倍,即使在大批量处理时也表现优异。

研究人员进一步探讨了多token预测为何能带来性能上的提升。他们认为,这种方法减少了训练时教师强制(teacher forcing)和推理时自回归生成(autoregressive generation)之间的分布差异。换句话说,多token预测使模型在训练时就能考虑到更长远的依赖关系,从而在实际应用中生成更连贯、更准确的文本。

从信息论的角度来看,多token预测通过增加模型对后续token的预测准确性,强调了文本生成中的关键选择点。这对于那些对整体文本结构有重要影响的决策尤为重要。

尽管多token预测在提高大型语言模型的效率和速度方面显示出巨大潜力,但也存在一些局限性。首先,这种方法可能需要更多的计算资源,尤其是在模型规模较大时。其次,多token预测可能在某些特定的NLP任务上并不总是优于传统的单token预测,例如在某些标准选择题任务和基于负对数似然的基准测试中,多token预测模型并未显示出明显优势。

此外,多token预测在自然语言处理任务中的应用还需要进一步研究。研究人员指出,对于多选题和基于可能性的基准测试,目前的评估方法可能不足以有效衡量语言模型的生成能力。

论文地址:https://arxiv.org/abs/2404.19737

目录
相关文章
|
2月前
Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B
【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666
61 4
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理
【8月更文挑战第26天】近期,Meta AI的研究者们在arXiv发布了一篇题为《语言模型的物理学:第2.1部分,小学数学和隐藏推理过程》的论文。该研究通过一系列实验揭示了大型语言模型(LLMs)在解决数学问题时的隐藏推理机制,并探讨了LLMs是否具有真正的推理能力及其实现方式是否与人类类似。研究发现LLMs不仅能记忆解题模式,还能进行适应性调整,表现出独特的二级推理过程。尽管其方法不同于人类,但在解决数学问题上能获得同样甚至更好的效果。此外,研究还指出改进训练数据质量、优化模型结构以及探索LLMs与其他AI技术的融合将是未来研究的重要方向。
66 2
|
3月前
Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%
【8月更文挑战第1天】Meta开发的System 2蒸馏技术可将大型语言模型从System 2模式转换至System 1模式, 实现直接生成最终答案而非中间推理步骤。此技术显著提升了性能, 如Llama 2对话模型准确率接近100%。通过自监督学习及方法如Rephrase and Respond、System 2注意力(S2A) 和 Branch-Solve-Merge(BSM), 模型在多项任务上取得优异成绩。[论文](https://arxiv.org/pdf/2407.06023v2)
53 6
|
3月前
|
缓存 自然语言处理 算法
ICWS 2024 | 基于生成长度预测的大语言模型推理请求调度
大量实验证明,Magnus 可以有效降低请求响应时间并提高LLM批处理的吞吐量
116 0
|
4月前
LLM用于时序预测真的不行,连推理能力都没用到
【7月更文挑战第15天】LLM在时序预测上的应用遇挫:研究显示,大型语言模型在多个实验中未显优势,甚至被简单注意力层替代时效果不变或更好。预训练知识未能有效利用,处理时序依赖性不足,且在小样本学习中未见提升。[链接:](https://arxiv.org/pdf/2406.16964)**
84 2
|
5月前
|
机器学习/深度学习 数据采集 算法
DEL编码新药预测的多种机器学习模型对比
数据集描述 数据集中每个分子具有三个构建块。该数据集用于表示分子的三个构建块是否能够与蛋白质相结合,如果能够结合标记为binds为1,否则binds为0. 格式描述如下: • id- 我们用来识别分子结合靶标对的独特example_id。 • buildingblock1_smiles- 在SMILES中,第一个构建块的结构 • buildingblock2_smiles- 在SMILES中,第二个构建块的结构 • buildingblock3_smiles- 在SMILES中,第三个构建块的结构 • molecule_smiles- 完全组装的分子的结构,在SMILES中。这包括三个构建单元
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
5月前
|
机器学习/深度学习 人工智能
可解释性研究新突破:OpenAI成功训练1600万个特征的自动编码器
【6月更文挑战第13天】OpenAI团队在可解释性研究上取得进展,训练出拥有1600万特征的自动编码器来解析GPT-4。此模型旨在揭示语言模型的工作原理,提高AI透明度。自动编码器从低维度特征空间重建输入数据,研究通过稀疏特征增强可解释性。虽然规模扩大带来解释性提升,但计算资源需求大,且评估指标的全面性仍受质疑。[论文链接](https://cdn.openai.com/papers/sparse-autoencoders.pdf)
69 1
|
6月前
|
人工智能 自然语言处理
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)
84 1
|
6月前
|
算法 异构计算
推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
215 10