Meta等最新研究:多token预测,提升大模型推理效率

简介: 【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737

在人工智能领域,大型语言模型(LLMs)的发展日新月异,它们通过学习海量文本数据,不断优化自身的语言理解和生成能力。近期,Meta等机构的研究人员在这一领域取得了重要进展,他们提出了一种新的训练方法——多token预测,旨在提高模型的样本效率和推理速度。这项研究成果在预印本服务器arXiv上发表,迅速引起了学术界和工业界的广泛关注。

传统的大型语言模型,如GPT和Llama,通常采用下一个token预测损失(next-token prediction loss)作为训练目标。这种方法虽然在语言生成任务上取得了显著成就,但存在一定的局限性。具体来说,它倾向于捕捉局部模式,而忽略了更宏观的决策过程。这导致模型需要比人类儿童更多的数据才能达到相同的语言流利度水平。

为了解决这一问题,研究人员提出了多token预测的训练方法。与一次只预测一个token不同,新方法要求模型在训练语料库的每个位置同时预测接下来的n个token。实验表明,这种方法不仅提高了模型的样本效率,而且在训练时间上没有额外开销,对于代码和自然语言模型都有益。

研究人员通过一系列大规模实验验证了多token预测的有效性。他们训练了不同规模的模型,从300M到13B参数不等,并在多个基准测试上进行了评估。结果表明,随着模型规模的增大,多token预测的优势愈发明显。特别是在编程任务上,13B参数的模型在HumanEval和MBPP基准测试中解决问题的能力分别提高了12%和17%。

此外,多token预测还有助于提升模型的推理速度。实验显示,使用4-token预测训练的模型在推理时速度可提高至3倍,即使在大批量处理时也表现优异。

研究人员进一步探讨了多token预测为何能带来性能上的提升。他们认为,这种方法减少了训练时教师强制(teacher forcing)和推理时自回归生成(autoregressive generation)之间的分布差异。换句话说,多token预测使模型在训练时就能考虑到更长远的依赖关系,从而在实际应用中生成更连贯、更准确的文本。

从信息论的角度来看,多token预测通过增加模型对后续token的预测准确性,强调了文本生成中的关键选择点。这对于那些对整体文本结构有重要影响的决策尤为重要。

尽管多token预测在提高大型语言模型的效率和速度方面显示出巨大潜力,但也存在一些局限性。首先,这种方法可能需要更多的计算资源,尤其是在模型规模较大时。其次,多token预测可能在某些特定的NLP任务上并不总是优于传统的单token预测,例如在某些标准选择题任务和基于负对数似然的基准测试中,多token预测模型并未显示出明显优势。

此外,多token预测在自然语言处理任务中的应用还需要进一步研究。研究人员指出,对于多选题和基于可能性的基准测试,目前的评估方法可能不足以有效衡量语言模型的生成能力。

论文地址:https://arxiv.org/abs/2404.19737

目录
相关文章
|
1月前
您可以使用验证集来评估微调后的模型效果
【1月更文挑战第16天】【1月更文挑战第78篇】您可以使用验证集来评估微调后的模型效果
119 6
|
10天前
|
机器学习/深度学习 数据采集 算法
DEL编码新药预测的多种机器学习模型对比
数据集描述 数据集中每个分子具有三个构建块。该数据集用于表示分子的三个构建块是否能够与蛋白质相结合,如果能够结合标记为binds为1,否则binds为0. 格式描述如下: • id- 我们用来识别分子结合靶标对的独特example_id。 • buildingblock1_smiles- 在SMILES中,第一个构建块的结构 • buildingblock2_smiles- 在SMILES中,第二个构建块的结构 • buildingblock3_smiles- 在SMILES中,第三个构建块的结构 • molecule_smiles- 完全组装的分子的结构,在SMILES中。这包括三个构建单元
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
16天前
|
机器学习/深度学习 人工智能
可解释性研究新突破:OpenAI成功训练1600万个特征的自动编码器
【6月更文挑战第13天】OpenAI团队在可解释性研究上取得进展,训练出拥有1600万特征的自动编码器来解析GPT-4。此模型旨在揭示语言模型的工作原理,提高AI透明度。自动编码器从低维度特征空间重建输入数据,研究通过稀疏特征增强可解释性。虽然规模扩大带来解释性提升,但计算资源需求大,且评估指标的全面性仍受质疑。[论文链接](https://cdn.openai.com/papers/sparse-autoencoders.pdf)
25 1
|
1月前
|
人工智能 自然语言处理
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
【5月更文挑战第27天】普林斯顿Meta团队推出Lory,这是一种完全可微的MoE语言模型架构,用于解决大模型的效率问题。Lory采用因果分段路由和相似性批处理,提高专家合并效率并促进专业化。在150B token的预训练后,Lory在困惑度和下游任务上优于密集模型,显示了可微MoE架构的潜力。不过,Lory仍有优化空间,包括专家选择策略、计算效率和实际应用验证。[论文链接](https://arxiv.org/abs/2405.03133)
29 1
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
Transformer解码真实场景!Meta推出70M参数SceneScript模型
【5月更文挑战第12天】Meta AI Labs推出了70M参数的SceneScript模型,运用Transformer技术从视频中生成结构化场景描述,以编程语言方式表示,便于3D场景重建和理解。该模型无需依赖3D模型或CAD,能应用于建筑设计、电影游戏制作及机器人领域。尽管面临计算资源需求高、数据标注困难及与传统工具集成的挑战,但其灵活性、可扩展性和可解释性展现出广阔的应用前景。[论文链接](https://arxiv.org/pdf/2403.13064.pdf)
17 1
|
1月前
|
自然语言处理
论文推荐:用多词元预测法提高模型效率与速度
《Better & Faster Large Language Models via Multi-token Prediction》论文提出了一种多词元预测框架,改善了大型语言模型(LLMs)的样本效率和推理速度。该方法通过一次预测多个词元,而非单个词元,提高了模型在编程和自然语言任务中的性能。实验显示,多词元预测在HumanEval和MBPP任务上性能提升,推理速度最高可提升3倍。此外,自我推测解码技术进一步优化了解码效率。尽管在小模型中效果不明显,但该方法为大模型训练和未来研究开辟了新途径。
26 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
|
1月前
|
自然语言处理 测试技术
【大模型】描述一些评估 LLM 性能的技术
【5月更文挑战第5天】【大模型】描述一些评估 LLM 性能的技术
|
1月前
|
数据采集
【大模型】大语言模型训练数据中的偏差概念及其可能的影响?
【5月更文挑战第5天】【大模型】大语言模型训练数据中的偏差概念及其可能的影响?