ICML 2024:大语言模型预训练新前沿:最佳适配打包重塑文档处理标准

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 【5月更文挑战第27天】ICML 2024 提出大语言模型预训练新方法——最佳适配打包,解决文档截断问题,提高模型性能和可靠性。此方法通过优化组合,保留完整上下文,减少信息丢失,在阅读理解等任务上表现卓越。实验显示,不同尺寸和序列长度的模型使用此方法后,下游任务性能提升,幻觉现象减少。尽管计算资源需求增加,但该方法对预训练技术的改进具有重要意义。[论文链接](https://arxiv.org/pdf/2404.10830)

在自然语言处理(NLP)领域,大型语言模型(LLMs)的发展一直是研究的热点。这些模型通过在大量未标记文档上进行预训练,已经在多个NLP任务上取得了显著的成功。然而,传统的预训练方法存在一个关键问题:文档截断。为了解决这一问题,最近的研究提出了一种新的方法——最佳适配打包(Best-fit Packing),旨在改善语言模型的预训练过程,减少不必要的文档截断,从而提高模型的性能和可靠性。

在传统的语言模型预训练中,为了适应模型的上下文长度,输入文档通常会被简单地拼接起来,然后分割成等长的序列。这种方法虽然在训练效率上有一定优势,因为它避免了填充(padding)的问题,但同时也带来了数据完整性的损失。文档被分割成多个独立的片段,导致信息丢失,模型无法学习到基于完整上下文的连贯和一致的内容。

为了克服这一挑战,研究者们提出了最佳适配打包方法。该方法通过长度感知的组合优化,将文档打包进训练序列,从而完全消除了不必要的截断。这种方法不仅保留了拼接方法的训练效率,而且在实验结果中显示出了优越的性能,例如在阅读理解、上下文跟随和程序合成等任务上取得了显著的提升。

研究者们在不同的模型尺寸(从7B到13B)和序列长度(2k到8k)上,对自然语言和编程语言数据进行了预训练实验。实验结果表明,使用最佳适配打包方法训练的模型在多种下游任务上都展现出了更好的性能,并且有效地减少了封闭领域的幻觉(hallucination)现象。

最佳适配打包方法的提出,无疑是对当前LLMs预训练方法的一次重要改进。它通过减少文档截断,帮助模型更好地理解和生成基于完整上下文的内容。然而,这种方法也存在一些潜在的挑战。例如,它需要对大量的文档进行有效的分组,这在计算上可能需要较高的资源消耗。此外,虽然该方法在实验中表现出了良好的性能,但在实际应用中是否能够持续保持这种优势,还需要更多的实践来验证。

论文链接:https://arxiv.org/pdf/2404.10830

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
142 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
21天前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
63 11
FlagEvalMM:智源开源的多模态模型评测框架
|
9天前
|
人工智能 自然语言处理 物联网
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
271 0
|
3月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
81 7
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
91 10
|
6月前
|
机器学习/深度学习 自然语言处理
【解码未来:Transformer模型家族引领自然语言新纪元】
【解码未来:Transformer模型家族引领自然语言新纪元】
62 1
|
7月前
|
机器学习/深度学习 编解码 人工智能
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
430 1
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
|
7月前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
439 1
|
7月前
|
机器学习/深度学习 自然语言处理 算法
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
192 1