ICML 2024:大语言模型预训练新前沿:最佳适配打包重塑文档处理标准

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【5月更文挑战第27天】ICML 2024 提出大语言模型预训练新方法——最佳适配打包,解决文档截断问题,提高模型性能和可靠性。此方法通过优化组合,保留完整上下文,减少信息丢失,在阅读理解等任务上表现卓越。实验显示,不同尺寸和序列长度的模型使用此方法后,下游任务性能提升,幻觉现象减少。尽管计算资源需求增加,但该方法对预训练技术的改进具有重要意义。[论文链接](https://arxiv.org/pdf/2404.10830)

在自然语言处理(NLP)领域,大型语言模型(LLMs)的发展一直是研究的热点。这些模型通过在大量未标记文档上进行预训练,已经在多个NLP任务上取得了显著的成功。然而,传统的预训练方法存在一个关键问题:文档截断。为了解决这一问题,最近的研究提出了一种新的方法——最佳适配打包(Best-fit Packing),旨在改善语言模型的预训练过程,减少不必要的文档截断,从而提高模型的性能和可靠性。

在传统的语言模型预训练中,为了适应模型的上下文长度,输入文档通常会被简单地拼接起来,然后分割成等长的序列。这种方法虽然在训练效率上有一定优势,因为它避免了填充(padding)的问题,但同时也带来了数据完整性的损失。文档被分割成多个独立的片段,导致信息丢失,模型无法学习到基于完整上下文的连贯和一致的内容。

为了克服这一挑战,研究者们提出了最佳适配打包方法。该方法通过长度感知的组合优化,将文档打包进训练序列,从而完全消除了不必要的截断。这种方法不仅保留了拼接方法的训练效率,而且在实验结果中显示出了优越的性能,例如在阅读理解、上下文跟随和程序合成等任务上取得了显著的提升。

研究者们在不同的模型尺寸(从7B到13B)和序列长度(2k到8k)上,对自然语言和编程语言数据进行了预训练实验。实验结果表明,使用最佳适配打包方法训练的模型在多种下游任务上都展现出了更好的性能,并且有效地减少了封闭领域的幻觉(hallucination)现象。

最佳适配打包方法的提出,无疑是对当前LLMs预训练方法的一次重要改进。它通过减少文档截断,帮助模型更好地理解和生成基于完整上下文的内容。然而,这种方法也存在一些潜在的挑战。例如,它需要对大量的文档进行有效的分组,这在计算上可能需要较高的资源消耗。此外,虽然该方法在实验中表现出了良好的性能,但在实际应用中是否能够持续保持这种优势,还需要更多的实践来验证。

论文链接:https://arxiv.org/pdf/2404.10830

目录
相关文章
|
6月前
|
存储 前端开发 API
一篇文章实现Android图片拼接并保存至相册
本文详细介绍了一个Android图片拼接应用的实现过程,涵盖权限管理、图片选择、异步加载、拼接处理和保存至相册等功能。通过`ImageStitcher`类完成图片横向或纵向拼接,支持多张图片操作,并适配Android Q及以上版本的存储权限要求。代码结构清晰,包含关键步骤如权限检查、UI交互及MediaStore API使用,适合开发者快速上手并根据需求扩展功能。
169 5
|
10月前
|
人工智能 开发者
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
为评估大型语言模型(LLM)在中文语境下的事实性能力,研究团队推出“Chinese SimpleQA”评测集。该评测集具备中文、多样性、高质量、静态和易于评估的特点,涵盖六个主要主题和99个子主题。评估结果显示,尽管部分模型在特定领域表现出色,但整体事实性能力仍有待提升。Chinese SimpleQA为LLM开发者提供了宝贵工具,推动中文LLM的改进与发展。论文链接:https://arxiv.org/abs/2411.07140
246 14
|
机器学习/深度学习 算法 网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
【YOLOv8改进 - Backbone主干】EfficientRep:一种旨在提高硬件效率的RepVGG风格卷积神经网络架构
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准
FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,旨在更有效地衡量大模型在现实世界中的代码开发能力。
348 5
FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准
|
机器学习/深度学习 自然语言处理 算法
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**
332 3
|
存储 程序员 编译器
简述 C、C++程序编译的内存分配情况
在C和C++程序编译过程中,内存被划分为几个区域进行分配:代码区存储常量和执行指令;全局/静态变量区存放全局变量及静态变量;栈区管理函数参数、局部变量等;堆区则用于动态分配内存,由程序员控制释放,共同支撑着程序运行时的数据存储与处理需求。
604 22
|
机器学习/深度学习 编解码 计算机视觉
阿里发布轨迹可控的DiT视频生成模型—Tora
【9月更文挑战第4天】阿里团队在视频生成领域取得了重要突破,推出了名为Tora的新模型。Tora基于Diffusion Transformer框架,旨在克服现有模型在物体运动控制上的局限。该模型整合了文本、视觉和轨迹条件,通过轨迹提取器、时空DiT和运动引导融合器三大组件,实现了高质量且运动一致的视频生成。Tora在多个基准数据集上表现出色,尤其在高运动保真度方面领先。然而,其应用仍需大量计算资源,并主要聚焦于可控轨迹视频生成。论文详情见:https://arxiv.org/abs/2407.21705
393 2
|
前端开发 Python
Python烟花秀
Python烟花秀
305 1
|
存储 算法 计算机视觉
【OpenCV图像处理8】图像轮廓
【OpenCV图像处理8】图像轮廓
600 0
|
监控 安全 Unix
在Linux中,如何理解安全审计工具?如Lynis和OSSEC。
在Linux中,如何理解安全审计工具?如Lynis和OSSEC。