ICML 2024：大语言模型预训练新前沿：最佳适配打包重塑文档处理标准-阿里云开发者社区

ICML 2024：大语言模型预训练新前沿：最佳适配打包重塑文档处理标准

2024-05-28 129 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_基础版，每接口每天50万次

简介： 【5月更文挑战第27天】ICML 2024 提出大语言模型预训练新方法——最佳适配打包，解决文档截断问题，提高模型性能和可靠性。此方法通过优化组合，保留完整上下文，减少信息丢失，在阅读理解等任务上表现卓越。实验显示，不同尺寸和序列长度的模型使用此方法后，下游任务性能提升，幻觉现象减少。尽管计算资源需求增加，但该方法对预训练技术的改进具有重要意义。[论文链接](https://arxiv.org/pdf/2404.10830)

在自然语言处理（NLP）领域，大型语言模型（LLMs）的发展一直是研究的热点。这些模型通过在大量未标记文档上进行预训练，已经在多个NLP任务上取得了显著的成功。然而，传统的预训练方法存在一个关键问题：文档截断。为了解决这一问题，最近的研究提出了一种新的方法——最佳适配打包（Best-fit Packing），旨在改善语言模型的预训练过程，减少不必要的文档截断，从而提高模型的性能和可靠性。

在传统的语言模型预训练中，为了适应模型的上下文长度，输入文档通常会被简单地拼接起来，然后分割成等长的序列。这种方法虽然在训练效率上有一定优势，因为它避免了填充（padding）的问题，但同时也带来了数据完整性的损失。文档被分割成多个独立的片段，导致信息丢失，模型无法学习到基于完整上下文的连贯和一致的内容。

为了克服这一挑战，研究者们提出了最佳适配打包方法。该方法通过长度感知的组合优化，将文档打包进训练序列，从而完全消除了不必要的截断。这种方法不仅保留了拼接方法的训练效率，而且在实验结果中显示出了优越的性能，例如在阅读理解、上下文跟随和程序合成等任务上取得了显著的提升。

研究者们在不同的模型尺寸（从7B到13B）和序列长度（2k到8k）上，对自然语言和编程语言数据进行了预训练实验。实验结果表明，使用最佳适配打包方法训练的模型在多种下游任务上都展现出了更好的性能，并且有效地减少了封闭领域的幻觉（hallucination）现象。

最佳适配打包方法的提出，无疑是对当前LLMs预训练方法的一次重要改进。它通过减少文档截断，帮助模型更好地理解和生成基于完整上下文的内容。然而，这种方法也存在一些潜在的挑战。例如，它需要对大量的文档进行有效的分组，这在计算上可能需要较高的资源消耗。此外，虽然该方法在实验中表现出了良好的性能，但在实际应用中是否能够持续保持这种优势，还需要更多的实践来验证。

论文链接：https://arxiv.org/pdf/2404.10830

ICML 2024：大语言模型预训练新前沿：最佳适配打包重塑文档处理标准

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ICML 2024：大语言模型预训练新前沿：最佳适配打包重塑文档处理标准

热门文章

最新文章

相关课程

相关电子书

相关实验场景