拯救被掰弯的GPT-4！西交微软北大联合提出IN2训练治疗LLM中间迷失-阿里云开发者社区

拯救被掰弯的GPT-4！西交微软北大联合提出IN2训练治疗LLM中间迷失

2024-06-01 91

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第1天】研究人员为解决大型语言模型（LLM）的“中间迷失”问题，提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解，改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色，尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战，IN2训练为LLM的进步开辟了新途径，预示着未来在长文本处理领域的潜力。论文链接：https://arxiv.org/pdf/2404.16811

在人工智能领域，大型语言模型（LLM）的发展日新月异，它们在处理长文本信息方面展现出了巨大的潜力。然而，这些模型在处理长文本时往往面临一个被称为“中间迷失”（lost-in-the-middle）的问题，即模型倾向于忽略文本中间部分的信息，而只关注开头和结尾。这一问题的存在，无疑限制了LLM在诸如长文本问答、摘要生成等实际应用中的性能。

为了解决这一挑战，西安交通大学、微软公司和北京大学的研究者们联合提出了一种名为IN2（INformation-INtensive）的训练方法。IN2训练的核心思想是提供显式的监督，以确保模型在长文本训练过程中能够充分利用整个上下文信息。通过合成的长文本问答数据集，IN2训练强化了模型对短文本片段中细粒度信息的感知能力，并要求模型整合和推理来自两个或多个短文本片段的信息。

研究者们在Mistral-7B模型上应用了IN2训练，并推出了FILM-7B（Filling-the-Middle）模型。FILM-7B在三个不同的探测任务上进行了测试，这些任务涵盖了文档、代码和结构化数据等不同的上下文风格，以及前向、后向和双向检索模式。测试结果显示，FILM-7B能够在其32K的上下文窗口中稳健地检索不同位置的信息，显著克服了信息在上下文中丢失的问题。

此外，FILM-7B在现实世界的长文本任务上也显示出显著的性能提升。例如，在NarrativeQA数据集上的F1分数从23.5提升到了26.9。这表明，通过IN2训练合成的长文本数据能够有效地泛化到现实世界的应用场景中。同时，FILM-7B在短文本任务上的性能与原始模型相当，这表明IN2训练并没有损害模型处理短文本的能力。

IN2训练方法的提出，为长文本处理领域带来了一股新风。它不仅提高了模型对长文本信息的全面利用能力，还保持了对短文本处理的性能。这一成果对于推动LLM在更广泛领域的应用具有重要意义。然而，IN2训练也面临着一些挑战。例如，合成长文本数据集的过程需要精心设计，以确保数据的多样性和质量。此外，IN2训练的计算成本相对较高，这可能会限制其在资源受限的环境中的应用。

尽管存在这些挑战，IN2训练所展现的潜力是不容忽视的。它为长文本LLM的发展提供了新的思路和方法。随着技术的不断进步和计算资源的日益丰富，我们有理由相信，IN2训练将在未来的语言模型研究和应用中发挥更大的作用。同时，研究者们也需要继续探索更高效、更经济的训练策略，以推动LLM技术的进一步发展。

论文地址：https://arxiv.org/pdf/2404.16811

拯救被掰弯的GPT-4！西交微软北大联合提出IN2训练治疗LLM中间迷失

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

拯救被掰弯的GPT-4！西交微软北大联合提出IN2训练治疗LLM中间迷失

热门文章

最新文章

相关课程

相关电子书

相关实验场景