拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失

简介: 【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811

在人工智能领域,大型语言模型(LLM)的发展日新月异,它们在处理长文本信息方面展现出了巨大的潜力。然而,这些模型在处理长文本时往往面临一个被称为“中间迷失”(lost-in-the-middle)的问题,即模型倾向于忽略文本中间部分的信息,而只关注开头和结尾。这一问题的存在,无疑限制了LLM在诸如长文本问答、摘要生成等实际应用中的性能。

为了解决这一挑战,西安交通大学、微软公司和北京大学的研究者们联合提出了一种名为IN2(INformation-INtensive)的训练方法。IN2训练的核心思想是提供显式的监督,以确保模型在长文本训练过程中能够充分利用整个上下文信息。通过合成的长文本问答数据集,IN2训练强化了模型对短文本片段中细粒度信息的感知能力,并要求模型整合和推理来自两个或多个短文本片段的信息。

研究者们在Mistral-7B模型上应用了IN2训练,并推出了FILM-7B(Filling-the-Middle)模型。FILM-7B在三个不同的探测任务上进行了测试,这些任务涵盖了文档、代码和结构化数据等不同的上下文风格,以及前向、后向和双向检索模式。测试结果显示,FILM-7B能够在其32K的上下文窗口中稳健地检索不同位置的信息,显著克服了信息在上下文中丢失的问题。

此外,FILM-7B在现实世界的长文本任务上也显示出显著的性能提升。例如,在NarrativeQA数据集上的F1分数从23.5提升到了26.9。这表明,通过IN2训练合成的长文本数据能够有效地泛化到现实世界的应用场景中。同时,FILM-7B在短文本任务上的性能与原始模型相当,这表明IN2训练并没有损害模型处理短文本的能力。

IN2训练方法的提出,为长文本处理领域带来了一股新风。它不仅提高了模型对长文本信息的全面利用能力,还保持了对短文本处理的性能。这一成果对于推动LLM在更广泛领域的应用具有重要意义。然而,IN2训练也面临着一些挑战。例如,合成长文本数据集的过程需要精心设计,以确保数据的多样性和质量。此外,IN2训练的计算成本相对较高,这可能会限制其在资源受限的环境中的应用。

尽管存在这些挑战,IN2训练所展现的潜力是不容忽视的。它为长文本LLM的发展提供了新的思路和方法。随着技术的不断进步和计算资源的日益丰富,我们有理由相信,IN2训练将在未来的语言模型研究和应用中发挥更大的作用。同时,研究者们也需要继续探索更高效、更经济的训练策略,以推动LLM技术的进一步发展。

论文地址:https://arxiv.org/pdf/2404.16811

目录
相关文章
|
1月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
48 1
|
11天前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
33 8
|
26天前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
61 10
|
1月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
33 7
|
2月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
41 4
|
2月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
70 25
|
2月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
32 4
|
1月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
2月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
3月前
|
机器学习/深度学习 人工智能 测试技术
两句话,让LLM逻辑推理瞬间崩溃!最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷
【6月更文挑战第17天】新论文揭示GPT和Claude等LLM在逻辑推理上的重大缺陷。通过《爱丽丝梦游仙境》场景,研究显示这些模型在处理简单常识问题时给出错误答案并过度自信。即使面对明显逻辑矛盾,模型仍坚持错误推理,暴露了现有评估方法的不足。[链接:https://arxiv.org/abs/2406.02061]
335 1

热门文章

最新文章