拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失

简介: 【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811

在人工智能领域,大型语言模型(LLM)的发展日新月异,它们在处理长文本信息方面展现出了巨大的潜力。然而,这些模型在处理长文本时往往面临一个被称为“中间迷失”(lost-in-the-middle)的问题,即模型倾向于忽略文本中间部分的信息,而只关注开头和结尾。这一问题的存在,无疑限制了LLM在诸如长文本问答、摘要生成等实际应用中的性能。

为了解决这一挑战,西安交通大学、微软公司和北京大学的研究者们联合提出了一种名为IN2(INformation-INtensive)的训练方法。IN2训练的核心思想是提供显式的监督,以确保模型在长文本训练过程中能够充分利用整个上下文信息。通过合成的长文本问答数据集,IN2训练强化了模型对短文本片段中细粒度信息的感知能力,并要求模型整合和推理来自两个或多个短文本片段的信息。

研究者们在Mistral-7B模型上应用了IN2训练,并推出了FILM-7B(Filling-the-Middle)模型。FILM-7B在三个不同的探测任务上进行了测试,这些任务涵盖了文档、代码和结构化数据等不同的上下文风格,以及前向、后向和双向检索模式。测试结果显示,FILM-7B能够在其32K的上下文窗口中稳健地检索不同位置的信息,显著克服了信息在上下文中丢失的问题。

此外,FILM-7B在现实世界的长文本任务上也显示出显著的性能提升。例如,在NarrativeQA数据集上的F1分数从23.5提升到了26.9。这表明,通过IN2训练合成的长文本数据能够有效地泛化到现实世界的应用场景中。同时,FILM-7B在短文本任务上的性能与原始模型相当,这表明IN2训练并没有损害模型处理短文本的能力。

IN2训练方法的提出,为长文本处理领域带来了一股新风。它不仅提高了模型对长文本信息的全面利用能力,还保持了对短文本处理的性能。这一成果对于推动LLM在更广泛领域的应用具有重要意义。然而,IN2训练也面临着一些挑战。例如,合成长文本数据集的过程需要精心设计,以确保数据的多样性和质量。此外,IN2训练的计算成本相对较高,这可能会限制其在资源受限的环境中的应用。

尽管存在这些挑战,IN2训练所展现的潜力是不容忽视的。它为长文本LLM的发展提供了新的思路和方法。随着技术的不断进步和计算资源的日益丰富,我们有理由相信,IN2训练将在未来的语言模型研究和应用中发挥更大的作用。同时,研究者们也需要继续探索更高效、更经济的训练策略,以推动LLM技术的进一步发展。

论文地址:https://arxiv.org/pdf/2404.16811

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
41 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
4月前
|
人工智能 自然语言处理
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
【8月更文挑战第22天】《FBI-LLM:通过自回归蒸馏从头开始扩展全二值化大语言模型》由Ma等学者发布于arXiv。该研究呈现了首个完全从头训练的全二值化大语言模型FBI-LLM,在不牺牲性能的前提下大幅降低计算资源需求。通过自回归蒸馏技术,FBI-LLM在多种任务上展现出与高精度模型相当的表现,为二值化模型的发展开辟新路径,并有望推动专用硬件的进步。研究者公开了所有相关资源以促进领域内的进一步探索。
65 10
|
22天前
|
人工智能 算法
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield
北京大学研究团队提出了一种名为FakeShield的多模态框架,旨在解决图像伪造检测与定位(IFDL)中的黑箱问题及泛化能力不足。FakeShield不仅能评估图像真实性,生成篡改区域的掩码,还能提供像素级和图像级的篡改线索及详细文本描述,增强检测的可解释性。通过使用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTD-Set),并引入领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),FakeShield在多种篡改技术的检测与定位上表现优异,为图像真实性维护提供了有力工具。
49 14
|
4月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
86 1
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
183 60
|
1月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
3月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
62 8
|
2月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
75 0
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
91 10

热门文章

最新文章