谷歌提出大规模ICL方法——强化和无监督

简介: 【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]

在人工智能的浪潮中,大型语言模型(LLMs)正以其强大的学习和推理能力,不断刷新人们对于机器智能的认知。近期,谷歌DeepMind的研究团队在这一领域取得了引人注目的成果,提出了一种创新的学习方法——多示例上下文学习(Many-Shot In-Context Learning,简称Many-Shot ICL)。这种方法在处理多种任务时,展现出了比传统的少示例上下文学习(Few-Shot ICL)更出色的性能,为人工智能的发展注入了新的活力。
Many-Shot ICL的核心在于,它通过在模型的上下文中提供更多的示例,使得模型能够在没有权重更新的情况下,学习并执行新的任务。这种方法的提出,得益于最近LLMs上下文窗口的显著扩大,从而使得在单个推理过程中处理成百上千的示例成为可能。研究表明,无论是在生成性任务还是判别性任务上,Many-Shot ICL都能够带来显著的性能提升。
为了克服Many-Shot ICL在获取大量高质量人类生成输出方面的挑战,研究团队提出了两种新的学习设置:强化ICL(Reinforced ICL)和无监督ICL(Unsupervised ICL)。Reinforced ICL通过使用模型生成的推理过程替代人类生成的推理过程,而Unsupervised ICL则完全去除推理过程,只使用特定领域的输入来提示模型。这两种方法在多示例学习阶段,尤其是在处理复杂推理任务时,显示出了巨大的潜力。
此外,研究还发现Many-Shot ICL能够有效地克服预训练偏见,学习高维函数和数值输入的任务。这表明Many-Shot ICL不仅能够适应新任务,还能够处理与模型训练数据不一致的领域。然而,示例的顺序对ICL性能有显著影响,这一发现提示研究者在使用Many-Shot ICL时需要谨慎考虑示例的排列。
尽管Many-Shot ICL在多个任务上展现出了优异的性能,但研究也揭示了负对数似然(NLL)作为长期性能指标的局限性。NLL是评估模型预测下一个词的能力的常用指标,但研究发现,NLL的下降趋势并不总是与任务性能的提升相对应。这意味着,在使用与测试集分布不同的提示时,NLL可能不是预测ICL性能的可靠指标。
谷歌DeepMind的研究团队在Many-Shot ICL领域的工作,为理解和改进大型语言模型的学习能力提供了宝贵的见解。然而,这项研究也有其局限性。首先,研究主要基于单一模型Gemini 1.5 Pro进行,未来的研究需要在更多长上下文模型上进行验证。其次,对于为什么在某些情况下增加示例数量会导致性能下降,研究尚未给出明确的解释。此外,尽管Reinforced ICL和Unsupervised ICL在减少对人类数据依赖方面表现出潜力,但这些方法的有效性还需要在更广泛的任务和场景中进一步验证。

论文地址:https://arxiv.org/abs/2404.11018

目录
相关文章
|
10月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
228 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
4月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
62 2
|
8月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
117 25
|
7月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
128 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
8月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
99 1
|
9月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
125 1
|
10月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
132 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
10月前
|
机器学习/深度学习 计算机视觉
大模型一定就比小模型好?谷歌的这项研究说不一定
【5月更文挑战第5天】谷歌研究挑战传统观念,指出在生成图像任务中,小模型并不一定逊色于大模型。实验显示小模型在有限计算资源下能生成高质量图像,且泛化性能佳。在多个图像生成任务中,小模型的表现与大模型相当甚至更好,暗示了小模型在该领域的潜力。这一发现提示了在追求性能时需综合考虑模型规模和效率。论文链接:https://arxiv.org/pdf/2404.01367.pdf
97 2
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
548 0
|
10月前
|
机器学习/深度学习 编解码 PyTorch
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
287 0