在人工智能的浪潮中,大型语言模型(LLMs)正以其强大的学习和推理能力,不断刷新人们对于机器智能的认知。近期,谷歌DeepMind的研究团队在这一领域取得了引人注目的成果,提出了一种创新的学习方法——多示例上下文学习(Many-Shot In-Context Learning,简称Many-Shot ICL)。这种方法在处理多种任务时,展现出了比传统的少示例上下文学习(Few-Shot ICL)更出色的性能,为人工智能的发展注入了新的活力。
Many-Shot ICL的核心在于,它通过在模型的上下文中提供更多的示例,使得模型能够在没有权重更新的情况下,学习并执行新的任务。这种方法的提出,得益于最近LLMs上下文窗口的显著扩大,从而使得在单个推理过程中处理成百上千的示例成为可能。研究表明,无论是在生成性任务还是判别性任务上,Many-Shot ICL都能够带来显著的性能提升。
为了克服Many-Shot ICL在获取大量高质量人类生成输出方面的挑战,研究团队提出了两种新的学习设置:强化ICL(Reinforced ICL)和无监督ICL(Unsupervised ICL)。Reinforced ICL通过使用模型生成的推理过程替代人类生成的推理过程,而Unsupervised ICL则完全去除推理过程,只使用特定领域的输入来提示模型。这两种方法在多示例学习阶段,尤其是在处理复杂推理任务时,显示出了巨大的潜力。
此外,研究还发现Many-Shot ICL能够有效地克服预训练偏见,学习高维函数和数值输入的任务。这表明Many-Shot ICL不仅能够适应新任务,还能够处理与模型训练数据不一致的领域。然而,示例的顺序对ICL性能有显著影响,这一发现提示研究者在使用Many-Shot ICL时需要谨慎考虑示例的排列。
尽管Many-Shot ICL在多个任务上展现出了优异的性能,但研究也揭示了负对数似然(NLL)作为长期性能指标的局限性。NLL是评估模型预测下一个词的能力的常用指标,但研究发现,NLL的下降趋势并不总是与任务性能的提升相对应。这意味着,在使用与测试集分布不同的提示时,NLL可能不是预测ICL性能的可靠指标。
谷歌DeepMind的研究团队在Many-Shot ICL领域的工作,为理解和改进大型语言模型的学习能力提供了宝贵的见解。然而,这项研究也有其局限性。首先,研究主要基于单一模型Gemini 1.5 Pro进行,未来的研究需要在更多长上下文模型上进行验证。其次,对于为什么在某些情况下增加示例数量会导致性能下降,研究尚未给出明确的解释。此外,尽管Reinforced ICL和Unsupervised ICL在减少对人类数据依赖方面表现出潜力,但这些方法的有效性还需要在更广泛的任务和场景中进一步验证。