最近,一篇名为“A Careful Examination of Large Language Model Performance on Grade School Arithmetic”的论文引起了广泛的关注。这篇论文由来自微软、OpenAI和谷歌的研究人员共同撰写,旨在调查大型语言模型(LLM)在解决小学算术问题时的性能是否存在过拟合问题。
在论文中,研究人员指出,尽管LLM在许多数学推理任务上取得了令人印象深刻的成功,但越来越多的人担心这些成功可能部分源于数据污染,即训练数据中包含与基准问题非常相似的数据,而不是真正的推理能力。为了验证这一观点,研究人员设计了一个名为Grade School Math 1000(GSM1k)的新基准,该基准旨在模仿广泛使用的GSM8k基准的样式和复杂性,后者是衡量小学数学推理的黄金标准。
研究人员在GSM1k上评估了领先的开源和闭源LLM,并观察到准确率下降了高达13%。其中,包括微软的Phi-3和Mixtral 8x22B在内的几个模型家族在几乎所有模型大小上都显示出系统性过拟合的迹象。然而,许多模型,尤其是那些处于前沿的模型(如Gemini/GPT/Claude),则表现出最小的过拟合迹象。
进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记住了GSM8k。
这篇论文的发现引发了关于LLM在数学推理任务上性能的讨论。一方面,研究人员指出,这些发现表明LLM在解决小学算术问题时可能存在过拟合问题,这可能限制了它们的泛化能力。另一方面,他们也强调了LLM在数学推理任务上的潜力,并呼吁进一步的研究来探索如何改进这些模型的性能和泛化能力。