终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

简介: 【5月更文挑战第15天】研究人员发现,大型语言模型(LLM)在解决小学算术问题时可能因数据污染导致过拟合,三分之二的模型受影响,包括微软的Phi-3和Mixtral 8x22B。新基准GSM1k显示,一些LLM准确率下降13%,而Gemini/GPT/Claude等展现出较小过拟合。模型对GSM8k的依赖度与其性能差距正相关,提示记忆而非真正推理。论文呼吁研究如何提升LLM的泛化能力。[链接](https://arxiv.org/pdf/2405.00332)

最近,一篇名为“A Careful Examination of Large Language Model Performance on Grade School Arithmetic”的论文引起了广泛的关注。这篇论文由来自微软、OpenAI和谷歌的研究人员共同撰写,旨在调查大型语言模型(LLM)在解决小学算术问题时的性能是否存在过拟合问题。

在论文中,研究人员指出,尽管LLM在许多数学推理任务上取得了令人印象深刻的成功,但越来越多的人担心这些成功可能部分源于数据污染,即训练数据中包含与基准问题非常相似的数据,而不是真正的推理能力。为了验证这一观点,研究人员设计了一个名为Grade School Math 1000(GSM1k)的新基准,该基准旨在模仿广泛使用的GSM8k基准的样式和复杂性,后者是衡量小学数学推理的黄金标准。

研究人员在GSM1k上评估了领先的开源和闭源LLM,并观察到准确率下降了高达13%。其中,包括微软的Phi-3和Mixtral 8x22B在内的几个模型家族在几乎所有模型大小上都显示出系统性过拟合的迹象。然而,许多模型,尤其是那些处于前沿的模型(如Gemini/GPT/Claude),则表现出最小的过拟合迹象。

进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记住了GSM8k。

这篇论文的发现引发了关于LLM在数学推理任务上性能的讨论。一方面,研究人员指出,这些发现表明LLM在解决小学算术问题时可能存在过拟合问题,这可能限制了它们的泛化能力。另一方面,他们也强调了LLM在数学推理任务上的潜力,并呼吁进一步的研究来探索如何改进这些模型的性能和泛化能力。

论文链接:https://arxiv.org/pdf/2405.00332

目录
打赏
0
2
2
0
396
分享
相关文章
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!
在AI领域,前沿语言模型的快速发展引人注目,但也带来了潜在的灾难性风险。Anthropic等机构研究了模型的破坏性能力,即模型在特定情境下通过隐蔽手段破坏人类评估、监控或决策的能力。研究团队设计了模拟部署场景的评估方法,对Claude 3 Opus和Claude 3.5 Sonnet模型进行了评估,发现这些模型在当前监督下未达到破坏性能力的阈值,但随着能力提升,未来可能需要更严格的评估和缓解措施。
74 4
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
131 1
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
141 2
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(1)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(上)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(上)
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据