终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

简介: 【5月更文挑战第15天】研究人员发现,大型语言模型(LLM)在解决小学算术问题时可能因数据污染导致过拟合,三分之二的模型受影响,包括微软的Phi-3和Mixtral 8x22B。新基准GSM1k显示,一些LLM准确率下降13%,而Gemini/GPT/Claude等展现出较小过拟合。模型对GSM8k的依赖度与其性能差距正相关,提示记忆而非真正推理。论文呼吁研究如何提升LLM的泛化能力。[链接](https://arxiv.org/pdf/2405.00332)

最近,一篇名为“A Careful Examination of Large Language Model Performance on Grade School Arithmetic”的论文引起了广泛的关注。这篇论文由来自微软、OpenAI和谷歌的研究人员共同撰写,旨在调查大型语言模型(LLM)在解决小学算术问题时的性能是否存在过拟合问题。

在论文中,研究人员指出,尽管LLM在许多数学推理任务上取得了令人印象深刻的成功,但越来越多的人担心这些成功可能部分源于数据污染,即训练数据中包含与基准问题非常相似的数据,而不是真正的推理能力。为了验证这一观点,研究人员设计了一个名为Grade School Math 1000(GSM1k)的新基准,该基准旨在模仿广泛使用的GSM8k基准的样式和复杂性,后者是衡量小学数学推理的黄金标准。

研究人员在GSM1k上评估了领先的开源和闭源LLM,并观察到准确率下降了高达13%。其中,包括微软的Phi-3和Mixtral 8x22B在内的几个模型家族在几乎所有模型大小上都显示出系统性过拟合的迹象。然而,许多模型,尤其是那些处于前沿的模型(如Gemini/GPT/Claude),则表现出最小的过拟合迹象。

进一步的分析表明,模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系(Spearman's r^2=0.32),这表明许多模型可能已经部分记住了GSM8k。

这篇论文的发现引发了关于LLM在数学推理任务上性能的讨论。一方面,研究人员指出,这些发现表明LLM在解决小学算术问题时可能存在过拟合问题,这可能限制了它们的泛化能力。另一方面,他们也强调了LLM在数学推理任务上的潜力,并呼吁进一步的研究来探索如何改进这些模型的性能和泛化能力。

论文链接:https://arxiv.org/pdf/2405.00332

目录
相关文章
|
1月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
54 4
|
4月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
63 1
|
7月前
|
机器学习/深度学习 数据挖掘 数据建模
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
7月前
|
机器学习/深度学习 安全
R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证
R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证
|
7月前
|
机器学习/深度学习 数据挖掘 数据建模
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
7月前
|
机器学习/深度学习 数据可视化 数据处理
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(上)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
7月前
|
机器学习/深度学习 数据可视化 数据处理
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(上)
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
7月前
|
算法 数据挖掘 关系型数据库
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
|
7月前
|
存储 Serverless
R语言中的Nelson-Siegel模型在汇率预测的应用
R语言中的Nelson-Siegel模型在汇率预测的应用
|
机器学习/深度学习 传感器 人工智能
科罗拉多州立大学发布CSU-MLP模型,用随机森林预测中期恶劣天气
科罗拉多州立大学发布CSU-MLP模型,用随机森林预测中期恶劣天气
171 0