终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名-阿里云开发者社区

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

2024-05-16 62 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第15天】研究人员发现，大型语言模型（LLM）在解决小学算术问题时可能因数据污染导致过拟合，三分之二的模型受影响，包括微软的Phi-3和Mixtral 8x22B。新基准GSM1k显示，一些LLM准确率下降13%，而Gemini/GPT/Claude等展现出较小过拟合。模型对GSM8k的依赖度与其性能差距正相关，提示记忆而非真正推理。论文呼吁研究如何提升LLM的泛化能力。[链接](https://arxiv.org/pdf/2405.00332)

最近，一篇名为“A Careful Examination of Large Language Model Performance on Grade School Arithmetic”的论文引起了广泛的关注。这篇论文由来自微软、OpenAI和谷歌的研究人员共同撰写，旨在调查大型语言模型（LLM）在解决小学算术问题时的性能是否存在过拟合问题。

在论文中，研究人员指出，尽管LLM在许多数学推理任务上取得了令人印象深刻的成功，但越来越多的人担心这些成功可能部分源于数据污染，即训练数据中包含与基准问题非常相似的数据，而不是真正的推理能力。为了验证这一观点，研究人员设计了一个名为Grade School Math 1000（GSM1k）的新基准，该基准旨在模仿广泛使用的GSM8k基准的样式和复杂性，后者是衡量小学数学推理的黄金标准。

研究人员在GSM1k上评估了领先的开源和闭源LLM，并观察到准确率下降了高达13％。其中，包括微软的Phi-3和Mixtral 8x22B在内的几个模型家族在几乎所有模型大小上都显示出系统性过拟合的迹象。然而，许多模型，尤其是那些处于前沿的模型（如Gemini/GPT/Claude），则表现出最小的过拟合迹象。

进一步的分析表明，模型生成GSM8k示例的概率与其在GSM8k和GSM1k之间的性能差距之间存在正相关关系（Spearman's r^2=0.32），这表明许多模型可能已经部分记住了GSM8k。

这篇论文的发现引发了关于LLM在数学推理任务上性能的讨论。一方面，研究人员指出，这些发现表明LLM在解决小学算术问题时可能存在过拟合问题，这可能限制了它们的泛化能力。另一方面，他们也强调了LLM在数学推理任务上的潜力，并呼吁进一步的研究来探索如何改进这些模型的性能和泛化能力。

论文链接：https://arxiv.org/pdf/2405.00332

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

热门文章

最新文章

相关课程

相关电子书