人工智能学会数学推理了，考试成绩比CS博士还高-阿里云开发者社区

人工智能学会数学推理了，考试成绩比CS博士还高

2023-05-16 94

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 人工智能学会数学推理了，考试成绩比CS博士还高

这是语言模型推理能力的一个重要里程碑。

AI 在数学方面也有超越人类的趋势了？

昨天，谷歌提交的一篇论文引发了机器学习圈的关注，其提出的语言模型学会了人类做数学题时的方法「一步一步推理」。

在 MATH 数据集上，谷歌的新模型能实现 50% 的准确率——此前对人类的评测结果是：「一个不特别喜欢数学的计算机科学博士生能答对大约 40%，而三届国际数学奥林匹克竞赛（IMO）金牌得主能达到 90%。」

语言模型在各种 NLP 任务上都表现出了卓越的性能。事实上，在众多研究中科研人员总结出一条经验，即以无监督方式在大规模不同数据上训练的神经网络，在不同任务上表现更好。这条经验也适用于 BERT、GPT-3、Gopher 和 PaLM 在内的模型。

和人类相比，在定量推理方面，语言模型的差距还很大。想让语言模型能够解决数学和科学类问题，语言模型还需要掌握各种综合技能，这些技能包括模型能够利用自然语言和数学符号正确解析问题、可以准确利用相关公式和常数、以及生成涉及数值计算和符号操作的解决方案。

但这些都面临着挑战，人们通常认为，使用机器学习来解决定量推理问题，需要在模型架构和训练技术方面取得显著进步，这样一来允许模型访问外部工具，如 Python 解释器。

在 Google Research 提交的这篇论文中，他们推出了语言模型 Minerva，该模型能够解决数学和科学问题，让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型，以及使用先进的推理技术，该研究在各种较难的定量推理任务上取得了显著的性能提升。

论文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Minerva：不仅会数学，物理、化学也难不倒

Minerva 通过生成解决方案来解决问题，解决方案包括数值计算、符号操作，而不需要依赖计算器等外部工具。Minerva 将自然语言和数学符号进行结合来解析和回答数学问题。此外，Minerva 还结合了多种技术，包括小样本提示、思维链、暂存器提示以及多数投票原则，从而在 STEM 推理任务上实现 SOTA 性能。

此次，谷歌还提供了交互式示例浏览器来探索 Minerva 的输出！从 Minerva 浏览器界面可以看出，Minerva 不仅可以解决代数问题，还能解决物理、数论、几何、生物、化学、天文学等众多问题。

试用地址：https://minerva-demo.github.io/#category=Algebra&index=1

下面是 Minerva 解决几何问题，立方体的每个边都是 3 英寸长，求立方体的总表面积是多少平方英寸？模型回答：由于立方体有 6 个面，每个面是一个边长为 3 英寸的正方形，总表面积为 (6)(3)^2=54。

Minerva 解决数学问题：平行于 y=4x+6 的线，且穿过 (5,10)。问这条线与 y 轴相交的点的 y 坐标是多少？下面是 Minerva 解答过程：

定量推理，让模型一步一步来

Minerva 建立在 PaLM（Pathways Language Model ）的基础上，在 118GB 数据集上进一步训练完成，数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。训练之后模型学会使用标准数学符号进行对话。

下表 2 包含了 Minerva 主要的模型和训练超参数，最大的模型具有 540B 参数，在 26B token 上进行了微调。

Minerva 语言模型的不同变体，包括 8B，62B 和 540B。

下图为印度高中学生参加的 2020 年联合入学数学考试（左），这个考试每年有近 200 万参加；波兰国家数学考试（2022 年 5 月）（右），每年约有 27 万高中生参加。以下是 Minerva 答题过程，就像考生一样，分步计算答案：

下图为用于定量推理的数据集：研究者在数据处理过程中保留了数学信息，使模型能够在更高的水平上学习数学。

Minerva 还结合了最新的提示和评估技术，以更好地解决数学问题，包括思维链或 scratchpad 提示。

在回答新问题之前，Minerva 会将解决方案进行分解，进行多数投票。像大多数语言模型一样，Minerva 将可能输出分配不同的概率。在回答问题时，Minerva 不是将单个解决方案得分视为最有可能，而是通过从所有可能的输出中随机抽样来生成多个解决方案。这些解决方案是不同的（例如，步骤不相同），但通常会得出相同的最终答案。Minerva 对这些解决方案使用多数投票，将最常见的结果作为最终答案。