备案控制台

开发者社区机器之心文章正文

大模型帮陶哲轩解题、证明数学定理：数学真要成为首个借助AI实现突破的学科了？（1）

2023-07-02 253

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大模型帮陶哲轩解题、证明数学定理：数学真要成为首个借助AI实现突破的学科了？

大模型帮陶哲轩解题、证明数学定理：数学真要成为首个借助AI实现突破的学科了？

机器之心 2023-06-30 13:30 发表于北京

机器之心报道

编辑：张倩、蛋酱

数学将成为第一门借助AI实现重大突破的学科？

去年 2 月份，DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码，可以自动完成代码、提供代码建议并检查错误，从而提高编程效率。AlphaCode 的问世意味着 AI 在解决现实世界问题的道路上又迈出了一大步。

巧合的是，在同一天，OpenAI 也展示了一项重要成果：他们开发的神经定理证明器成功解出了两道国际奥数题。这一成果是在微软打磨了多年的数学 AI——Lean 的基础上完成的。Lean 于 2013 年推出，数学家可以把数学公式转换成代码，再输入到 Lean 中，让程序来验证定理是否正确。OpenAI 的成功表明，AI 不仅可以用于解决编程等应用学科的问题，还能用来攻克数学等自然学科。

值得注意的是，这并不是 AI 研究者的「一厢情愿」。就像快速接受 AlphaCode 的软件工程师一样，数学家也在越来越频繁地使用 AI，比如获得过菲尔茨奖的陶哲轩。他甚至预言，到 2026 年，AI 将成为数学研究领域可信赖的合著者（co-author）。

与此同时，主攻数学问题的 AI 也在不断发展壮大：一个名为 LeanDojo 的开放平台提供了一套基于大型语言模型的开源定理证明器，消除了在机器学习方法用于定理证明时存在的私有代码、数据和大量计算需求等障碍，为机器学习方法在定理证明领域的研究提供了便利。

「我相信，数学将成为第一门通过人工智能实现重大突破的学科。」在看到这些进展之后，英伟达高级 AI 研究科学家 Jim Fan 在一篇推特中预言说。

除了以上种种进展，Jim Fan 还列出了以下推断依据：

数学可以被方便地转化为编码问题，字符串在其中具有重要地位，这使得数学问题可以通过人工智能工具进行处理和分析；
与依赖实证结果的学科不同，数学可以通过定理证明器（如 Lean）进行严格验证；
与需要依赖物理实验的学科（如生物学和医学）不同，数学不需要进行物理实验，无需依赖尚未完全成熟的机器人技术或实验设备。

在数学与 AI 的这场交叉之旅中，数学家和 AI 研究科学家在共同探索更多可能性。或许，陶哲轩和 Jim Fan 的预言都将加速实现。

在陶哲轩手里，AI 成了数学家的得力助手

「我预计，如果使用得当，到 2026 年，AI 将成为数学研究和许多其他领域值得信赖的合著者。」数学家陶哲轩在前不久的一篇博客中说道。

在众多知名数学家中，陶哲轩是较早接受并发现 ChatGPT 这类 AI 大模型数学价值的一个。早在今年 3 月份 ChatGPT 连鸡兔同笼问题都搞不定的时候，陶哲轩就给予了它肯定的态度，认为这类大模型完全可以胜任一些辅助性质的工作，比如帮数学研究者进行语义搜索、生成一些提示。

在这个例子中，陶哲轩提出的问题是：「我在寻找一个关于 xx 的公式。我想这是一个经典的定理，但我不记得名字了。你有什么印象吗？」在这轮问答中，虽然 ChatGPT 没能给出正确答案（库默尔定理），但根据它给出的近似答案（Legendre 公式），我们可以结合传统搜索引擎轻松找到正确答案。

没过多久，OpenAI 就发布了数学能力显著提升的 GPT-4。陶哲轩也一直在尝试解锁这一强大的 AI 工具。

在使用过程中，他总结出了一些经验：不要试图让 AI 直接回答数学问题（这样得到的答案八成是废话），而是让它扮演合作者的角色，要求它提供策略建议。

按照这种提示方法，陶哲轩在 GPT-4 的帮助下成功解决了一个数学证明题（GPT4 提出了 8 种方法，其中 1 种成功解决了问题）。

陶哲轩利用 GPT-4 解决的问题。

陶哲轩为了解决上述证明题提供给 GPT-4 的 Prompt：「你好，我是一名数学教授，我希望你能扮演一位善于提出解题技巧的数学专家合作者。我正试图回答 MathOverflow 中的以下问题……」

GPT-4 给出的部分建议。

当然，除了这个证明题外，陶哲轩也在用 GPT-4 完成其他一些工作，包括但不限于：

提出问题：他将最近一些数学预印本论文的前几页输入给 GPT-4，并让其生成一些与该论文相关的问题，就像同行提出的问题一样。这可以帮助他更好地进行演讲准备。
回答问题：他现在经常使用 GPT-4 来回答随意和模糊的问题，以前他可能会通过精心准备的搜索引擎查询来尝试回答这些问题；
辅助写作：他曾经让 GPT-4 给复杂文档提供初稿建议，以辅助写作。

不过，陶哲轩也指出，AI 在数学等学术领域的广泛应用对出版界和教育界来说都是一个考验：当人工智能指导的研究生入门级数学论文可以在不到一天的时间内生成时，研究期刊将如何改变其出版和引用机制？我们的研究生教育方式将如何改变？我们会积极鼓励和训练学生使用这些工具吗？对于这些问题，陶哲轩并没有给出答案。

拿下数学定理证明，这项研究或让陶哲轩预言早日成真

一直以来，形式化的定理证明都是机器学习的重要挑战。形式化证明本质上是一种计算机程序，但与 C++ 或 Python 中的传统程序不同，证明的正确性可以用证明助手（如开头提到的 Lean）来验证。定理证明是代码生成的一种特殊形式，在评估上非常严格，没有让模型产生幻觉的空间。

这对目前的大型语言模型（LLM）来说是有挑战性的，尽管 LLM 在代码生成方面表现出了优秀的能力，但在事实性和幻觉性方面还有缺陷。

以往，对于用于定理证明的 LLM 研究面临着许多障碍：比如，现有的基于 LLM 的证明器没有一个是开源的；它们都使用私有的预训练数据，而且计算要求可以达到数千个 GPU 时；此外，有些基础设施是依赖于为分布式训练和与证明助手的互动而定制的，如果没有开源代码，这两者是不可能完全复现的。

在最近的一项研究中，来自加州理工学院、英伟达等机构的研究者在该命题的解决进程上走出了重要一步，提出了开放平台 LeanDojo。

论文链接：https://arxiv.org/pdf/2306.15626.pdf

项目主页：https://leandojo.org/

总体来说，该研究有如下贡献：

首先，介绍了从 Lean 中提取数据并与之交互的工具；
第二，开发了第一个用于定理证明的检索增强的语言模型 ReProver；
第三，为基于学习的定理证明构建了一个具有挑战性的基准，并利用它来验证 ReProver 的有效性；
最后，公开发布数据、模型和代码，推动了对定理证明的 LLM 的研究。

LeanDojo 的诞生有望改变当前现状：从开源工具包、模型到基准，LeanDojo 让研究人员能够以适度的计算成本获得最先进的基于 LLM 的证明器。ReProver 不依赖私人数据集，并且可以在一周内在单个 GPU 上完成训练。

研究细节

Lean 是一种编程语言，既可以写传统的程序，也可以写定理和证明。它提供了两个机制：首先，基于具有依赖类型的函数式编程，Lean 为定义程序、数学对象、定理和证明提供了一种统一的语言；第二，Lean 提供了一个策略系统（tactic system），用于半自动地构建机器可检查的证明。

图 2 展示了一个简单的例子，以说明定理是如何在 Lean 中被形式化和证明的：

策略（tactic）的语法是相当灵活的，可以接受参数，也可以组合成复合策略。策略可以看作是特定领域语言（DSL）中的程序。用户可以通过定义新的策略来扩展 DSL。这种离散的、组合的和无界的行为空间使得定理证明对机器学习具有挑战性。

另一个挑战是前提的选择。前提是对证明一个定理有用的现有公理或定义，被用作策略的论据。证明不能使用尚未定义的前提，也不能使用未导入当前文件的前提。通常，前提是来自一个包含数十万个现有定义和定理的大型数学库，这使得人类和机器都很难在生成策略时选择正确的前提。这是定理证明中的一个关键瓶颈，也是研究者希望通过检索增强的 LLM 来解决的。

文章标签：

C++

Python

机器学习/深度学习

搜索推荐

人工智能

异构计算

机器人

程序员

关键词：

AI模型

大模型AI

数学AI

陶哲轩AI

AI数学

-开发达人-

目录

相关文章

蚝油菜花

|

6天前

|

人工智能供应链 PyTorch

TimesFM 2.0：用 AI 预测流量、销量和金融市场等走势！谷歌开源超越统计方法的预测模型

TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型，支持长达2048个时间点的单变量预测，具备零样本学习能力，适用于零售、金融、交通等多个领域。

蚝油菜花

84 23 24

TimesFM 2.0：用 AI 预测流量、销量和金融市场等走势！谷歌开源超越统计方法的预测模型

蚝油菜花

|

10天前

|

机器学习/深度学习人工智能安全

GLM-Zero：智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型，开放在线免费使用和API调用

GLM-Zero 是智谱AI推出的深度推理模型，专注于提升数理逻辑、代码编写和复杂问题解决能力，支持多模态输入与完整推理过程输出。

蚝油菜花

124 24 25

GLM-Zero：智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型，开放在线免费使用和API调用

蚝油菜花

|

12天前

|

数据采集人工智能算法

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型，结合视觉预测与动作执行，显著提升机器人任务成功率。

蚝油菜花

50 20 20

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

灵杰开发者

|

11天前

|

存储人工智能自然语言处理

阿里云 AI 搜索方案解读：大模型驱动下的智能搜索，助力企业数字化转型

本解读了阿里云 AI搜索整体方案。

灵杰开发者

112 41 42

云淡纤尘

|

4天前

|

弹性计算人工智能自然语言处理

OS Copilot——面向未来的AI大模型

阿里云的智能助手`OS Copilot`是一款基于大模型构建的操作系统智能助手，支持自然语言问答、辅助命令执行、系统运维调优等功能。

云淡纤尘

31 8 8

OS Copilot——面向未来的AI大模型

楠竹11

|

5天前

|

数据采集人工智能安全

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

在人工智能领域，大型语言模型（LLMs）的发展迅速，但如何提升其指令遵循能力仍是一大挑战。论文提出MATRIX-Gen，一个基于多智能体模拟的AI社会模拟器。MATRIX-Gen通过模拟智能体交互生成多样化的现实场景，不依赖预定义模板，从而合成高质量指令数据。它包括MATRIX模拟器和MATRIX-Gen指令生成器，能生成监督微调、偏好微调及特定领域的数据集。实验表明，使用MATRIX-Gen合成的数据集微调后的模型在多个基准测试中表现出色，显著优于现有方法。然而，该方法也面临智能体和场景规模对数据质量的影响等挑战。

楠竹11

52 33 33

楠竹11

|

12天前

|

人工智能测试技术

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试，评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域，采用新问题与自动化验证，结果显示最先进AI通过率仅2%。尽管存在争议，这一基准为AI数学能力发展提供了明确目标和评估工具，推动AI逐步接近人类数学家水平。

楠竹11

66 37 38

蚝油菜花

|

12天前

|

人工智能编解码自然语言处理

Aria-UI：港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型，整合动作历史信息实现更加准确的定位

Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型，专为 GUI 智能交互设计，支持高分辨率图像处理，适用于自动化测试、用户交互辅助等场景。

蚝油菜花

73 11 11

Aria-UI：港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型，整合动作历史信息实现更加准确的定位

技术小达人

|

8天前

|

人工智能自然语言处理 API

用AI Agent做一个法律咨询助手，罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台

本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置，无需编写代码或训练模型，即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终，用户可以通过API调用集成此AI Agent到现有系统中，提供专业的法律咨询服务。整个过程简便高效，适合快速搭建专业领域的小助手。

技术小达人

100 21 21

hw2020hw

|

1天前

|

机器学习/深度学习数据采集人工智能

昇腾AI行业案例（七）：基于 Conformer 和 Transformer 模型的中文语音识别

欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统，将中文语音信号转换成文字，并利用开源数据集对模型效果加以验证。

hw2020hw

24 12 12

热门文章

最新文章

通义灵码2.0全新升级，AI程序员全面开放使用

加速数据处理与AI开发的利器：阿里云MaxFrame实验评测

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测，机遇, 挑战与展望

【科普向】我们所说的AI模型训练到底在训练什么？

阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点

Paimon 1.0: Unified Lake Format for Data + AI

AI辅助的运维流程自动化：实现智能化管理的新篇章

阿里云百炼xWaytoAGI共学课开课：手把手学AI，大咖带你从零搭建AI应用

与 AI 智能体来一场“春节互动”

客户在哪儿AI的ToB获客服务和AI外呼机器人的有何不同

生成式AI的未来发展方向

客户在哪儿AI的企业全历史行为数据与企业信息查询平台上的数据有何区别

打卡WAIC 2024！中兴的AI科技好牛

ChaosMeta for AI：混沌工程让AI稳定性更上一层楼

30% 代码由 AI 生成，单测准确率达到 90%，我在阿里巴巴国际站推广通义灵码

AI 时代程序员还“香”吗？别错过这场 OG & 跨界技术人的坦白局！

智能家居：AI让生活更便捷

探索软件测试的未来：AI与自动化的融合

AI时代你一定要知道的Agent概念

相关课程

更多

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

Lindorm：打造AI时代的一体化数据平台

Lindorm AI 能力介绍

2023云栖大会：PolarDB for AI

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

SAE 极速部署专属 AI 证件照神器

流水线运行出错排查难？AI帮你智能排查

以电商场景为例搭建AI语义搜索应用

下一篇

阿里云开通OSS存储服务详细流程