大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?(2)

简介: 大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

LeanDojo Benchmark


研究者使用 LeanDojo 构建了一个包含 96,962 条从 mathlib 提取的定理 / 证明的基准。该基准是目前最大的以数学为重点的定理证明数据集之一,涵盖了不同的主题,如分析、代数和几何。


与现有的 Lean 数据集不同,LeanDojo Benchmark 还包含了 128,163 个前提的定义,不仅包括定理,还包括可以作为前提的其他定义,例如图 2 中的 gcd。此外,该数据集有 212,787 个策略,其中 126,058 个策略至少有一个前提。在有前提的策略中,前提的平均数量为 2.12。


LeanDojo Benchmark 解决了两项关键问题:


  • 前提信息


Lean repos(例如,mathlib 或 lean-liquid)包含人写定理 / 证明的源代码。然而,原始代码并不适合用于训练验证器,它缺乏人类在使用 Lean 时可以获得的运行时信息,例如证明步骤之间的中间状态。


而 LeanDojo 可以从 Lean 的任何 GitHub repo 中提取数据,这些数据包含在原始 Lean 代码中无法直接看到的丰富信息,包括文件依赖关系、抽象语法树(AST)、证明状态、策略和前提。LeanDojo Benchmark 包含细粒度的前提注释(它们在证明中使用的位置和在库中定义的位置),为前提选择提供有价值的数据,也是定理证明的关键瓶颈。


  • 具有挑战性的数据分割


研究者发现,将定理随机分成训练 / 测试的常见做法导致了之前论文中高估了性能。LLM 只需在训练期间记住类似定理的证明,就能证明看似困难的定理。


在人类编写的 Lean 代码中,一个常见的惯用语法是为同一数学概念的略微不同的属性设置了一个类似的定理 / 证明块。例如,在图 3 中,最后两个定理不仅看起来相似,而且有相同的证明。如果其中一个在训练中,模型可以通过记忆轻松证明另一个。这种捷径使模型能够证明看似不简单的定理,包括那些需要前提才能证明的定理。



在 LeanDojo Benchmark 中,研究者通过设计具有挑战性的数据分割 novel_premises 来缓解这个问题,它需要测试证明以使用至少一个从未在训练中使用过的前提。


例如,图 3 中的最后两个定理都使用了前提 conj_mul。如果一个定理在 novel_premises 分割的训练集中,另一个也必须在训练中。


以编程方式与 Lean 交互


LeanDojo 的另一个重要功能是以编程方式与 Lean 交互。它把 Lean 变成了一个类似健身房的环境,在这个环境中,证明器可以观察证明状态,运行策略来改变状态,并接收错误或证明完成的反馈。这个环境对于评估 / 部署验证器或通过 RL 训练证明器是不可缺少的。


下面是 LeanDojo 的主要形式,用于通过策略与 Lean 交互。Lean 同样支持不基于策略的其他证明风格,不过 LeanDojo 只支持策略风格的证明。但只要有足够的通用性,任何证明都可以转换为策略风格的证明。



ReProver


随后,研究者使用 LeanDojo Benchmark 来训练和评估了 ReProver。其核心是一个由检索增强的策略生成器(图 1 底部)。



根据当前的证明状态,它可以检索出少数可能有用的前提,并根据状态和检索出的前提的连接情况生成一个策略。在证明定理时,该模型在每一步都会生成多个策略候选者,这些候选者被用于标准的最优搜索算法来寻找证明。


值得注意的是,ReProver 的训练只需要在单 GPU 上花费五天时间(120 个 GPU 时),所需的计算量大大低于之前的方法(1000 小时以上)。


此前的基于 LLM 的证明器都在数学和编码的特定数据集上进行预训练,计算成本很高而且数据集是保密的。相比之下,ReProver 避免特定领域的预训练,建立在「google/byt5-small」之上,这是一个通用的、公开可用的、相对较小的模型检查点。


此外,ReProver 只在人类写的策略上进行了微调,没有辅助数据或通过与 Lean 在线互动收集的数据。虽然这些正交方向是有价值的,但会大大增加方法的复杂性和计算要求。


在评估实验中,ReProver 可以证明 51.4% 的定理,优于直接生成策略而不进行检索的 baseline(47.5%)和另一个使用 GPT-4 以零样本方式生成策略的 baseline(28.8%)。



研究者还在 MiniF2F 和 ProofNet 两个数据集上测试了 ReProver。它可以在 MiniF2F 中证明 26.5% 的定理,在 ProofNet 中证明 13.8% 的定理,这几乎能够媲美强化学习的 SOTA 方法,且训练时使用的资源少得多。


此外,许多定理在 Lean 中没有 ground- truth 证明。而 ReProver 能够证明 65 个目前在 Lean 中没有得到证明的定理,其中 MiniF2F 发现了 33 条证明,ProofNet 中发现了 39 条。研究者表示,ReProver 也可以作为一个有效的工具来增强 Lean 中现有的数学库。


ChatGPT 插件


研究者还构建了一个 LeanDojo ChatGPT 插件,使 ChatGPT 能够通过与 Lean 交互来证明定理。与专门针对定理证明进行微调的 LLM(例如 ReProver)相比,ChatGPT 可以将非形式化数学与形式化证明步骤交织在一起,类似于人类与证明助手的交互方式。它可以解释来自 Lean 的错误消息,并且比专门的证明器更容易操纵。然而,由于搜索和规划方面的弱点,在大多数情况下很难找到正确的证明。


示例如下:


a + b + c = a + c + b



Stirling’s formula



Gauss' summation formula




团队信息


最后来认识一下这篇文章的作者们:



论文一作杨凯峪目前是加州理工学院计算和数学科学 (CMS) 系的博士后研究员 ,此前在普林斯顿大学获得博士学位。


Alex Gu 是麻省理工学院的一名博士生,导师为 Armando Solar-Lezama。此前,他在麻省理工学院获得了学士和硕士学位,拥有 Meta AI Research、Jane Street 和 pony.ai 多家公司的实习经历。


Peiyang Song 目前是加州大学圣巴巴拉分校(UCSB)创意研究学院(CCS)的计算机科学本科生。他的研究工作主要集中在两个方向:1)神经定理证明和自动推理,结合大型语言模型(LLMs)和交互式定理证明器(ITPs);2)用于能源效率机器学习推理的时间逻辑。


Shixing Yu 目前是美国康奈尔大学计算机科学专业博士生,此前在德州大学奥斯汀分校获硕士学位,本科就读于北京大学信息科学技术学院。


参考链接:

https://unlocked.microsoft.com/ai-anthology/terence-tao/

https://unlocked.microsoft.com/ai-anthology/terence-tao/

相关文章
|
8天前
|
人工智能 搜索推荐 自然语言处理
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
|
8天前
|
人工智能 自然语言处理 测试技术
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
61 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
|
8天前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
78 4
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
7天前
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
42 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
|
11天前
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
3天前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
143 25
|
12天前
|
机器学习/深度学习 数据采集 人工智能
清华联合DeepSeek推出奖励模型新标杆!DeepSeek-GRM:让AI学会自我批评,推理性能越跑越强
DeepSeek-GRM是由DeepSeek与清华大学联合研发的通用奖励模型,采用点式生成式奖励建模和自我原则点评调优技术,显著提升了模型质量和推理扩展性。
136 13
清华联合DeepSeek推出奖励模型新标杆!DeepSeek-GRM:让AI学会自我批评,推理性能越跑越强
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
94 12
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
|
12天前
|
人工智能 安全 测试技术
AI做奥赛题能及格吗?OlympicArena:上海交大推出多学科认知推理基准测试框架,挑战AI极限
OlympicArena是由上海交大等机构联合推出的多学科认知推理基准测试框架,包含7大学科11,163道奥林匹克竞赛级题目,通过细粒度评估推动AI向超级智能发展。
68 12
AI做奥赛题能及格吗?OlympicArena:上海交大推出多学科认知推理基准测试框架,挑战AI极限

热门文章

最新文章