将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
研究者预估,如果达到 100% 的正确率水平,「我们肯定会创造出赢得国际数学奥林匹克金牌的 AI 智能体。」

计算机被用来验证数学证明已经有一段时间了,但它们只有在使用专门设计的证明语言准备问题时才能做到这一点,而无法处理数学符号和数学家使用的书面文本的混合体。

如果把用自然语言编写的数学问题转换为正式代码,让计算机更容易解决它们,或许能够帮助构建能探索数学新发现的机器。

这个过程被称为形式化(formalisation),但仅仅一个证明就可能需要数年的工作,因此只有一小部分数学知识被形式化,然后由机器证明。

自动形式化(Autoformalization)指的是自动从自然语言数学翻译成正式语言的任务。一个成功的自动形式化工具在实践和哲学上的意义都是巨大的,它可以减少目前过度的形式化成本,并且从长远来看,它可以连接各种研究领域数学推理的自动化方面。

在最近的一项研究中,谷歌的 Yuhuai Wu 与其合作者使用 OpenAI Codex 的神经网络进行自动形式化工作。Codex 已经接受了来自网络的大量文本和编程数据的训练,程序员可以使用它来生成可靠的代码。


论文链接:https://arxiv.org/pdf/2205.12615.pdf

将 12500 个中学数学竞赛问题形式化

大型语言模型的一系列最新进展展示了模型理解形式化语言的潜力。然而,现有的成功仅限于在网络上存在大量语料库的形式化语言 (例如 Python)。相比之下,形式化的数学数据非常缺乏,最大的形式化数学语言库之一 Archive of Formal Proofs 只有 180mb 大小,这还不到大语言模型 Codex 训练数据的 0.18% 。

此外,与通用编程语言的情况不同,自然语言文档字符串是广泛可用的,自然语言和形式化数学语言之间几乎没有对齐的数据。因此,大型语言模型的成功是否能直接促进自动形式化的发展,仍是未知的。

鉴于证明语言与编程语言有相似之处,因此该团队决定看看 Codex 是否可以将包含 12500 个中学数学竞赛问题的库形式化。它能够将四分之一的问题转换为与形式证明求解程序 Isabelle 兼容的格式。

Wu 表示,许多不成功的转换是系统不理解某些数学概念的结果。「如果你用一个解释这个概念的例子来展示模型,那么模型就可以快速掌握它。」

这项工作探讨了大语言模型的自动形式化的前景,研究者发现大型语言模型已经在一个交互式定理证明器中具备相当好的形式化自然语言数学的能力。

下图 1 是一个完美的自动形式化示例。该模型不仅转换成了语法上正确的 Isabelle 代码,而且还能够掌握自然语言中的重要推理点。


为了测试这种自动形式化程序的效力,团队随后又将 Codex 应用于一组已经有人类形式化版本的问题,Codex 也为这些问题生成了自己的形式化版本。团队使用了另一个名为 MiniF2F 的 AI 来解决这两个版本的问题。

自动形式化的问题将 MiniF2F 的成功率从 29% 提高到了 35%,这表明 Codex 在问题形式化方面取得了重要进展。


值得注意的是,许多数学竞赛的陈述往往是这样一种形式:一个人被要求找到某个问题的答案,而不是证明一个给定的命题。然而形式化的数学陈述是以命题的形式,而不是以问题的形式。

为了把一个问题转换成一个命题,研究者在问题后面附上了「The Final Answer」:


用来进行自动形式化的 prompt 格式是:


AI 将与人类数学家竞争?

这是一项有趣的进展,但 Wu 表示团队的工作只是一个概念证明。「如果目标是训练一台媲美最顶级人类数学家的机器,那么自动形式化似乎是实现这个目标的关键道路。」

剑桥大学团队成员 Albert Jiang 表示,如果进一步提高成功率,AI 将能够与人类数学家竞争。「如果我们达到了 100% 的水平,我们肯定会创造出赢得国际数学奥林匹克金牌的 AI 智能体。

团队近期的目标是改进自动形式化模型和自动化证明机器,但研究成果的未来影响将会更深远。Wu 表示,这些模型可以揭示人类目前未知的数学领域。

这种机器的推理能力也非常适合更广泛领域的验证任务。「你可以验证一个软件是否完全按照你的要求做,或者可以验证硬件芯片,因此它在金融交易算法和硬件设计中都会有所应用。」

利用机器探索数学是一个令人兴奋的发展,伦敦数学科学研究所的 Yang-Hui He 说,但真正的挑战是在大部分是用 LaTex 编写的数学研究中使用该模型。「我们只用 LaTex 是因为它打字顺畅,但它在某种意义上是一种自然语言,也有自己的规则。」

He 说,因为用户可以在 LaTeX 中定义自己的函数和符号,这些函数和符号可能只在一篇数学论文中使用,这对于仅在纯文本上训练过的神经网络来说可能很棘手。

参考链接: https://www.newscientist.com/article/2322999-ai-translates-maths-problems-into-code-to-make-them-easier-to-solve/#ixzz7VmyPBQM7

相关文章
|
2月前
|
机器学习/深度学习 测试技术
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
【10月更文挑战第18天】Google DeepMind提出了一种基于强化学习的自动纠错方法SCoRe,通过自我修正提高大型语言模型(LLMs)的纠错能力。SCoRe在数学和编程任务中表现出色,分别在MATH和HumanEval基准测试中提升了15.6%和9.1%的自动纠错性能。
48 4
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出网络共识
大型语言模型(LLM)如ChatGPT正改变人机交互,但在生成看似真实的错误信息方面存在“幻觉”问题。这种现象源于LLM依赖统计概率而非语义理解,导致在处理争议或冷门话题时易出错。研究显示,LLM的准确性高度依赖于训练数据的质量和数量。尽管如此,LLM仍具巨大潜力,需持续优化并保持批判性使用。
37 12
|
1月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
54 4
|
2月前
|
机器学习/深度学习 存储 监控
揭秘微调‘失忆’之谜:如何运用低秩适应与多任务学习等策略,快速破解灾难性遗忘难题?
【10月更文挑战第13天】本文介绍了几种有效解决微调灾难性遗忘问题的方法,包括低秩适应(LoRA)、持续学习和增量学习策略、记忆增强方法、多任务学习框架、正则化技术和适时停止训练。通过示例代码和具体策略,帮助读者优化微调过程,提高模型的稳定性和效能。
80 5
|
4月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
55 1
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
37 2
|
5月前
|
人工智能 程序员
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【7月更文挑战第20天】IEEE 35页论文揭示ChatGPT在复杂编码任务上的正确率仅0.66%,表明大型语言模型虽能生成语法正确代码,但在逻辑和可读性上不及人类程序员。研究强调AI在深度领域知识与推理上的局限性,提示AI辅助而非替代的角色。[链接:https://ieeexplore.ieee.org/document/10507163]
50 2
|
6月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
79 3
|
7月前
|
人工智能 自然语言处理 搜索推荐
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。
66 13
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
|
7月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
119 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好