计算机领域的Nature-大模型攻克NP难题-阿里云开发者社区

计算机领域的Nature-大模型攻克NP难题

2026-01-20 328

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Google DeepMind提出FunSearch，突破AI“幻觉”困境。它让大模型生成解题代码而非直接答案，通过进化式筛选发现数学规律，成功破解20年未解的“顶盖集”难题，并优化装箱算法，展现人机协同探索科学真理的新范式。

现在的 AI（比如 ChatGPT 或 Claude）非常聪明。你能让它写诗、写代码，甚至用苏格拉底的风格和你辩论。但是，如果你问它一个尚未解决的科学难题，或者让它证明一个复杂的数学定理，事情往往会变得很尴尬——它可能会一本正经地胡说八道（我们称之为“幻觉”）。

这就像你雇佣了一个才华横溢但不太靠谱的实习生：他脑子里充满了疯狂的点子，但他给出的事实往往需要你一个个去核实。

那么，问题来了：我们能否保留 AI 惊人的“创造力”，同时过滤掉它的“胡说八道”，让它真正帮助人类发现未知的科学真理？

今天要介绍的，就是 Google DeepMind 发表在《Nature》上的一项突破性工作——FunSearch。它不仅做到了这一点，还解决了一个困扰数学家 20 年的难题。

为什么这很难？（从“黑盒”到“白盒”的挑战）

在 FunSearch 出现之前，用 AI 做数学发现主要面临两个巨大的拦路虎：

大海捞针的绝望：很多数学问题（比如组合数学）的解空间大得惊人。这就像是在整个银河系的沙子里找一粒特殊的金沙，暴力搜索完全行不通。
“我不信你”的困境：以前的 AI（比如 AlphaGo）虽然强，但它们往往是一个“黑盒”。它可能会丢给你一个答案，说：“信我，这就是最优解。”但作为人类科学家，我们一头雾水——为什么是这个？规律是什么？能不能推广？ 如果 AI 不能用人类听得懂的语言解释它的发现，那它就很难推动科学理论的真正进步。

科学家们真正想要的，不是一条死板的“答案”，而是一把能解开谜题的“钥匙”。

核心洞察：不要寻找“金子”，要寻找“点金术”

DeepMind 团队做出了一个极其精彩的思维转换，这也是这篇论文最性感的地方。

他们意识到：与其让 AI 直接去搜索那个复杂的数学答案（Solution），不如让 AI 去写一段能生成答案的代码（Program）。

让我给你讲个故事来解释这其中的区别：

想象一下，你要在一串看似随机的数字中寻找规律：2, 4, 6, 8, 10, ... 10000。

传统的搜索方式：就像是试图死记硬背这一长串数字。这非常占内存，而且很难发现背后的逻辑。

FunSearch 的方式：它不记数字，它试图找到生成这串数字的“配方”。它可能会写出一段简单的代码：for i in range(1, 5001): print(2*i)。

发现了吗？代码（配方）往往比答案本身更简洁、更本质。 这就是信息论中“柯尔莫哥洛夫复杂度”的概念。通过搜索代码，我们实际上是在搜索解背后的结构和规律。

FunSearch（Function Search）的名字由此而来：在函数空间中寻找真理。

它是如何工作的？（一个永不疲倦的进化工厂）

FunSearch 把大语言模型（LLM）变成了一个不知疲倦的“进化者”。整个过程像极了生物进化论：

不仅是写代码，更是“突变”：系统会给 LLM 一些现有的、表现平平的代码，对它说：“嘿，你能不能改几行，让它跑得更好？”LLM 发挥它的创造力，生成各种各样的新代码。
严酷的“自然选择”：这是关键！LLM 生成的代码会被立刻扔进一个测试系统（Evaluator）。

代码跑不通？淘汰！
结果是错的？淘汰！
结果不仅对，而且比之前的更好？保留！

通过迭代产生智慧：那些被保留下来的优秀代码，又会作为下一轮的“种子”，喂给 LLM 继续修改。

在这个循环中，LLM 即使 90% 的时间都在产生“幻觉”也无所谓，只要它偶尔有一次灵光一现，这个系统就能捕捉到，并将其固化为人类知识。

震撼的战绩：当 AI 教会人类新知识

这不是纸上谈兵，FunSearch 实打实地拿下了两个硬骨头：

故事一：破解“顶盖集”之谜（The Cap Set Problem）

这是一个极其抽象的几何问题，就连菲尔兹奖得主陶哲轩都称其为他最喜欢的开放问题之一。简单来说，它要求你在高维空间里找尽可能多的点，还要保证没三个点连成一条线。

随着维度增加，这个问题的难度呈指数级爆炸。过去 20 年，人类在 $n=8$ 这个维度上一直卡在 496 个点这个记录上。

FunSearch 做了什么？ 它没有直接给出点的坐标，而是写出了一段仅仅几行的 Python 代码。运行这段代码，它吐出了一个包含 512 个点的集合！

更精彩的在后面：因为 FunSearch 给的是代码，数学家们可以像读文章一样去读它。他们惊讶地发现，AI 在代码中利用了一种人类从未注意到的“对称性”。这种洞察力让数学家们如获至宝，他们甚至在 AI 的启发下，手动推导出了更多新的数学定理。这就是人机协作的完美范例。

故事二：装箱问题（The Bin Packing Problem）

这是各种物流、云计算公司的噩梦：如何把大小不一的包裹塞进最少的箱子里？

传统的算法要么太慢，要么不够聪明。FunSearch 生成了一个非常反直觉的算法。普通的算法会尽量把箱子填满（贪心策略），但 FunSearch 写出的代码在某些情况下会故意留一点空隙。

事实证明，这种策略在处理后续涌入的包裹时更加灵活，最终使用的箱子总数更少。AI 学会了一种人类直觉之外的“大局观”。

总结：未来的科学家助手

FunSearch 的出现告诉我们要重新审视 AI 的角色。

它不再只是一个只会回答问题的聊天机器人，也不是一个深不可测的黑盒神谕。它更像是一个不知疲倦、偶尔甚至有点疯狂的初级研究员。它需要我们（人类）提供方向（Evaluator），但它能凭借算力和创造力，探索那些人类直觉无法触及的角落。

这篇论文最大的启示或许是：真理不仅存在于数据之中，更隐藏在生成数据的程序逻辑里。 而 AI，正在学会如何编程去寻找这些真理。

计算机领域的Nature-大模型攻克NP难题

为什么这很难？（从“黑盒”到“白盒”的挑战）

核心洞察：不要寻找“金子”，要寻找“点金术”

它是如何工作的？（一个永不疲倦的进化工厂）

震撼的战绩：当 AI 教会人类新知识

故事一：破解“顶盖集”之谜（The Cap Set Problem）

故事二：装箱问题（The Bin Packing Problem）

总结：未来的科学家助手

千问大模型

热门文章

最新文章

相关电子书