人类专家:这代码逻辑我看不太懂。AI:没关系,能跑通,而且比你快

简介: 英伟达新论文《SATLUTION》震撼AI与编程界:AI自主进化出SAT求解器,竟超越人类冠军。它不靠补全代码,而是通过“规划+编码”双智能体,在严格规则与验证下自我迭代。70轮后,性能反超顶尖人工求解器,成本却不足2万美元。更深远的是,人类角色正从“写代码”转向“定规则、做验证”。这不仅是技术突破,更是对程序员未来的重新定义:我们或将成为AI的教练与考官,而非唯一的手艺人。

最近英伟达公布了他们最新论文《Autonomous Code Evolution Meets NP-Completeness》,一个由AI自主编辑的智能体,在顶级NP问题SAT上超越了25年人类冠军。
如果是以前,有人告诉我“AI写代码超过了人类”,我可能会笑笑说:“也就是写写LeetCode简单题或者是简单的Web页面吧。”但是这一次不一样,AI挑战的是计算机科学上的珠穆朗玛峰——SAT(布尔可满足性)求解器,而且,它赢了。不仅赢了,还赢得很彻底。一个由AI全自动演进出来的求解器系统 SATLUTION,在使用2024年的代码库和题目训练的情况下,不仅吊打了2024年的冠军,甚至超越了刚刚出炉的 2025年SAT竞赛的人类冠军(也就是作者本人)
今天想和大家聊聊这项工作背后的技术细节,以及它给我带来的一些关于“AI与我们”的思考。

为什么要“卷”SAT求解器?

首先得科普一下,为什么SAT求解器这么重要?SAT问题是第一个被证明为NP完全的问题,也是千禧年十大数学问题榜首。简单来说,它是计算复杂性理论的基石,NP完全问题即代表所有的NP问题都可以被归约为SAT问题,解决SAT问题对所有同类型问题都有较大推动。在工业界,SAT求解器是芯片验证、软件分析、加密破译等领域的核心引擎,特别是在EDA的等价验证上,SAT求解器被广泛使用。
过去三十年里,像 MiniSat、Kissat 这样的经典 SAT 求解器,基本都是人一点点“抠”出来的成果。里面的各种启发式、分支策略、内存管理,说白了,全是顶级专家靠长期经验和直觉慢慢打磨出来的。也正因为这样,大家普遍觉得这是一个非常吃专家经验、非常工程化的领域,AI 很难直接插手。打个不太严谨的比方,就像一堆已经堆到很高、结构还特别复杂的积木,看起来哪里都能动,但你真去随便换一块,很可能整个就塌了。所以,指望直接让大模型去“改一个 SAT 求解器”,本身就是一件难度极高的事情。但英伟达的团队却另辟蹊径,设计了SATLUTION。

SATLUTION:并不是简单的“让GPT写代码”

很多人对AI写代码的印象还停留在Copilot补全几行代码的阶段。但SATLUTION展示的是一种代码库级别(Repository-scale)的进化 。这就好比,以前的AI是帮你砌砖的瓦工,而SATLUTION是一个能接管整个工地的包工头,甚至还带了个建筑师。

1. 双“大脑”架构:规划与执行

SATLUTION设计了两个核心Agent(智能体):
规划智能体(Planning Agent):负责动脑子。它分析当前的性能瓶颈,提出改进方向,比如“我是不是该改改分支策略?”或者“这个内存管理是不是有问题?”。
编码智能体(Coding Agent):负责动手。它不仅是写C/C++代码,还要处理Makefile、修复编译错误、甚至处理Segmentation Fault(段错误)。

2. 最大的亮点:它有“家规”(Rule System)

这是我觉得整篇论文最精彩、也最有人情味的地方。
研究人员发现,如果你让AI随便写,它很容易“放飞自我”,写出虽然能跑但逻辑错误的代码,或者引入一些看似优化实则作弊的策略。于是,他们引入了一套规则系统(Rule System)
这就好比带徒弟。一开始,师父(人类)会给徒弟(AI)一套手册:
基础家规:必须用C++,不能用外部库 。
红线:如果是SAT,必须给出赋值;如果是UNSAT,必须给出DRAT数学证明
最神的是,这套规则是可自进化的 。如果AI发现某种写法总是导致Bug,它会自动把这条教训写入“家规”里的《禁止事项》(Forbidden Patterns)。比如,AI自己学会了“别乱用malloc,容易内存泄漏”,并把它写进规则里提醒未来的自己 。

3. 极度严苛的“考试系统”:Verifier

AI生成的代码能不能用,不是看它能不能跑通Hello World,而是要经过地狱级的测试。SATLUTION引入了一个双阶段验证器
第一关(Smoke Test):编译通过了吗?跑简单的例子会崩吗?
第二关(Correctness Check):这是核心。如果求解器说“无解(UNSAT)”,你不能光嘴上说,你得生成一个数学证明,然后有一个独立的第三方程序来验证你的证明是对的 。
正是这个“如果不给证明,我就不信你”的机制,保证了AI不会产生“幻觉”或者瞎猜。论文提到,只要通过了这两关的求解器,在后续测试中从未出错过

结果:降维打击

这种进化带来的效果是惊人的。
SATLUTION从2024年的几个开源求解器(Kissat等)起步,经过70轮的自我迭代,产生了一个“怪兽”。

  • 2025年SAT竞赛的题目上,它比人类冠军(AE_kissat2025_MAB)解出了更多的题目,速度更快 。
  • 它不仅在SAT(有解)问题上表现好,在UNSAT(无解)问题上也甚至更强 。
    看下面这张图,蓝色的柱子是人类冠军,左边那排金色的、越跑越快的是SATLUTION进化出来的家族。
    image.png
    更杀人诛心的是成本。人类专家开发一个顶尖求解器,通常需要数月甚至数年的积累。而SATLUTION跑完全程,花费的Token成本不到 2000美元,加上算力成本也就不到2万美元 。

    技术之外的思考:程序员的“后AI时代”

    读完这篇论文,我最大的感触并不是“失业焦虑”,而是一种角色的转变
  1. 从“写代码”到“定规矩”
    在SATLUTION里,人类作者并没有直接写核心算法,他们做的是设计验证器(Verifier)制定规则(Rules)
    这可能就是未来的编程范式。我们不再纠结于具体的for循环怎么写,而是专注于定义“什么是对的”。只要我们能清晰地定义“正确性”(比如要求DRAT证明),AI就能帮我们在无限的搜索空间里找到最优解 。
  2. AI也能搞科研
    论文里提到,AI自己发现了一些人类未曾深入探索的策略,比如动态调整Clause Vivification(子句活跃化)的敏感度,甚至学会了用Bandit算法来动态控制参数 。这说明AI不仅是在模仿,它开始产生某种程度的“算法创新”。
  3. 验证(Verification)是新的护城河
    论文作者在讨论部分特意强调:Verifier is Critical 。能够构建一个鲁棒的、自动化的验证系统,比写出代码本身更重要。在EDA(电子设计自动化)等容错率极低的领域,谁掌握了验证,谁就掌握了让AI落地的钥匙 。
    SATLUTION 像是一个信号。它告诉我们,在那些即使是人类最顶尖大脑统治的硬核领域,AI也开始入场了。它不是来替代我们的创造力,而是来替代那些“需要极高试错成本”的探索过程。
    作为开发者,也许我们该换个思路了:别总想着怎么自己手搓每一行代码,想想怎么做一个好的“考官”,让AI去帮你考个满分回来。

参考资料:本文核心数据与图片均引用自论文《Autonomous Code Evolution Meets NP-Completeness》

相关文章
|
2月前
|
人工智能 安全 API
Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry 安全边界
Nacos安全新标杆:精细鉴权、无感灰度、全量审计!
1188 73
|
2月前
|
设计模式 XML NoSQL
从HITL(Human In The Loop) 实践出发看Agent与设计模式的对跖点
本文探讨在ReactAgent中引入HITL(人机回路)机制的实践方案,分析传统多轮对话的局限性,提出通过交互设计、对话挂起与工具化实现真正的人机协同,并揭示Agent演进背后与工程设计模式(如钩子、适配器、工厂模式等)的深层关联,展望未来Agent的进化方向。
714 45
从HITL(Human In The Loop) 实践出发看Agent与设计模式的对跖点
|
2月前
|
存储 安全 API
隐私合规红线不能碰:大模型微调3大重灾区防护手册
本文聚焦大模型微调中训练数据、中间产物与部署链路三大隐私泄露重灾区,剖析90%开发者易踩的技术陷阱,从分层脱敏、差分隐私到权限管控,提供全链路可落地的防护方案,并结合性能与安全双重验证,助力企业实现合规与效能双赢。
隐私合规红线不能碰:大模型微调3大重灾区防护手册
|
2月前
|
人工智能 JSON 物联网
别光“调戏”ChatGPT了!亲手微调一个专属大模型,你需要知道这些
本文深入浅出地讲解大模型“训练-微调-推理”三步法,类比医生培养过程,帮助读者理解AI如何从通才变为专才。涵盖技术原理、实操步骤、效果评估与GPU选型,助力个人与企业打造专属AI模型,推动AI应用落地。
198 9
|
2月前
|
人工智能
大模型产生幻觉的原因,如何解决?
大模型“幻觉”指AI生成看似合理但错误或虚构的信息,源于其概率预测机制、训练数据缺陷及缺乏事实核查能力。可通过RAG、微调、联网检索、自我核查等方法降低幻觉风险,提升输出准确性与可靠性。(238字)
477 3
|
2月前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
610 39
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
2月前
|
SQL 人工智能 分布式计算
从工单、文档到结构化知识库:一套可复用的 Agent 知识采集方案
我们构建了一套“自动提取 → 智能泛化 → 增量更新 → 向量化同步”的全链路自动化 pipeline,将 Agent 知识库建设中的收集、提质与维护难题转化为简单易用的 Python 工具,让知识高效、持续、低门槛地赋能智能体。
459 36
|
2月前
|
存储 人工智能 搜索推荐
教你10 分钟内为自己网站配置AI助手
阿里云百炼平台支持一键部署大模型镜像,如DeepSeek、千问、Kimi等,通过智能体(Agent)集成RAG、插件、MCP等功能,实现知识库接入与外部工具调用,轻松为网站添加AI助手,构建个性化、可扩展的AI应用。
460 3
|
2月前
|
人工智能 自然语言处理 API
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手
本文提出一种面向租赁导购场景的工具调用(Tool Use)训练数据合成方案,以支付宝芝麻租赁助理“小不懂”为例,通过“导演-演员”式多智能体框架生成拟真多轮对话。结合话题路径引导与动态角色交互,实现高质量、可扩展的合成数据生产,并构建“数据飞轮”推动模型持续优化。实验表明,该方法显著提升模型在复杂任务中的工具调用准确率与多轮理解能力。
406 43
数据合成篇|多轮ToolUse数据合成打造更可靠的AI导购助手

热门文章

最新文章