人类专家:这代码逻辑我看不太懂。AI:没关系,能跑通,而且比你快

简介: 英伟达新论文《SATLUTION》震撼AI与编程界:AI自主进化出SAT求解器,竟超越人类冠军。它不靠补全代码,而是通过“规划+编码”双智能体,在严格规则与验证下自我迭代。70轮后,性能反超顶尖人工求解器,成本却不足2万美元。更深远的是,人类角色正从“写代码”转向“定规则、做验证”。这不仅是技术突破,更是对程序员未来的重新定义:我们或将成为AI的教练与考官,而非唯一的手艺人。

最近英伟达公布了他们最新论文《Autonomous Code Evolution Meets NP-Completeness》,一个由AI自主编辑的智能体,在顶级NP问题SAT上超越了25年人类冠军。
如果是以前,有人告诉我“AI写代码超过了人类”,我可能会笑笑说:“也就是写写LeetCode简单题或者是简单的Web页面吧。”但是这一次不一样,AI挑战的是计算机科学上的珠穆朗玛峰——SAT(布尔可满足性)求解器,而且,它赢了。不仅赢了,还赢得很彻底。一个由AI全自动演进出来的求解器系统 SATLUTION,在使用2024年的代码库和题目训练的情况下,不仅吊打了2024年的冠军,甚至超越了刚刚出炉的 2025年SAT竞赛的人类冠军(也就是作者本人)
今天想和大家聊聊这项工作背后的技术细节,以及它给我带来的一些关于“AI与我们”的思考。

为什么要“卷”SAT求解器?

首先得科普一下,为什么SAT求解器这么重要?SAT问题是第一个被证明为NP完全的问题,也是千禧年十大数学问题榜首。简单来说,它是计算复杂性理论的基石,NP完全问题即代表所有的NP问题都可以被归约为SAT问题,解决SAT问题对所有同类型问题都有较大推动。在工业界,SAT求解器是芯片验证、软件分析、加密破译等领域的核心引擎,特别是在EDA的等价验证上,SAT求解器被广泛使用。
过去三十年里,像 MiniSat、Kissat 这样的经典 SAT 求解器,基本都是人一点点“抠”出来的成果。里面的各种启发式、分支策略、内存管理,说白了,全是顶级专家靠长期经验和直觉慢慢打磨出来的。也正因为这样,大家普遍觉得这是一个非常吃专家经验、非常工程化的领域,AI 很难直接插手。打个不太严谨的比方,就像一堆已经堆到很高、结构还特别复杂的积木,看起来哪里都能动,但你真去随便换一块,很可能整个就塌了。所以,指望直接让大模型去“改一个 SAT 求解器”,本身就是一件难度极高的事情。但英伟达的团队却另辟蹊径,设计了SATLUTION。

SATLUTION:并不是简单的“让GPT写代码”

很多人对AI写代码的印象还停留在Copilot补全几行代码的阶段。但SATLUTION展示的是一种代码库级别(Repository-scale)的进化 。这就好比,以前的AI是帮你砌砖的瓦工,而SATLUTION是一个能接管整个工地的包工头,甚至还带了个建筑师。

1. 双“大脑”架构:规划与执行

SATLUTION设计了两个核心Agent(智能体):
规划智能体(Planning Agent):负责动脑子。它分析当前的性能瓶颈,提出改进方向,比如“我是不是该改改分支策略?”或者“这个内存管理是不是有问题?”。
编码智能体(Coding Agent):负责动手。它不仅是写C/C++代码,还要处理Makefile、修复编译错误、甚至处理Segmentation Fault(段错误)。

2. 最大的亮点:它有“家规”(Rule System)

这是我觉得整篇论文最精彩、也最有人情味的地方。
研究人员发现,如果你让AI随便写,它很容易“放飞自我”,写出虽然能跑但逻辑错误的代码,或者引入一些看似优化实则作弊的策略。于是,他们引入了一套规则系统(Rule System)
这就好比带徒弟。一开始,师父(人类)会给徒弟(AI)一套手册:
基础家规:必须用C++,不能用外部库 。
红线:如果是SAT,必须给出赋值;如果是UNSAT,必须给出DRAT数学证明
最神的是,这套规则是可自进化的 。如果AI发现某种写法总是导致Bug,它会自动把这条教训写入“家规”里的《禁止事项》(Forbidden Patterns)。比如,AI自己学会了“别乱用malloc,容易内存泄漏”,并把它写进规则里提醒未来的自己 。

3. 极度严苛的“考试系统”:Verifier

AI生成的代码能不能用,不是看它能不能跑通Hello World,而是要经过地狱级的测试。SATLUTION引入了一个双阶段验证器
第一关(Smoke Test):编译通过了吗?跑简单的例子会崩吗?
第二关(Correctness Check):这是核心。如果求解器说“无解(UNSAT)”,你不能光嘴上说,你得生成一个数学证明,然后有一个独立的第三方程序来验证你的证明是对的 。
正是这个“如果不给证明,我就不信你”的机制,保证了AI不会产生“幻觉”或者瞎猜。论文提到,只要通过了这两关的求解器,在后续测试中从未出错过

结果:降维打击

这种进化带来的效果是惊人的。
SATLUTION从2024年的几个开源求解器(Kissat等)起步,经过70轮的自我迭代,产生了一个“怪兽”。

  • 2025年SAT竞赛的题目上,它比人类冠军(AE_kissat2025_MAB)解出了更多的题目,速度更快 。
  • 它不仅在SAT(有解)问题上表现好,在UNSAT(无解)问题上也甚至更强 。
    看下面这张图,蓝色的柱子是人类冠军,左边那排金色的、越跑越快的是SATLUTION进化出来的家族。
    image.png
    更杀人诛心的是成本。人类专家开发一个顶尖求解器,通常需要数月甚至数年的积累。而SATLUTION跑完全程,花费的Token成本不到 2000美元,加上算力成本也就不到2万美元 。

    技术之外的思考:程序员的“后AI时代”

    读完这篇论文,我最大的感触并不是“失业焦虑”,而是一种角色的转变
  1. 从“写代码”到“定规矩”
    在SATLUTION里,人类作者并没有直接写核心算法,他们做的是设计验证器(Verifier)制定规则(Rules)
    这可能就是未来的编程范式。我们不再纠结于具体的for循环怎么写,而是专注于定义“什么是对的”。只要我们能清晰地定义“正确性”(比如要求DRAT证明),AI就能帮我们在无限的搜索空间里找到最优解 。
  2. AI也能搞科研
    论文里提到,AI自己发现了一些人类未曾深入探索的策略,比如动态调整Clause Vivification(子句活跃化)的敏感度,甚至学会了用Bandit算法来动态控制参数 。这说明AI不仅是在模仿,它开始产生某种程度的“算法创新”。
  3. 验证(Verification)是新的护城河
    论文作者在讨论部分特意强调:Verifier is Critical 。能够构建一个鲁棒的、自动化的验证系统,比写出代码本身更重要。在EDA(电子设计自动化)等容错率极低的领域,谁掌握了验证,谁就掌握了让AI落地的钥匙 。
    SATLUTION 像是一个信号。它告诉我们,在那些即使是人类最顶尖大脑统治的硬核领域,AI也开始入场了。它不是来替代我们的创造力,而是来替代那些“需要极高试错成本”的探索过程。
    作为开发者,也许我们该换个思路了:别总想着怎么自己手搓每一行代码,想想怎么做一个好的“考官”,让AI去帮你考个满分回来。

参考资料:本文核心数据与图片均引用自论文《Autonomous Code Evolution Meets NP-Completeness》

相关文章
|
1月前
|
人工智能 安全 API
Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry 安全边界
Nacos安全新标杆:精细鉴权、无感灰度、全量审计!
869 70
|
24天前
|
存储 弹性计算 人工智能
2026年阿里云服务器价格表及活动报价、租用收费标准参考
阿里云服务器租用体系涵盖轻量应用服务器、ECS云服务器两大核心品类,专注满足通用建站、企业办公、高性能计算等多元需求,收费受实例类型、配置规格、计费方式及地域影响显著。同时推出全场景优惠活动,包括普惠降价、新人秒杀、新老同享福利及长期套餐折扣,部分活动有明确时效限制。
304 7
|
28天前
|
负载均衡 算法 NoSQL
如何保障分布式IM聊天系统的消息有序性(即消息不乱)
本篇主要总结和分享分布式IM聊天系统架构中关于消息有序性的设计和实践。
134 17
|
1月前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
519 39
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
5天前
|
数据采集 人工智能 安全
别再用ChatGPT群发祝福了!30分钟微调一个懂你关系的“人情味”拜年AI
春节祝福太难写?本文手把手教你用LoRA微调大模型,让AI学会“看人下菜”:识别关系、风格、细节,30分钟训练出懂人情世故的拜年助手。无需代码,量化+批处理保障秒级响应,让每条祝福都像你亲手写的。(239字)
136 35
|
13天前
|
存储 弹性计算 固态存储
阿里云服务器租用费用价格表,2026年最新一年、1个月和1小时收费标准
2026年阿里云服务器最新价格:轻量应用服务器低至38元/年(2核2G+200M峰值带宽),ECS爆款99元/年(2核2G+3M)、199元/年(2核4G+5M);4核16G/8核32G低至89元/月起;香港轻量25元/月起。全地域覆盖,含按小时计费及多种云盘选项。
676 8
|
28天前
|
人工智能 机器人 测试技术
用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉
Chain-of-Verification(CoVe)通过“起草-验证-修复”四步流程,让大模型自我纠错幻觉。关键在于隔离验证:隐去初稿,迫使模型独立核查事实,避免自我强化错误。适用于模型应知但易错的场景,与RAG互补。虽增加延迟与成本,却为高可靠性任务提供保障,是迈向“系统2思维”的重要一步。
206 33
用提示工程让大模型自己检查自己:CoVe方法有效减少幻觉
|
1月前
|
存储 数据采集 弹性计算
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
311 63
|
1月前
|
SQL 人工智能 分布式计算
从工单、文档到结构化知识库:一套可复用的 Agent 知识采集方案
我们构建了一套“自动提取 → 智能泛化 → 增量更新 → 向量化同步”的全链路自动化 pipeline,将 Agent 知识库建设中的收集、提质与维护难题转化为简单易用的 Python 工具,让知识高效、持续、低门槛地赋能智能体。
370 36
|
5天前
|
人工智能 弹性计算 自然语言处理
还不会部署OpenClaw?阿里云推出五种OpenClaw快速部署方案
OpenClaw(原Clawdbot/Moltbot)是开源本地优先AI代理,能通过自然语言调用浏览器、邮件、文件等工具,真正“替你干活”。阿里云官方推出五种可视化部署方案,零代码、低成本、一键上线,个人、企业与开发者皆可快速拥有专属AI数字员工。
123 22