SWE-bench 刷新后,我反而更确定:测试不会消失

简介: AI编程能力已达新高度,SWE-bench测试显示顶尖模型修复真实GitHub问题成功率超80%,但仅限技术执行;真正决定系统可信度、业务权衡与上线责任的判断力,仍不可替代——人不是被取代,而是借AI跃升为更高阶的工程决策者。

最近 AI 圈又热闹了。

新模型一个接一个,刷榜的消息一条接一条。
每次看到“AI 写代码超过 XX% 程序员”的标题,总有人来问我一句话:

“AI 已经能写代码了,那我们还有位置吗?”

这个问题问得不焦虑,但要回答它,得先想清楚一件事:

AI 的编程能力,现在到底走到了哪一步?

如果你想找一个相对客观的参考坐标,业内常被提到的,是一个叫 SWE-bench 的基准测试。

今天不制造焦虑,就从它说起,聊聊 AI 到了哪一步,人该站在哪。

01
SWE-bench 测的到底是什么?

SWE-bench 的全称是 Software Engineering Benchmark。
它不是让你写个冒泡排序,也不是让你补全一个函数。它的任务是:

在真实开源项目的代码库里,定位并修复一个真实存在的 GitHub Issue。

这背后包含的能力是:

理解一个有几千个文件的真实项目
读懂用户提交的 Issue 报告,搞清楚问题现象
定位到具体的代码文件、具体的函数
修改代码,确保不破坏其他功能
成功跑通该项目原有的全部单元测试
这不是“写不写得出来代码”的问题。
这是能不能参与真实软件工程协作的问题。

02
一个重要的信号

如果你把时间拉回 2024 年初,会发现一个很现实的情况:
在 SWE-bench 这样的工程型评测中,主流模型的成功率极低,几乎可以视为“不可用”。

但随着模型能力提升,以及 工程化 Agent 方案 的引入,这个情况开始发生变化。

到 2024 年下半年:

部人模型在结合工具调用、上下文管理、多轮反馈之后

在 SWE-bench 上的成功率,开始进入 两位数

进入 2025 年:

在公开评测中

部分最优方案的解决率,已经接近甚至超过 40%

这说明一件事:

AI 已经不再只是在“写代码”,而是开始具备在受限条件下参与工程任务的能力。

03
这是否意味着:AI 已经能“独立干活”了?

还没有。
SWE-bench 的进步,同时也非常清楚地暴露了 AI 的边界。

在那些失败案例中,AI 往往卡在这些地方:

问题本身是模糊的
用户说“有点慢”“不太稳定”,但没有明确标准

需要权衡与取舍
多种修复方案都成立,但要选哪一个?

涉及复杂业务逻辑
一个改动,可能影响到另一个团队、另一个系统

需要承担后果
改动上线后出问题,谁来负责?

这些问题的共同点只有一个:

它们都需要“人”。

AI 可以生成代码,但它不会为结果负责。

04
测试工程师的位置在哪?

这对测试工程师来说,尤其值得想清楚。

很多人担心:“AI都能自动生成测试用例、自动执行回归了,测试是不是要被取代了?”

但你想一个问题:

测试的核心是什么?

不是“点点点”,不是“写用例”,不是“跑脚本”——这些都只是手段。

测试的核心是:判断一个系统是否可信。

这个判断,包含了很多东西:

这个Bug严重吗?要不要拦住上线?
这个功能用户体验好吗?会不会被用户骂?
这个系统的性能够吗?大促会不会崩?
这个改动有风险吗?会不会影响别的模块?
这些问题,AI回答不了。

因为判断需要理解业务目标、用户场景、组织约束和潜在风险——而这些,恰好是测试工程师每天都在做的事。

05
在 AI 时代,人最重要的三件事

所以,在AI越来越强的未来,人该站在哪?

不是和AI对抗,不是和AI比赛写代码,而是做好这三件事:

第一,定义问题。
AI很擅长解题,但不擅长选题。用户说的“有点卡”,到底是前端渲染慢,还是接口返回慢,还是网络问题?把这个模糊的现象翻译成可验证、可执行的工程任务,是人的责任。

第二,校验结果。
AI写了一段代码,改了一个Bug,跑通了所有测试。但它真的改对了吗?会不会在边缘场景引入新问题?会不会破坏未覆盖的业务路径?这个深度验证与风险兜底,必须由人完成。

第三,承担责任。
上线出问题了,AI不会被问责。用户投诉了,AI不会被追责。最后签字、复盘、改进流程的,永远是人。这听起来沉重,但这就是人和工具最本质的区别——人有判断,也有责任。

06
不是替代,而是扩展

回到最开始那个问题:

“AI 已经能写代码了,那我们还有位置吗?”

我的答案是:

不仅有,而且更重要了。

因为 AI 越强,对“能判断的人”的需求就越高。

未来更可能是这样:

AI 帮你写脚本,你有时间思考系统风险

AI 帮你分析日志,你能关注更大的稳定性问题

AI 帮你生成用例,你可以深入理解业务逻辑

你不需要和 AI 比谁写代码快。

你要做的是:
让 AI 帮你干活,你去干 AI 干不了的活。

07
写在最后

2026年的春天已经来了,路还长。

这一年,AI还会进化,模型还会更强,评测数字还会往上涨。

但有一件事不会变:

在需要判断对错、权衡利弊、承担责任的地方,永远需要人在。

你不是被AI替代的人。
你是那个用AI,让自己变得更强的人。

稳住,往前走。

相关文章
|
5月前
|
人工智能 监控 算法
AI 技能树怎么搭?90%的人第一步就走错了
AI热潮下,别只学工具!真正的竞争力在于构建“AI能力树”:认知层(问题拆解、目标定义)、工程思维(风险评估、方案权衡)、工具协作(高效提问、结果验证)。工具是杠杆,能力才是支点。
|
人工智能 Java 测试技术
代码采纳率如何提升至50%?AI 自动编写单元测试实践总结
借助Aone Copilot Agent,通过标准化Prompt指导AI生成单元测试代码,实现50%代码采纳率,显著提升测试效率与质量,推动团队智能化研发转型。
1174 20
|
9月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
4月前
|
人工智能 安全 测试技术
AI智能体的测试流程
AI智能体测试重在验证“受控随机性”与“逻辑链完整性”,区别于传统确定性测试。涵盖单元(提示鲁棒性、工具调用、RAG)、推理链、性能成本、黄金集回归、安全红队及UAT/A/B六大维度,确保智能体可靠、安全、高效落地。(239字)
|
6月前
|
人工智能 资源调度 自然语言处理
AI agent指挥官 重塑智能体协作的新时代蓝图
随着 2026 年 AI 技术进入深度协作阶段,AI agent 指挥官成为连接智能体(AI Agents)执行层与业务价值层的核心枢纽。本文深入分析智能体协作的发展背景、技术栈演进、核心组件与架构模式,提出一种全新的 “协作智能体架构” 框架,以流程化、可执行的方式解释指挥官如何统筹规划、管理智能体、多模型服务与资源调度,从而实现高效、可控、可审计的智能体系统。
560 1
|
4月前
|
人工智能 API 数据处理
【最新】OpenClaw阿里云/本地部署保姆级教程+Skills集成+百炼API配置+常见问题解答
2026年3月,OpenClaw(小龙虾AI)的Skills生态已突破1.3万个,涵盖办公自动化、数据处理、联网搜索、AI绘画、定时任务等全场景,成为OpenClaw从“单纯对话”升级为“全能工具”的核心支撑。很多用户部署完OpenClaw后,发现本体只能简单聊天,无法实现自动化办公、数据处理等实用功能,核心原因就是没有正确集成Skills——就像智能手机只装了系统,没装任何应用,无法发挥真正价值。
1699 15
|
5月前
|
机器学习/深度学习 存储 物联网
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
大模型全量微调显存开销巨大(65B模型需130GB),参数高效微调(PEFT)应运而生。LoRA通过低秩矩阵增量更新,节省99%+参数;QLoRA结合4-bit量化(NF4)与LoRA,单卡48GB即可微调65B模型;DoRA进一步解耦权重的幅度与方向,精度显著超越LoRA。三者协同构建高效、低成本、高性能的微调新范式。
515 6
深入理解三种PEFT方法:LoRA的低秩更新、QLoRA的4位量化与DoRA的幅度-方向分解
|
5月前
|
人工智能 数据安全/隐私保护 开发者
大咖空降:宝玉的 Agent Skills 实战进化论
大模型很聪明,但为何AI仍难用?宝玉开源项目“baoyu-skills”两周获3.1K+ Star,揭秘Agent技能实战进化:从痛点触发、暴力迭代到业务闭环提效。D2大会现场深度拆解AI时代生存逻辑。
|
5月前
|
人工智能 运维 供应链
对待 Skills,请理性祛魅
本文深度解析Anthropic推出的Agent Skills技术:剖析其“渐进式披露”原理、模块化设计及在降本、可维护性、跨模型迁移等方面的显著优势;同时警示26.1%高漏洞率带来的安全风险,呼吁开发者理性祛魅、平台筑牢安全护栏。
917 2