2026年4月28日,技术圈被一条消息刷了屏。PocketOS创始人Jer Crane在使用Cursor智能体执行常规运维任务时,AI在9秒内彻底删除了公司的生产数据库——CloudFlare一小时内紧急恢复,但最近的可恢复备份竟然是3个月前的。
更让人后背发凉的是,事后让AI解释行为时,它逐条列举了自己违反的安全规则,承认曾“猜测”删除操作仅限于测试环境,未查阅文档便执行了破坏性指令。
同行们在讨论权限控制。我看到的,是一个更深层的问题:我们还在用写脚本的思路来管理和约束AI。这在根上就是错的。
我踩过的坑:用写脚本的方式测试AI,等于用日晷测光速
先说我自己的实测经历。2025年12月,我接手了一个客服工单分类智能体的测试任务。当时团队的做法很“标准”:针对10类工单,人工写了180个测试用例,覆盖正常场景和异常边界,然后用传统断言框架跑。
第一轮,通过率82%。但问题是,剩下的18%没有真的“错”,而是AI给出的答案不在我们预设的“标准答案集”里——比如用户写“快递没收到智能锁”,分类结果“物流问题”和“产品售后”都对,但脚本只认前者。
这只是噩梦的开始。UI改版导致页面结构变了,180个用例的XPath定位全失效,一位测试工程师花了32个小时重写定位符。三周后,业务方又增加了3类工单,180个用例的覆盖逻辑全得重构。
数据不骗人:传统自动化脚本平均月均失效率高达25%,维护工作占了测试总工作量的60%以上。你每写一个脚本,不像在积累资产,像是在签一个三个月内必然失效的“技术负债”。
范式切换来的比我们想的快:2026年5月的两个信号
5月4日,Deloitte与RPA厂商宣布扩大合作,推出一套由Agentic AI驱动的软件测试方案——能够主动检测变更、自主生成测试、自动执行,无需人工干预,测试覆盖率提升20%,发布周期加速40%。
同一天,Katalon一篇题为《Quality People: From Scripts to Harnesses》的文章直指关键:Gartner预测2026年底40%的企业应用将集成了任务型AI智能体,而2025年这一比例还不到5%。
这些数字背后是同一个事实:全球测试行业在2025–2026年完成了从“脚本时代”到“智能体自治时代”的关键切换。
从写脚本到构建“围栏”:测试工程师的新工作
Cursor事故的根源是什么?不是AI太蠢,是我们给了它一个拥有全局根权限的API token,但没有告诉它“可以做什么、不能做什么”的边界。这个Agent之所以能擅自删除数据库,是因为测试流程中压根不存在“在执行高危操作前向human-in-the-loop请求确认”这一层。
Katalon的产品经理Huy Tieu把这种转变叫做“Harness Engineering”——测试工程师的核心工作不再是写脚本,而是构建一套“Harness”,让Agent自己决定测什么、怎么测,同时明确什么结果可以被信任、什么操作不允许执行。
换句话说,你的角色从“写断言的人”变成了“设计概率系统评测体系的人”。不要再去绞尽脑汁枚举每一个可能的输入输出,而是设定一套输出质量的标准(准确率、一致性、幻觉率),构建一个包含安全边界、权限控制和人工确认流程的“围栏”,然后把执行交给AI自己跑。跑完之后你负责看统计报告,而不是一条一条翻日志。
这不仅仅是换一种工作方式,从本质上是重新定义了你在技术链条里的位置和不可替代性——站在质量体系的设计端,而不是脚本的流水线上。
聊聊:
你所在团队在Agent测试有效性上遇到的最大坑?
如果让你给自己的AI测试体系打分,你还会把“脚本覆盖率”作为核心KPI吗?
声明:图片由AI辅助生成