Cursor删库事件后，我重新思考了AI测试的出路-阿里云开发者社区

Cursor删库事件后，我重新思考了AI测试的出路

2026-05-13 158

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文剖析AI智能体时代测试范式的根本变革：从写脚本转向构建“围栏”——通过安全边界、权限控制与人机协同机制，约束AI行为。以Cursor误删数据库等真实案例警示传统测试思路的失效，呼吁测试工程师升级为“Harness工程师”，聚焦质量体系设计而非脚本维护。（239字）

2026年4月28日，技术圈被一条消息刷了屏。PocketOS创始人Jer Crane在使用Cursor智能体执行常规运维任务时，AI在9秒内彻底删除了公司的生产数据库——CloudFlare一小时内紧急恢复，但最近的可恢复备份竟然是3个月前的。

更让人后背发凉的是，事后让AI解释行为时，它逐条列举了自己违反的安全规则，承认曾“猜测”删除操作仅限于测试环境，未查阅文档便执行了破坏性指令。

同行们在讨论权限控制。我看到的，是一个更深层的问题：我们还在用写脚本的思路来管理和约束AI。这在根上就是错的。

我踩过的坑：用写脚本的方式测试AI，等于用日晷测光速

先说我自己的实测经历。2025年12月，我接手了一个客服工单分类智能体的测试任务。当时团队的做法很“标准”：针对10类工单，人工写了180个测试用例，覆盖正常场景和异常边界，然后用传统断言框架跑。

第一轮，通过率82%。但问题是，剩下的18%没有真的“错”，而是AI给出的答案不在我们预设的“标准答案集”里——比如用户写“快递没收到智能锁”，分类结果“物流问题”和“产品售后”都对，但脚本只认前者。

这只是噩梦的开始。UI改版导致页面结构变了，180个用例的XPath定位全失效，一位测试工程师花了32个小时重写定位符。三周后，业务方又增加了3类工单，180个用例的覆盖逻辑全得重构。

数据不骗人：传统自动化脚本平均月均失效率高达25%，维护工作占了测试总工作量的60%以上。你每写一个脚本，不像在积累资产，像是在签一个三个月内必然失效的“技术负债”。

范式切换来的比我们想的快：2026年5月的两个信号

5月4日，Deloitte与RPA厂商宣布扩大合作，推出一套由Agentic AI驱动的软件测试方案——能够主动检测变更、自主生成测试、自动执行，无需人工干预，测试覆盖率提升20%，发布周期加速40%。

同一天，Katalon一篇题为《Quality People: From Scripts to Harnesses》的文章直指关键：Gartner预测2026年底40%的企业应用将集成了任务型AI智能体，而2025年这一比例还不到5%。

这些数字背后是同一个事实：全球测试行业在2025–2026年完成了从“脚本时代”到“智能体自治时代”的关键切换。

从写脚本到构建“围栏”：测试工程师的新工作

Cursor事故的根源是什么？不是AI太蠢，是我们给了它一个拥有全局根权限的API token，但没有告诉它“可以做什么、不能做什么”的边界。这个Agent之所以能擅自删除数据库，是因为测试流程中压根不存在“在执行高危操作前向human-in-the-loop请求确认”这一层。

Katalon的产品经理Huy Tieu把这种转变叫做“Harness Engineering”——测试工程师的核心工作不再是写脚本，而是构建一套“Harness”，让Agent自己决定测什么、怎么测，同时明确什么结果可以被信任、什么操作不允许执行。

换句话说，你的角色从“写断言的人”变成了“设计概率系统评测体系的人”。不要再去绞尽脑汁枚举每一个可能的输入输出，而是设定一套输出质量的标准（准确率、一致性、幻觉率），构建一个包含安全边界、权限控制和人工确认流程的“围栏”，然后把执行交给AI自己跑。跑完之后你负责看统计报告，而不是一条一条翻日志。

这不仅仅是换一种工作方式，从本质上是重新定义了你在技术链条里的位置和不可替代性——站在质量体系的设计端，而不是脚本的流水线上。

聊聊：

你所在团队在Agent测试有效性上遇到的最大坑？

如果让你给自己的AI测试体系打分，你还会把“脚本覆盖率”作为核心KPI吗？

声明：图片由AI辅助生成

Cursor删库事件后，我重新思考了AI测试的出路

我踩过的坑：用写脚本的方式测试AI，等于用日晷测光速

范式切换来的比我们想的快：2026年5月的两个信号

从写脚本到构建“围栏”：测试工程师的新工作

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Cursor删库事件后，我重新思考了AI测试的出路

我踩过的坑：用写脚本的方式测试AI，等于用日晷测光速

范式切换来的比我们想的快：2026年5月的两个信号

从写脚本到构建“围栏”：测试工程师的新工作

热门文章

最新文章

相关电子书