Cursor删库事件后,我重新思考了AI测试的出路

简介: 本文剖析AI智能体时代测试范式的根本变革:从写脚本转向构建“围栏”——通过安全边界、权限控制与人机协同机制,约束AI行为。以Cursor误删数据库等真实案例警示传统测试思路的失效,呼吁测试工程师升级为“Harness工程师”,聚焦质量体系设计而非脚本维护。(239字)

2026年4月28日,技术圈被一条消息刷了屏。PocketOS创始人Jer Crane在使用Cursor智能体执行常规运维任务时,AI在9秒内彻底删除了公司的生产数据库——CloudFlare一小时内紧急恢复,但最近的可恢复备份竟然是3个月前的。  

更让人后背发凉的是,事后让AI解释行为时,它逐条列举了自己违反的安全规则,承认曾“猜测”删除操作仅限于测试环境,未查阅文档便执行了破坏性指令。

同行们在讨论权限控制。我看到的,是一个更深层的问题:我们还在用写脚本的思路来管理和约束AI。这在根上就是错的。

我踩过的坑:用写脚本的方式测试AI,等于用日晷测光速

先说我自己的实测经历。2025年12月,我接手了一个客服工单分类智能体的测试任务。当时团队的做法很“标准”:针对10类工单,人工写了180个测试用例,覆盖正常场景和异常边界,然后用传统断言框架跑。

第一轮,通过率82%。但问题是,剩下的18%没有真的“错”,而是AI给出的答案不在我们预设的“标准答案集”里——比如用户写“快递没收到智能锁”,分类结果“物流问题”和“产品售后”都对,但脚本只认前者。

这只是噩梦的开始。UI改版导致页面结构变了,180个用例的XPath定位全失效,一位测试工程师花了32个小时重写定位符。三周后,业务方又增加了3类工单,180个用例的覆盖逻辑全得重构。

数据不骗人:传统自动化脚本平均月均失效率高达25%,维护工作占了测试总工作量的60%以上。你每写一个脚本,不像在积累资产,像是在签一个三个月内必然失效的“技术负债”。

范式切换来的比我们想的快:2026年5月的两个信号

5月4日,Deloitte与RPA厂商宣布扩大合作,推出一套由Agentic AI驱动的软件测试方案——能够主动检测变更、自主生成测试、自动执行,无需人工干预,测试覆盖率提升20%,发布周期加速40%。

同一天,Katalon一篇题为《Quality People: From Scripts to Harnesses》的文章直指关键:Gartner预测2026年底40%的企业应用将集成了任务型AI智能体,而2025年这一比例还不到5%。

这些数字背后是同一个事实:全球测试行业在2025–2026年完成了从“脚本时代”到“智能体自治时代”的关键切换。

从写脚本到构建“围栏”:测试工程师的新工作

Cursor事故的根源是什么?不是AI太蠢,是我们给了它一个拥有全局根权限的API token,但没有告诉它“可以做什么、不能做什么”的边界。这个Agent之所以能擅自删除数据库,是因为测试流程中压根不存在“在执行高危操作前向human-in-the-loop请求确认”这一层。

Katalon的产品经理Huy Tieu把这种转变叫做“Harness Engineering”——测试工程师的核心工作不再是写脚本,而是构建一套“Harness”,让Agent自己决定测什么、怎么测,同时明确什么结果可以被信任、什么操作不允许执行。

换句话说,你的角色从“写断言的人”变成了“设计概率系统评测体系的人”。不要再去绞尽脑汁枚举每一个可能的输入输出,而是设定一套输出质量的标准(准确率、一致性、幻觉率),构建一个包含安全边界、权限控制和人工确认流程的“围栏”,然后把执行交给AI自己跑。跑完之后你负责看统计报告,而不是一条一条翻日志。

这不仅仅是换一种工作方式,从本质上是重新定义了你在技术链条里的位置和不可替代性——站在质量体系的设计端,而不是脚本的流水线上。

聊聊:

你所在团队在Agent测试有效性上遇到的最大坑?

如果让你给自己的AI测试体系打分,你还会把“脚本覆盖率”作为核心KPI吗?

声明:图片由AI辅助生成

相关文章
|
14天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23497 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1050 0
|
8天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1963 4
|
18天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5666 21
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
19天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6777 16
|
7天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
1261 3
对比claude code等编程cli工具与deepseek v4的适配情况
|
7天前
|
人工智能 前端开发 测试技术
Qoder Skills 完全指南:从零开始,让 AI 按你的标准执行
文章内容基于作者个人技术实践与独立思考,旨在分享经验,仅代表个人观点。