Cursor删库事件后,我重新思考了AI测试的出路

简介: 本文剖析AI智能体时代测试范式的根本变革:从写脚本转向构建“围栏”——通过安全边界、权限控制与人机协同机制,约束AI行为。以Cursor误删数据库等真实案例警示传统测试思路的失效,呼吁测试工程师升级为“Harness工程师”,聚焦质量体系设计而非脚本维护。(239字)

2026年4月28日,技术圈被一条消息刷了屏。PocketOS创始人Jer Crane在使用Cursor智能体执行常规运维任务时,AI在9秒内彻底删除了公司的生产数据库——CloudFlare一小时内紧急恢复,但最近的可恢复备份竟然是3个月前的。  

更让人后背发凉的是,事后让AI解释行为时,它逐条列举了自己违反的安全规则,承认曾“猜测”删除操作仅限于测试环境,未查阅文档便执行了破坏性指令。

同行们在讨论权限控制。我看到的,是一个更深层的问题:我们还在用写脚本的思路来管理和约束AI。这在根上就是错的。

我踩过的坑:用写脚本的方式测试AI,等于用日晷测光速

先说我自己的实测经历。2025年12月,我接手了一个客服工单分类智能体的测试任务。当时团队的做法很“标准”:针对10类工单,人工写了180个测试用例,覆盖正常场景和异常边界,然后用传统断言框架跑。

第一轮,通过率82%。但问题是,剩下的18%没有真的“错”,而是AI给出的答案不在我们预设的“标准答案集”里——比如用户写“快递没收到智能锁”,分类结果“物流问题”和“产品售后”都对,但脚本只认前者。

这只是噩梦的开始。UI改版导致页面结构变了,180个用例的XPath定位全失效,一位测试工程师花了32个小时重写定位符。三周后,业务方又增加了3类工单,180个用例的覆盖逻辑全得重构。

数据不骗人:传统自动化脚本平均月均失效率高达25%,维护工作占了测试总工作量的60%以上。你每写一个脚本,不像在积累资产,像是在签一个三个月内必然失效的“技术负债”。

范式切换来的比我们想的快:2026年5月的两个信号

5月4日,Deloitte与RPA厂商宣布扩大合作,推出一套由Agentic AI驱动的软件测试方案——能够主动检测变更、自主生成测试、自动执行,无需人工干预,测试覆盖率提升20%,发布周期加速40%。

同一天,Katalon一篇题为《Quality People: From Scripts to Harnesses》的文章直指关键:Gartner预测2026年底40%的企业应用将集成了任务型AI智能体,而2025年这一比例还不到5%。

这些数字背后是同一个事实:全球测试行业在2025–2026年完成了从“脚本时代”到“智能体自治时代”的关键切换。

从写脚本到构建“围栏”:测试工程师的新工作

Cursor事故的根源是什么?不是AI太蠢,是我们给了它一个拥有全局根权限的API token,但没有告诉它“可以做什么、不能做什么”的边界。这个Agent之所以能擅自删除数据库,是因为测试流程中压根不存在“在执行高危操作前向human-in-the-loop请求确认”这一层。

Katalon的产品经理Huy Tieu把这种转变叫做“Harness Engineering”——测试工程师的核心工作不再是写脚本,而是构建一套“Harness”,让Agent自己决定测什么、怎么测,同时明确什么结果可以被信任、什么操作不允许执行。

换句话说,你的角色从“写断言的人”变成了“设计概率系统评测体系的人”。不要再去绞尽脑汁枚举每一个可能的输入输出,而是设定一套输出质量的标准(准确率、一致性、幻觉率),构建一个包含安全边界、权限控制和人工确认流程的“围栏”,然后把执行交给AI自己跑。跑完之后你负责看统计报告,而不是一条一条翻日志。

这不仅仅是换一种工作方式,从本质上是重新定义了你在技术链条里的位置和不可替代性——站在质量体系的设计端,而不是脚本的流水线上。

聊聊:

你所在团队在Agent测试有效性上遇到的最大坑?

如果让你给自己的AI测试体系打分,你还会把“脚本覆盖率”作为核心KPI吗?

声明:图片由AI辅助生成

相关文章
|
26天前
|
人工智能 API
90%的提示词方法正在失效:GPT-5.5发布后的真相
GPT-5.5发布后,传统提示词工程正快速失效:过度细化步骤反降效,OpenAI关停微调API,Karpathy宣告“提示词工程已死”。新范式转向Context与Harness Engineering——用Agent架构(Model+Harness)替代手写提示,聚焦目标定义、上下文编排与错误拦截机制。
176 1
|
26天前
|
人工智能 Rust IDE
Copilot祭出“免费”牌后,我测了Cursor、Claude Code和它,发现了个怪现象
本文实测Cursor、Claude Code等AI编程工具,揭示“免费即阳谋”本质:Copilot免费靠高频补全,但复杂项目易出隐性Bug;Claude Code前置理解、精打细算,4.8万Token一次通过编译。效率>规模,会思考的小模型正改写规则。(239字)
316 0
|
XML Java 数据格式
如果Spring中有两个ID相同的Bean,会报错吗?
有位粉丝被 问到这样一个问题,说在Spring中,如果有两个ID相同的Bean,会不会报错?如果报错,会在哪个阶段报错? 这个问题也要分析具体的情况,才能完整的回答。我从三个方面来回答你的问题吧。
782 0
|
26天前
|
安全 应用服务中间件 网络安全
微软商店上架必看:两类数字证书,MSI/EXE应用程序上架刚需
本文详解Win32应用上架微软商店必备的两类数字证书:代码签名证书(确保安装包来源可信、代码完整,须由微软信任CA颁发)与SSL证书(保障HTTPS下载链接安全合规)。二者共同构成上架技术刚需,缺一不可。
|
2月前
|
人工智能 自然语言处理 监控
企业如何抓住AI红利?阿里云权益中心深度解读与实战指南
本文深度解析阿里云AI权益中心的核心价值与落地场景,涵盖Qwen大模型、JVS Claw智能体平台等全栈能力,助力企业降本增效——电商视频生成成本直降99%,内容创作提效18倍。附技术选型框架与实战指南。(239字)
|
6月前
|
存储 人工智能 自然语言处理
数字化转型中的知识管理新范式
2025年数字化浪潮下,企业知识管理成战略议题。Gartner预测,2026年采用AI知识管理系统的企业运营效率领先对手40%。但多数企业陷知识内耗:数据分散、员工日均切换8个系统;核心人员离职致年均损失$42,000;重复劳动耗30%资源,新员工3个月达产,传统工具成转型瓶颈。
314 0
|
2月前
|
搜索推荐 安全 BI
网站建设的12个关键要素:从定位到转化,帮你少走弯路
本文拆解网站建设 12 大核心要素,从定位、结构、内容到 SEO、转化与运维,强调以用户为中心,配合成熟 CMS 可高效打造实用且能转化的优质站点。
357 5
|
2月前
|
数据采集 网络协议 算法
IPv6地理库如何建设?从被动探测到主动订阅的实践解析
全球IPv4枯竭加速IPv6部署,我国IPv6活跃用户已超8亿。本文解析IPv6地理定位三大挑战,揭示IP数据云等平台如何依托Geofeed订阅、BGP解析等主动溯源技术,构建高精度、日更级IPv6地理库。
|
8月前
|
人工智能 JSON 测试技术
Dify入门实战:5分钟搭建你的第一个AI测试用例生成器
本文教你利用Dify平台,结合大模型API,5分钟内搭建一个无需编程基础的AI测试用例生成器。通过配置提示词、连接AI模型,实现自动输出覆盖正常、异常及边界场景的结构化测试用例,提升测试效率与质量,并支持集成到CI/CD流程,助力智能化测试落地。
|
3月前
|
存储 资源调度 监控
当 Agent 开始接管测试体系:MCP + Skills 背后的工程真相
本文探讨2026年测试工程范式变革:以Agent+MCP+Skills分层架构重构接口/UI自动化与性能测试,强调能力抽象、结构化依赖、稳定性控制及可观测治理,推动测试从“脚本编写”迈向“架构设计”。