你的同事已经开始用Skill写测试用例了,而你还在手点

简介: 本文揭示AI测试转型本质:非追求“写得更快”,而是将隐性经验工程化封装为可复用Skill。通过Agent+MCP架构,把测试设计(等价类、边界值、场景法等)拆解为标准化工作流,实现用例生成从“小时级手撸”到“分钟级闭环”的跃迁。核心竞争力正从操作AI转向构建AI可执行的测试资产。

目录
一、行业在变,但很多人还没意识到变化的方向

二、变化的本质:不是写得更快,而是经验变得可复用

三、核心技术拆解:Skill不是提示词,是工作流

四、对照组:手撸用例 vs Skill生成的真实差距

五、工程落地:你的团队也能复制这套逻辑

六、下一站:测试工程师的核心竞争力在变

一、行业在变,但很多人还没意识到变化的方向
去年年底,跟几个测试负责人吃饭,聊到一个很有意思的现象。

话题很统一:团队里有人已经在用Claude Code做自动化测试了,还有人专门写了Skill来生成测试用例。但更多的人,还在手点。

不是不会,是还停留在“AI能帮写测试用例吗”这个讨论阶段。

做技术的应该能感受到——当大部分人还在讨论“能不能”的时候,第一批实践者已经跑出结果了。GitHub Copilot Workspace上线后,有一个数据值得关注:企业级代码库中AI生成的端到端测试用例通过率只有31%,剩下69%里有一半逻辑错误,一半直接崩CI/CD管道。AI生成代码不行,不是AI不行,而是用的人没把它当成一个工程问题在解决。

人的问题在于:需求来了,七八十页的文档,加一堆原型图。边界值一个个算,场景流慢慢梳理,XMind一个节点一个节点敲。一个需求快的一两小时,慢的大半天就没了。

这已经不是一个效率问题了,这是人的脑力和工作时间被低价值重复劳动消耗的典型症状。

二、变化的本质:不是写得更快,而是经验变得可复用
说到AI测试,很多人第一反应:AI能生成用例吗?能写脚本吗?能操作浏览器吗?

回答都能。但这个问题本身,指向的是错的。

真正该问的不是“AI能不能做某件事”,而是“我们怎么把测试这件事封装成AI可以执行的任务”。

今天AI测试领域正在发生一个根本性变化:从“AI写脚本”转向“Agent+MCP+Skills”智能体系统。过去做接口自动化,人读Swagger → 人分析场景 → 人写脚本 → 人执行 → 人看报错 → 人改代码 → 人回归。每一环都手动推。现在Agent模式下,AI可以规划、生成、执行、校验、修复、报告,串成一个完整闭环。

核心不在于模型自己会不会测试,而在于你有没有把测试能力工程化封装出来。

一个资深测试看到接口文档,脑子里会过这些:参数为空要测吗,状态码异常要测吗,鉴权失败要测吗,接口依赖关系怎么处理,前置数据从哪来。这些判断很值钱,但很难复用。新人学得慢,团队沉淀也难。Agent+MCP+Skills的价值,就是把经验拆成可调用、可组合、可复用的能力。

本质不是AI替代人,是显性路径替代隐性经验。

可以被截图传播的观点句:AI测试不是把需求丢给大模型,而是把测试流程拆成模型能理解、工具能执行、结果能验证的工程链路。

三、核心技术拆解:Skill不是提示词,是工作流
Skill,Claude在2025年10月推出的功能。很多人以为是又一个“AI新特性”,但其实是把提示词从“瞬态输入”变成了“复用资产”。

别用错位简化理解它。简单说,Skill就是在~/.claude/skills/目录下放一个Markdown文件,把常用提示词、工作流程、代码规范都写进去。需要的时候@skill一下就能调用。

手写提示词的痛点很明显。每次从文档复制粘贴,一天下来半小时没了。长对话到20轮,Claude Code会忘你最初提过什么。Skill一次性解决了这些:Git管理版本、团队仓库同步、对话再长也不会失效。

结构上,Skill采用“三层渐进式披露”。Claude启动时只预加载技能名称和描述,几乎不占上下文窗口。判断相关时再加载完整指令,必要时调脚本。所以Skill里塞再多内容,也不会撑爆上下文。

那Skill和MCP什么关系?MCP是协议,管AI怎么以统一方式调用外部工具和服务。Skill封装做事方法——教AI怎么处理特定任务。二者配合使用,不是二选一。

db0cd646-1dd0-4d1f-a44f-0991b443231c.png

一个测试用例生成Skill典型有五个模块:多模态理解、质量预审、测试设计方法叠加、记忆进化,以及输出格式化。按顺序执行,每一步的输出是下一步的输入。不是简单需求扔给LLM出用例。

这四个测试设计方法的核心顺序:

等价类划分:把输入分成有效和无效区间,不遗漏不重叠
边界值分析:上限、下限、临界点,精确计算,不是靠感觉“试试边界”
场景法:基本流、备选流、异常流,覆盖业务主干和每条分支
错误推测:高风险模块重点补特殊字符、极端值、并发场景
很多AI工具输出的用例,本质就是把需求复述一遍,加个“验证一下是否正确”。这不叫测试设计,叫翻译。

四、对照组:手撸用例 vs Skill生成的真实差距
一份中等复杂度的需求,人工写用例快的两小时,慢的大半天。Skill在3分钟内生成完整结构用例。

但速度不是核心差别。

真正的差别在于:一致性和覆盖面。

image.png

人工的问题不在能力,在一致性的失效。场景法里基本流、备选流、异常流,不是不知道,是赶工时容易漏。边界值上限下限临界点,不是不会算,是项目多了就懒得每个需求都从零算一遍。

Skill一旦写好,每次调用逻辑一致、覆盖维度固定,不会因为今天状态差而漏测。

像OpenTest这样的框架已经把全流程打透了:捕获登录态 → 解析需求文档 → 生成测试用例 → 执行测试 → 生成报告。在Cursor、Claude Code、OpenClaw上都能直接跑。

最值得关注的不是“AI能不能做”,而是“做出来的质量已经逼近甚至超过平均水平”。深圳一家厂商的AI测试产品,AI生成测试案例采纳率接近60%。过半数用例AI生成直接可用,测试设计的工作就从“从零设计”变成“审核+补充”。

可以被截图传播的观点句:测试设计不是翻译需求,而是构造有效验证。

五、工程落地:你的团队也能复制这套逻辑
如果你还在手点,代码层面上Skill门槛其实很低。聊几个实践落地的关键点。

上下文:比模型强不强重要得多。 很多人踩的坑是:找了个最新的大模型,API调上去,输出牛头不对马嘴。模型强不代表能理解你的业务。Skill把提示词标准化、把流程固定、把业务上下文作为参数传入,比换模型成本低得多,效果稳定得多。测试流程拆成模型能理解、工具能执行、结果能验证的工程链路,才是落地的正确姿势。

多模态:图片里读场景。 现实里的需求不总是规范的Word文档,有时是Figma截图、原型图,甚至业务流程图。Skill需要内置视觉理解协作者,直接识别图片中的用户流、页面跳转、数据流向。光靠文字需求生成用例,场景覆盖率会直接打折扣。

质量预审:用三层校验机制让用例一次成型。 最怕AI胡诌——提示词写得再仔细,模型也会在某些点上放飞。一个可行的做法是:生成用例集后,用质量预审模型自动扫描——输入逻辑自洽性、与需求文档的匹配度、场景完整性。经审核的最终输出,基本可以做到不依赖人工再修补就能进入正式用例库。

Skill第一个版本,先做你最熟悉的模块。 不必一上来就要覆盖全量。选个需求稳定、边界清晰的功能模块打样。调试Skill比调试普通提示词难一点,因为多层调用链路。但这正是工程能力的分水岭。Skill模板放团队仓库,Git管理版本,新人入职就知道“那边有我们团队封装好的测试用例生成Skill”,比手写任何培训文档都高效。

451bfb77-2983-477e-8833-f18bbb69fd1d.png

未来测试工程师的分水岭,不是会不会用AI,而是能不能把测试经验封装成可复用的工程能力。Skill本质上就是在干这件事。

六、下一站:测试工程师的核心竞争力在变
OpenClaw和Cursor、Copilot、Claude Code不是替代关系,是不同层级的工具。Copilot/Cursor:写代码的助手,AI辅助,人主导。Claude Code:理解和修改代码的助手,人驱动流程,AI执行。OpenClaw:任务执行型Agent,AI主导,人给目标。

这个分层正全面映射到测试领域。

Skill代表的不是“生成用例更快”,而是测试经验封装成可复用能力的工程范式。当你所在团队能把测试设计、脚本生成、执行校验、失败修复串成闭环,还能沉淀到Skill里被反复调用时,测试就不再是手工作坊了。

测试设计从隐性知识变成能配置、能复用、能持续迭代的工程资产。

这跟“AI会不会取代测试工作”没直接关系。真正的分水岭是:当团队在Skill里沉淀了100个测试场景包,当你所在的行业测试用例生成效率已经从“小时”进入“分钟”区间,你是依然在复制粘贴提示词的那个人,还是已经在设计下一版测试系统的Skill的那一个。

我很好奇的是:你现在的系统中,有没有一个可以沉淀测试经验、并且能被AI直接调用执行的反馈闭环?

相关文章
|
9天前
|
人工智能 JSON 搜索推荐
从0到1搭建测试专用Skills库:自动断言+数据构造+多模态识别
本文探讨AI时代测试范式的根本变革:生成式测试兴起,传统“断言=预期”失效。测试资产正从一次性用例升级为可组合、可复用的“Skill”(能力单元),涵盖自动断言、智能数据构造与多模态识别三类核心技术,并提供落地路径与行业实践参考。
|
7天前
|
机器学习/深度学习 人工智能 架构师
Skill技术正在吃掉传统自动化框架的最后一块领地
本文深度解析AI测试范式革命:传统自动化脚本正被“Skill”技术重构。Skill非代码而是可复用的测试方法论;Agent、MCP、Skill三层协同,实现从“写脚本”到“搭能力”的跃迁。Cursor、Money Forward、OpenClaw等案例印证:测试工程师正升级为AI时代的Skill架构师。
|
2月前
|
人工智能 搜索推荐 专有云
构建会思考的测试Agent:从自动化到自主智能的演进
本文介绍面向企业级软件测试的“质量数字人系统”,融合大语言模型(LLM)、多Agent协同架构与Skill Engine技能框架,实现从自动化测试到自主智能测试的跨越。核心能力包括:声明式技能引擎、双层自主意识(规则+目标驱动)、多渠道人机交互、智能任务推荐与预测试,以及以人设、知识库、履职规范、自主意识、技能集五位一体的数字人闭环体系。
构建会思考的测试Agent:从自动化到自主智能的演进
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
23270 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
2月前
|
人工智能 自然语言处理 JavaScript
从零开始构建你的第一个Claude Skill:手把手打造AI专属技能
本文手把手教你零基础打造专属Claude Skill:无需复杂后端,会Markdown或基础Python/JS即可。详解SKILL.md规范、大小写陷阱、角色设定、自动化脚本集成与实战调试技巧,助你把Claude从“健忘实习生”升级为精准执行的“领域特种兵”。
|
10天前
|
人工智能 自然语言处理 测试技术
Agent+MCP+Skills 重构自动化测试:从脚本生成到测试闭环
本文探讨AI驱动的测试范式变革:从单点脚本生成迈向“Agent+MCP+Skills”智能体系统,强调将测试经验工程化封装为可复用能力。核心在于重构全流程——规划、生成、执行、修复、沉淀,并依托知识库与工具链实现业务适配。未来测试工程师的核心竞争力,是设计智能化测试系统的能力。
|
10天前
|
机器学习/深度学习 人工智能 测试技术
为什么字节/阿里的AI测试团队都在招“Skill工程师”?
本文深度解析AI测试新范式——“Skill工程师”崛起背后的逻辑。从字节、阿里等大厂招聘JD剧变切入,揭示AI测试正从“验证功能”转向“验证能力”,核心是将领域经验封装为AI可调用、可复用、可进化的Skill。文章系统拆解其三大能力(MCP工程化、渐进式Skill封装、反馈闭环设计),对比三类测试角色差异,并结合Claude Code、Cursor、OpenClaw实战案例,给出三条落地建议。Skill工程师,实为AI时代的测试架构师。
|
29天前
|
人工智能 算法 测试技术
我做了个Skill,专门用来自动生成测试用例:一个测试Agent的诞生
本文揭秘测试设计新范式:AI智能体如何将人工写用例(耗时数小时)升级为3分钟生成高质量XMind用例。涵盖瓶颈分析、方法论结构化、五维核心机制(多模态理解、质量预审、记忆进化等)、实测对比及团队落地路径,预示测试工程师正从“手写者”蜕变为“智能体设计师”。
|
1天前
|
SQL 人工智能 安全
为什么你的AI Agent总输出垃圾?因为你没装“技能插件”
本文揭示AI Agent“做事乱”的根源:并非模型能力不足,而是缺乏可执行的技能插件(Skill)。文章指出,大模型缺的不是推理力,而是“怎么做”的上下文——如读文件、查数据库、调API等实操能力。通过MCP协议+工具函数,Skill将业务知识封装为即插即用的数字资产,让Agent从“纸上谈兵的参谋”升级为“自带工具箱的施工队”。
|
3天前
|
人工智能 自然语言处理 前端开发
不会开发AI Skill,你明天可能还在改自动化脚本
本文探讨AI时代测试自动化范式变革:从维护脆弱脚本转向构建“AI Skill”——以意图驱动、动态定位、自适应校验的智能测试单元。揭示脚本失效根因在于抽象层次过低,并指出2024年是测试工程师能力分水岭:定义Skill者驾驭AI,仅修脚本者将被替代。