今年3月,腾讯发布了《2026年AI人才报告》,里面提到一个数字:AI辅助编程工具使通用型开发任务效率提升约50%。
这个数字在测试圈的讨论群里炸了。
不是因为50%有多吓人。而是因为测试本身就是一道“执行质量”的防线——如果连执行者都在被加速,这道防线还能守多久?
更让人不安的还在后面。信通院的数据显示,2026年已有70%的企业测试用例由AI生成。Claude Code和Codex已经具备自主生成代码、自动修复、连续迭代的能力。Tricentis发布的《2026 Quality Transformation Report》指出,全球高达60%的组织将未经测试的代码部署到生产环境中。
开发效率翻了倍,测试窗口从两周压缩到三天。代码量暴增,验证时间却在缩减。
这不是某个工具的问题。这是整个工程模式在变。
很多人已经开始感觉到:测试的执行层,正在被快速压缩。用例自动生成了,脚本自动写了,连bug定位都能靠模型推理了。
那我们还剩下什么?
这个问题,最近被反复提起。
目录
一、AI编程工具正在“吃掉”执行层
二、本质变化:从“写代码”到“教AI做事”
三、核心机制:Skill到底是什么
四、8个典型场景:什么项目最适合用Skill
五、工程落地:别踩这3个坑
六、最后一个问题
一、AI编程工具正在“吃掉”执行层
先看一组数据。
SWE-bench Verified榜单上,顶级AI编程工具解决真实GitHub问题的比例,已从2023年的48.5%跃升至78.8%。这意味着AI独立完成真实开发任务的能力,两年翻了近一倍。
工具层面的竞争同样激烈。Claude Code以77.4%的SWE-bench得分领跑。Cursor约76.8%紧随其后。最值得关注的是Claude Code的Computer Use功能——AI可以自己启动应用、复现bug、修复代码、验证结果,全程不离终端。
一个指令下去,AI自己跑完了“启动应用→复现bug→修复→测试”的完整闭环。
这对测试行业意味着三件事正在发生:
测试用例生成。以前需要人工分析需求、设计边界、整理用例。现在AI可以基于需求直接生成完整测试集。
自动化脚本编写。以前需要写代码、调试框架、处理兼容性。现在AI可以直接生成可运行脚本,并自动修复报错。
Bug定位。以前需要反复复现、查日志、定位原因。现在AI可以分析调用链、日志、上下文,快速定位问题。
结论很直接:测试的执行层,正在被快速压缩。
但这不是最可怕的。最可怕的是——AI生成的代码看起来没问题。它能编译通过,能跑通常规流程,可一旦遇到异常场景、并发竞争、数据一致性问题,就极有可能暴露出深层缺陷。而这些缺陷在代码审查阶段很容易被忽略,因为人类开发者倾向于相信AI给出的整洁代码。
速度上去了,质量谁来兜底?
二、本质变化:从“写代码”到“教AI做事”
行业变化的本质,是研发流程的范式转移。
腾讯云将企业AI Coding实践分为三个阶段:

2026年,我们正在从第一阶段向第二阶段过渡。
这个转变的核心变化是能力重心的迁移。
过去的能力重心是:掌握语言、框架、工具链,能写出可运行的代码。
新的能力重心是:理解业务流程、抽象问题、设计规则体系、判断AI产出质量、构建可复用的能力封装。
更直白地说:当AI能写完整个项目时,决定输出去留的仍然是人的判断力。
测试工程师的核心价值正在从“写用例”跃升为“设计生成系统”。区别在于:前者关注“怎么做”,后者关注“为什么这么做”和“怎么保证一直做对”。
可被截图传播的观点句①:测试的执行层正在被快速压缩,但决策层正在被放大。
三、核心机制:Skill到底是什么
理解了“为什么变”,我们再来看“用什么变”。
Skill是Anthropic在2025年10月推出的功能,本质上是包含指令、脚本和资源的文件夹,Claude模型在需要时加载这些资源来完成特定任务。
它与传统提示词工程的区别在于三个关键词:自动调用、渐进式加载、可执行代码支持。
通俗来讲,Agent Skills是专门为大模型准备的可复用能力包。过去给模型下任务,往往要一次性提供完整背景。有了Skills,可以把某个领域的知识提前整理好,打包成一个“技能”,模型用到时再按需读取。
简单理解:给AI配一本随用随查的操作手册。
核心机制是“渐进式披露”(Progressive Disclosure):

第一层:元数据层——始终加载。只加载技能名称和描述,模型据此判断是否匹配当前任务。
第二层:指令层——按需加载。匹配成功后,才读取SKILL.md中的操作指南。就算装了100个技能,对话开始时也不会撑爆上下文。
第三层:资源层——深度加载。包含参考文档和执行脚本。
这套机制解决了一个核心问题:把资深工程师的经验沉淀下来,变成可复用、可传递的能力。
可被截图传播的观点句②:Skill的本质不是让AI更聪明,是把人的经验变成AI可执行的资产。
四、8个典型场景:什么项目最适合用Skill
不是所有测试工作都适合用Skill。以下8个场景是我在实际项目中验证过的,具备“流程长、信息多、重复性强、依赖上下文”的共同特征。
场景1:测试用例生成
适合需求文档标准化程度高的项目。输入需求文档,Skill自动输出覆盖等价类、边界值、异常流的初版用例。人工仅需补充特有业务规则。
某电商项目,输入标准化需求文档,AI在30秒内输出初版用例,人工补充“满减叠加逻辑”等特有规则后直接评审。
本质是把测试设计方法论(等价类、边界值、场景法)拆解为标准化工作流。
场景2:自动化脚本生成
适合UI稳定、交互模式固定的项目。自然语言描述测试意图,Skill自动生成符合PageObject规范、带完整断言的Playwright脚本。
Webapp Testing Skill是Anthropic官方推出的工具,你只需要告诉AI“测试登录功能”或者“验证表单提交流程”,它就能自动完成测试。
本质是把脚本编写经验封装成可复用模板。
场景3:Bug定位与日志诊断
适合日志规范、调用链清晰的项目。Skill结合MCP协议连接日志平台,自动完成“查日志→找关键信息→扫描代码→定位问题”的完整闭环。
得物技术的/log-diagnosis Skill就是典型实践。
本质是把排查经验转化成可执行的诊断流程。
场景4:接口测试编排
适合业务流程固定、接口依赖复杂的项目。把“登录”“下单”“支付”每个步骤变成独立的Skill,AI根据一句话自动编排执行顺序和传参。
本质是把接口串联逻辑从代码硬编码变成可配置的工作流。
场景5:测试数据构造
适合对数据合法性要求高的项目。Agent根据字段描述生成候选数据,调用数据校验Skill检查合法性(手机号格式、身份证校验位、业务关联约束)。
本质是把数据生成逻辑和校验规则分离,实现生成-校验闭环。
场景6:回归测试用例选择
适合变更频繁、回归集庞大的项目。代码变更后,Skill根据变更影响范围自动推荐需要执行的回归测试用例,并生成优先级排序。
本质是把回归策略从“全量执行”变成“精准打击” 。
场景7:代码审查与质量检查
适合多人协作、代码规范要求高的项目。Skill在PR阶段自动审查代码,检查规范符合度、潜在风险、测试覆盖。
本质是把Reviewer的经验固化成可自动执行的检查清单。
场景8:测试报告生成
适合需要定期输出质量报告的项目。Skill自动汇总测试执行数据、缺陷趋势、覆盖率变化,生成结构化报告。
本质是把数据汇总和分析逻辑从人工整理变成自动化流水线。
一个核心判断:什么项目不适合Skill?
需求一天三变、UI频繁重构、业务逻辑没有文档的项目,不适合直接用Skill。Skill的前提是流程可定义、规则可沉淀、经验可复用。如果连你自己都说不清“怎么测”,那谁也帮不了你。
五、工程落地:别踩这3个坑
坑1:把Skill当提示词用
很多人拿到Skill,第一反应是“这不就是个高级提示词吗”。
这是最大的误解。
提示词是一次性的。每次对话都要重新输入、重新调整、重新验证。Skill是可复用的。一次定义,反复调用,版本可控。
更关键的区别在于执行能力。提示词只能生成文本。Skill可以调用脚本、连接MCP、操作外部系统。Claude Code接入MCP后,可以调用GitHub、数据库、浏览器、API,甚至企业内部平台。AI不只是会回答,它开始能调用工具、进入工程链路、执行任务。
本质区别:提示词是“告诉AI怎么做”,Skill是“让AI自己会做”。
坑2:Skill之间没有治理
裸调Skill和工程化Skill的区别,就像临时脚本和CI/CD流水线的区别。
裸调方式:人写提示词,AI出脚本,人复制粘贴到框架里。快是快,但每一轮对话都是独立的,没有版本约束,没有上下文锁定,出问题只能从聊天记录里翻证据。
工程化方式:把Skill当成流水线里的一个“生成步骤”。有固定的输入源、参数化模板、审批节点、质量阈值,跑完自动进入下一环节。
可被截图传播的观点句③:Skill是大脑,流水线是让大脑可靠行动的脊椎。
坑3:Skill不迭代
Skill不是一次性资产。需要像代码一样有版本、有测试、有迭代。
一个可验证的Skill应该包含评估用例,定期跑评估验证效果是否退化。当业务规则变化时,Skill需要同步更新。当发现新的缺陷模式时,Skill需要补充规则。
六、最后一个问题
两个月前,我帮一个团队做Skill落地咨询。他们测试负责人问了我一个问题,我觉得比任何技术问题都值得思考:
“如果有一天,AI能自动生成所有测试用例、自动执行所有测试脚本、自动定位所有Bug,那测试工程师的价值到底在哪里?”
我的回答是:当AI能做完所有执行层面的工作,测试工程师唯一剩下的、也是唯一不可替代的价值,就是定义“什么是对的”。
定义测试策略、设计验证体系、判断AI产出质量、构建可复用的能力资产——这些才是未来测试工程师真正的核心竞争力。
测试正在从执行者,变成质量决策者。
最后一个问题给你:
你现在的测试体系里,有多少工作是可以被Skill接管的?你准备从哪个场景开始?