会写脚本不值钱,会设计AI系统才值钱
今年3月,字节2026年春招,“测试开发工程师-开发者AI”岗位,硬性要求里多了一个词:对AI Agent有深入理解和实践经验。
阿里“通义实验室-技术专家-测试开发”岗位,要求熟练掌握机器学习算法原理。“这不是在招技术专家,这是在招能设计AI测试系统的人。”
更直观的是技能生态的密集爆发布局。2026年1月,腾讯、阿里、字节三家在七天内先后出手:字节把AI智能体平台“扣子”升级到2.0,推出Agent Skills功能;阿里发布“悟空”工作平台;腾讯上线SkillHub,汇聚超过28000个Skill。
很多人还没看懂这个变化。 有人觉得“不就是招会调API吗”,有人觉得“HR在堆砌技术词”,还有人压根没注意到——招聘门槛正在被重新定义。没跟上的人基本还在问“AI能不能帮我写用例”,而已经行动的人已经凭借Skill开发技能实现了薪资跃升。
这不是HR拍脑袋加的装饰,是整个AI测试工程化体系经历的一次底层逻辑重构。
很多一线技术人员已经开始感觉到——“写脚本”这个核心能力正在贬值,招聘岗位上的要求在变,团队的架构在变,竞争对手用到的工具也在变。你花三小时手动整理测试数据、调试脚本、反复执行回归流程,旁边的工程师可能已经教会AI替他把这些全干了。
目录
一、招聘JD变了,但很多人没看懂招聘JD变了 二、AI测试的本质:从“验证功能”到“验证能力” 三、核心机制拆解:Agent + MCP + Skills 到底怎么跑起来 四、典型案例 / 对比:Skill工程师 vs 传统测试工程师 五、工程落地启示:Skill开发如何帮你涨薪 六、趋势判断:Skill开发能力将成为工程人的“必选项”
一、招聘JD变了,但很多人没看懂招聘JD变了
过去半年,大厂AI测试团队的JD里,技术关键词正在集体转向:
“对AI Agent有深入理解和实践经验,如AIAgent、机器学习、自然语言处理等。” “熟悉MCP协议模型上下文协议者优先。” “有Skill封装和工程化落地能力。”
这些不是修饰词,而是硬性筛选条件。
2026年3月,信通院正式发布“软件测试智能体评估”标准,评估维度涵盖技术能力、工程能力,以及单元测试、接口测试、UI测试、功能测试、性能测试、兼容性测试、安全测试七大专业场景。2026年4月,上海交通大学联合腾讯发布GTA-2评测体系——当前最顶尖的AI模型在真实工作流场景下的任务完成率仅约14%。
行业正在用标准、考核、招聘要求,告诉所有人一件事:测试工程师的门槛正在被重新定义。 传统脚本技能正在从核心要求变成基础能力,新要求是设计AI智能体、封装业务能力、构建测试系统。
观点句1:AI测试的本质变了——从“验证功能”变成了“验证能力”。
可截图传播:AI测试的本质变了——从“验证功能”变成了“验证能力”。
二、AI测试的本质:从“验证功能”到“验证能力”
核心变化其实很直接:传统自动化脚本的有效期在缩短。 卓码测评2026年行业报告指出,传统自动化脚本的月均失效比例超过25%——每个月将近四分之一脚本因为UI变更、业务逻辑迭代而失效,需要人工返工维护。
这背后是大量隐性成本。脚本写出来容易,但环境一变、UI一调,脚本就废了, 改脚本的时间远超手测时间。高自动化覆盖率并没有带来相应的人工成本降低。
但问题不止于此。当软件开始引入大模型和Agent时,失效模式发生了根本变化:不再只是功能Bug,而是决策偏差、幻觉输出、权限越界。传统测试框架下,这些问题几乎不可见。
有人说,“AI来了,测试要失业了。”错。真正面对压力的,是那些只会“写断言脚本”的手动执行者。AI不能完全替代测试,但会重构测试工作的分布。
另一方面,很多团队在切入AI测试时,容易掉进一个坑:让大模型直接生成用例、写代码。结果是——生成的用例不稳定,脚本跑不起来,最后做出来的只是一个“问答玩具”。
真正能落地的方式,不是依赖模型本身,而是把领域经验封装成可调用、可组合、可进化的Skill。
可截图传播:AI测试不是把需求丢给大模型,而是把测试流程拆成模型能理解、工具能执行、结果能验证的工程链路。
三、核心机制拆解:Agent + MCP + Skills 到底怎么跑起来
一个可落地的测试智能体系统,通常不是一个大提示词解决所有问题。更合理的结构分三层:

各自的分工
Agent负责规划与调度。它不直接写代码,而是把“帮我测登录接口”这类高层的自然语言指令,拆解成步骤:获取接口文档→设计测试场景→调用Skill生成脚本→执行→分析结果→修复失败。关键原则是:能力抽象与执行标准化的边界要清晰。
Skills负责能力抽象。Skill本质上是领域知识在概念上的“封装”——把“怎么做代码审查”“怎么写测试用例”这些经验,变成AI可以直接理解和调用的能力单元。Skill不仅为AI提供“方法论说明书”,更能作为Agent的”能力库“持续沉淀。
MCP负责调用真实工具。MCP(模型上下文协议)是标准化的连接桥梁,让AI可以访问文件、调用数据库、执行命令行等。MCP让Agent突破了“只能文字回复”的界限,真正能够操作系统。
一句话说清三层关系:Skill封装“知道怎么做”,MCP让Agent“能动手做”,Agent负责把两者串联起来、把活儿干完。
接口自动化闭环流程
接口自动化是最成熟的落地方向。典型执行流程:
步骤① 输入与规划(Agent) :接收需求描述(例如“测试用户登录接口的所有异常场景”),Agent将任务拆解成明确测试步骤。
步骤② 知识检索(RAG) :智能体从知识库中检索API定义、历史测试数据、依赖关系信息。
步骤③ 生成与决策(Agent) :根据检索结果,Agent利用LLM理解能力自主规划测试组合,覆盖正向、边界、异常场景。关键点在于:规范的工具设计是质量保障的前提,而不是依赖模型一次生成正确代码的能力。
步骤④ Skill调用(执行能力) :规划完成后,Agent调用相应Skill执行实际操作:代码生成Skill(生成脚本)、执行Skill(运行测试)、修复Skill(处理错误)。
步骤⑤ 反馈闭环:执行结果进入系统,成功则写入报告,失败则进入修复模块。自动修复成功后,系统将修正方案沉淀回知识库,形成经验的持续积累。缺少闭环的智能体,用长了就会变成无法持续优化的死系统。
复杂依赖如何被结构化解决
接口自动化的真正难点是依赖。例如:登录→获取Token→创建订单→依赖商品ID→支付→依赖订单状态。没有结构化依赖支撑,Agent生成的就只能是孤立脚本。解决办法是构建接口知识库 + 接口依赖图谱,让图谱参与推理,而不仅仅是存储。
观点句3:真正拉开差距的不是生成能力,而是测试体系是否已经被重新组织。
可截图传播:真正拉开差距的不是生成能力,而是测试体系是否已经被重新组织。
四、典型案例 / 对比:Skill工程师 vs 传统测试工程师
不同岗位的职责差异正在快速重塑:

Skill工程师的核心区别在于能力复用和闭环:传统测试的经验在个人脑子里,换个人就没了;Skill工程师把经验封装成系统可复用的Skill,持续沉淀成团队的资产。AI测试工程师可能帮一个人提效,Skill工程师构建的是一套让整个团队测试流程自动运转的系统。这也是为什么大厂在抢这类人才——一个人能直接撬动整个测试体系的效率。
五、工程落地启示:Skill开发如何帮你涨薪
- 实践路径:从三个切口开始
切口一:从接口测试入手。 接口场景相对规范、输入输出可预测,最适合作Skill封装的第一批案例。
切口二:构建本地闭环小系统。 用开源框架(OpenClaw、Microsoft Agent Framework)在本地搭建测试流程——从需求→规划→生成→执行→分析→修复→沉淀,跑通一个小闭环。OpenClaw是开源的个人AI助手框架,可连接WhatsApp、Telegram等渠道。
切口三:构建依赖知识图谱。 把接口依赖关系结构化存储,为上层调用提供依赖解析。
关键能力升级
从工具使用者升级为流程设计者。 不再满足于“用Selenium写脚本”,而是设计整个测试智能体的调度流程。从“写代码”升级为“设计能力”。 不再问“AI能不能帮我写脚本”,而是问“这个测试经验能不能封装成Skill,让AI自己调用”。从“关注执行”升级为“关注反馈闭环”。 设计智能体系统时,必须有明确的反馈闭环环路。建立四大核心指标
没有指标,只有演示,智能体就不可衡量。建议建立四个核心指标:
用例采纳率:AI生成后人工无需修改即可执行的比例
自动修复成功率:首次执行失败后自动修复成功的比例
回归稳定率:同一测试用例多次执行的一致性
上下文命中率:依赖解析的正确率
- 工程落地的三条实战建议
第一,从单点自动化转向全流程闭环。 不能只看“生成脚本”这一步,要把规划→生成→执行→修复→沉淀串起来。
第二,渐进式封装Skill,不要一开始就追求完美。 先从最熟练的测试动作开始封装一个Skill,跑通后再迭代。
第三,设计反馈闭环,让系统自己进化。 每次失败修复后的经验一定要沉淀回知识库,形成闭环。
2026年决胜关键——宁停勿错,不可控不如不动量力而行。宁可让Agent在某个步骤停下来询问人类,也不要让它在错误路径上跑太远。
六、趋势判断:Skill开发能力将成为工程人的“必选项”
2026年,AI应用已从对话问答进入Agent爆发元年——传统大模型是“博学的智者”,智能体是“配备手脚的执行者”。
2026年以来,AI Agent领域五家头部机构同时推出不同形态的智能体产品,标志着从实验室走向规模化应用。Skill正在从一个可选项变成生产环境的必需品。企业的底层关注点转向:这套AI测试系统能不能真正解决业务问题?能不能稳定运行?能不能沉淀知识?
因此,测试工程师的成长路径将发生结构性变化,从单一的“写脚本”发展为:
执行层 → 设计层 → 架构层
执行层(初级) :会写脚本、会跑自动化。这部分工作正在被AI大量替代。
设计层(中级) :会设计测试策略、能编写高质量Prompt、能构建规范测试体系。
架构层(高级) :会封装Skill、懂MCP和Agent协作逻辑、能设计整个智能体系统,推动测试流程的整体闭环和持续优化。
未来的测试岗位,拼的将是谁更善于设计智能化测试系统。AI不是来取代工程师的,而是让工程师把精力从“重复执行”转向“系统设计”。不会Skill开发的人,会被会用Skill的人取代。
最后,问一个问题:
你现在的测试体系,具备“反馈闭环”吗——每一次bug修复、每一次业务变更,经验有没有沉淀成可以被AI调用的能力?
如果没有,从现在开始,考虑把Skill开发加入你的学习计划,把它变成你的核心竞争壁垒。