从手工点点到AI自动生成用例,测试人的这个春天不太一样

简介: 本文讲述一位北京测试工程师在三月借助AI革新工作方式的真实经历:从用AI高效生成测试点、用例,到应对复杂业务逻辑,再到反思人机协作本质。他发现AI并未取代测试,而是将工程师从重复劳动中解放,转向更需判断力的设计与风险分析——这个春天,因工具变聪明而不同。

三月底的北京,杨絮刚开始飘。我坐在工位上,看着屏幕上刚刚跑完的测试报告,愣了几秒。

不是报告有问题,而是这报告来得太轻松了。

搁往年这个时候,版本迭代高峰期,我应该在干什么?打开Excel,对着需求文档一行行写用例;打开测试环境,一个页面一个页面点点点;打开Jira,一条一条提单。每天下班前看一眼当天的“战绩”:写了多少条用例,点了多少个页面,提了多少个bug。

但这个春天不太一样。我发现自己坐在工位上的时候,手没怎么动,脑子也没怎么累,但该干的活都干完了。

变化是从两周前开始的。那天产品扔过来一个需求文档,二十多页,一个新模块上线,按正常节奏,光测试设计就得两天。我看着文档发呆,突然冒出一个念头:能不能让AI帮我把用例先过一遍?

试了。然后,这个春天就变了。

一、第一周:让AI当我的“测试助理”
最开始的想法很简单——让AI帮我读文档。

我们做功能测试,最烦的就是看需求文档。不是不想看,是文档太长了。二十多页,密密麻麻的文字,有时候翻到后面已经忘了前面。更要命的是,文档里藏着一堆测试点,一不小心就漏了。

那天我试了个笨办法:把需求文档复制出来,分段扔给AI,然后问它:

“根据这段需求,能列出多少测试点?”

第一次试的是一个订单查询功能。文档里写:“用户可根据订单号、商品名称、下单时间范围查询历史订单,支持分页展示,每页默认20条,最多展示100页。”

AI返回的测试点:

正常场景:输入正确订单号,能查到对应订单
订单号为空:点击查询,应提示“请输入订单号或商品名称”
订单号不存在:查询结果为空,页面显示“暂无数据”
商品名称模糊查询:输入商品名称的一部分,应返回相关订单
时间范围:选择开始>结束,应有提示
分页边界:每页20条,第100页有数据,第101页无数据
……
我数了数,二十多个测试点。比我手动列的全,有些边界值我自己都没想到。

那天下午,我干了一件事:把接下来要测的三个功能的需求文档都喂给AI,让每个生成一份“测试点清单”。一下午的时间,平时要花一周的测试设计工作,干完了。

但问题也来了——这些测试点靠谱吗?

二、第一周的翻车:AI有时候会“编”
刚开始用的时候,我太信任AI了。它列的测试点,我基本照单全收,直接转成Excel就开始测试。

结果翻车了。

有个充值功能,AI列了一个测试点:“充值金额为负数时,系统应提示‘金额不能为负数’。”我一看,有道理啊,边界值嘛。跑到测试环境一试,发现根本不存在这个场景——前端输入框限制了只能输入数字,输不了负号。

还有一次,AI给一个权限管理模块列的测试点里,有一条“普通用户尝试访问管理员页面,应跳转403错误页”。但我查了一下权限设计文档,发现普通用户根本看不到管理员页面的入口,不存在“访问”这个行为。

这两次翻车让我明白一个道理:AI不知道你的系统长什么样。它能根据需求文档推测“理论上”的测试点,但不知道你的前端有没有做输入限制,不知道你的菜单权限是怎么配置的,不知道哪些异常场景在真实系统里根本不可能出现。

从那之后我学聪明了:AI列的测试点,我把它当成“初稿”和“提醒”,但最后过一遍脑子,结合自己对系统的了解,删掉那些不存在的,补充那些漏掉的。

这个配合方式,效率最高。

三、第二周:让AI帮我“生成用例”
测试点列完了,下一步是写具体的测试用例。就是那种“步骤1、步骤2、预期结果”的格式。

这活儿我以前最烦。一条条写,翻来覆去就那么几个套路,写多了手都酸。

第二周我开始试:能不能让AI直接把测试点转成测试用例?

比如第一个充值功能的测试点:“输入金额小于1元,应提示‘最低充值1元’”。

我给AI的提示是:

“把这个测试点写成标准测试用例,包括前置条件、测试步骤、预期结果,要写清楚具体怎么操作。”

AI生成的:

用例编号:TC_RECHARGE_002
用例标题:充值金额小于最低限额
前置条件:用户已登录,账户余额100元,充值页面已打开
测试步骤:

  1. 在充值金额输入框中输入“0.5”
  2. 点击“确认充值”按钮
    预期结果:页面提示“最低充值1元”,充值失败,账户余额不变
    比我手写的还规范。

后来我发现一个更好用的功能:批量生成。比如我有十几个测试点,全扔给AI,让它“按同样的格式,把这些都转成用例”。十几秒,十几条用例就出来了。

虽然每条都要看一眼确认,但比自己一条条敲快多了。

四、进阶玩法:让AI处理“复杂业务”
真正让我觉得这春天不一样的,是处理复杂业务的时候。

上周有个业务场景:优惠券叠加规则。规则文档写得跟天书似的,什么“同一订单可使用多张优惠券,但不可与满减活动共享,特殊商品除外,会员等级不同优惠不同……”

我看了两遍,脑子还是糊的。

后来我换了个思路,把规则文档拆成几段,喂给AI,然后问:

“假设你是测试人员,帮我设计这个优惠券叠加规则的测试用例,要覆盖正常场景、边界场景和异常场景。”

AI沉默了十几秒(可能是在思考),然后输出了一组用例,分类很清楚:

正常场景:

用户使用两张互斥券,下单时只能选择一张
用户使用两张可叠加券,下单时两张同时生效,优惠金额相加
边界场景:

订单金额刚好等于优惠券门槛,下单成功
订单金额比优惠券门槛少1分,无法使用该券
异常场景:

优惠券已过期,下单时不可选
优惠券适用范围与订单商品不符,下单时不可选
会员等级不满足优惠券使用条件,不可选
最后还加了一行总结:建议重点测试“互斥规则”和“门槛计算”,这两块最容易出bug。

我拿着这组用例去测,果然,互斥规则那块还真有个bug——两张本该互斥的券,居然能同时用。

那一刻我突然想:AI现在能干到这一步了?连测试策略都能给了?

五、关于“替代”的一点想法
这半个月的尝试,组里有人看在眼里。昨天午饭,一个刚入职的小姑娘问我:“哥,你说以后AI都能自己生成用例了,我们手工测试是不是就没活干了?”

我想了想,说:“你觉得我这半个月轻松了,是因为AI替我干了?”

她点头。

我说:“其实不是。AI替我干了写写画画的活儿,但真正让我轻松的是——我终于有时间去想那些以前没时间想的事了。”

以前我大部分时间耗在“怎么测”上:怎么把需求转成用例,怎么把用例写成文档,怎么把文档填进Excel。现在这部分AI帮我干了,我才有时间去想“测什么”:这个版本最核心的风险点在哪?哪些场景最容易出bug?用户真正在意的功能是哪些?

AI不会替代测试,但会用AI的测试会替代不会用AI的测试——这句话我这半个月才真正理解。

手工点点点不会消失,但它会变成测试工作中的一小部分。更多的精力,会放在测试设计、风险分析、用户体验这些更需要判断力的事情上。

六、给还在手工点点点的同学几个建议
如果你也想试试这条路,我踩过的坑可以帮你少走几步:

  1. 从最简单的开始

别一上来就让AI帮你设计全流程。先从单个功能点开始,让它帮你列几个测试点,看看效果,找找感觉。

  1. AI的产出要当“初稿”,别当“终稿”

它不知道你的系统长什么样,不知道你历史版本的坑在哪,不知道这次开发的代码质量如何。它列出来的,是你思考的起点,不是终点。

  1. 学会问问题

跟AI对话,不是下命令,是沟通。我试过几种问法:

“根据这段需求,列出测试点”(太宽泛,效果一般)
“从功能、界面、异常、边界几个角度,分析这个需求的测试点”(有框架,效果好)
“这个规则可能有哪些容易出bug的地方?”(让AI帮你思考风险点)
你问得越具体,它给得越有用。

  1. 保持判断力

AI说“这个字段必须测”,你可以听听。但如果你知道这个字段开发根本没改过,历史版本一直稳定,那优先级就可以往后放。最后拍板的,还得是你自己。

写在最后:这个春天,不太一样
今天下班的时候,我特意绕了个远路,从公司旁边的公园穿过去。

杨絮还在飘,桃花开了几棵。往年的这个时候,我应该是下班后累得不想动,窝在工位上刷手机回血。但这个春天,我居然有心情看看花。

不是活少了,是活变轻了。不是人懒了,是工具变聪明了。

前几天看到一篇文章,标题记不清了,但有句话记住了:测试的未来,不是点点点,是设计测试的人。

这个春天,AI替我干了点点的活儿,我终于可以开始想“设计”的事了。

也许这才是这个春天,最不一样的地方。

相关文章
|
11天前
|
人工智能 自然语言处理 测试技术
AI都能生成测试用例了会取代测试工程师吗?
2026年大模型普及下,生成测试用例已成基础能力。真正分水岭在于:是被动使用AI输出,还是构建工程化生成体系——涵盖需求结构化、状态建模、提示词设计与自动校验。测试工程师的核心价值正从“写用例”跃升为“设计生成系统”。
|
1月前
|
人工智能 自然语言处理 测试技术
Prompt Engineering 进阶:如何写出让 AI 自动生成高质量测试用例的提示词?
AI赋能测试用例设计,关键在结构化Prompt:需明确角色、业务、技术栈与约束,并融入等价类、状态图等测试方法论;要求表格化/代码化输出,辅以少样本示例和异常场景深挖。本质是将测试经验精准传递给AI。
|
2月前
|
人工智能 机器人 测试技术
当测试遇到 Gemini Agents:这可能是你今年最重要的效率革命
凌晨3点,别人熬夜写脚本,你用AI自动生成测试用例与脚本,效率提升数倍。Gemini Agents正重塑测试工作:智能生成用例、精准覆盖风险、秒级回归分析。掌握AI工具,从重复劳动中解放,专注高价值质量建设。未来已来,你准备好了吗?
|
21天前
|
人工智能 运维 自然语言处理
阿里云OpenClaw/Clawdbot企业级部署指南:6大核心技能+安全运维,打造全天候AI助理
在2026年AI Agent赛道中,OpenClaw(原Clawdbot/Moltbot)凭借“能落地执行”的核心优势脱颖而出——它并非简单的聊天机器人,而是可通过自然语言指令完成脚本编写、跨平台操作、文件处理的全能数字助理。阿里云针对零基础用户打造的一键部署方案,将复杂环境配置简化为20分钟流程,搭配ClawHub精选的7个核心技能,能让OpenClaw从基础对话工具升级为处理真实工作场景的智能助理,真正实现“雇佣一个不知疲倦的AI员工”。
436 25
|
1月前
|
人工智能 数据可视化 搜索推荐
AI智能体实战指南:6大工具构建你的自动化工作流引擎
本文介绍2024年六大AI智能体工具:测试自动化(Playwright/Appium)、代码生成(Cursor/OpenCode)、AI工作流(ClawdBot/Dify/n8n)、短视频创作(FFmpeg/MoviePy)等,助开发者构建端到端自动化工作流,释放创造力。
|
5月前
|
数据采集 存储 人工智能
从0到1:天猫AI测试用例生成的实践与突破
本文系统阐述了天猫技术团队在AI赋能测试领域的深度实践与探索,讲述了智能测试用例生成的落地路径。
从0到1:天猫AI测试用例生成的实践与突破
|
4月前
|
敏捷开发 Devops 测试技术
测试用例生成太慢?我们用RAG+大模型,实现了分钟级全覆盖
在敏捷与DevOps时代,测试用例生成常成瓶颈。传统方法效率低、覆盖差、维护难。本文提出RAG+大模型方案,通过检索企业知识库(PRD、API文档等)为大模型提供上下文,精准生成高质量用例。实现从“小时级”到“分钟级”的跨越,提升覆盖率与知识复用,助力测试智能化升级。
|
7天前
|
机器学习/深度学习 人工智能 算法
别再只学自动化了!从平安银行招聘看2026测试岗新标准:三层架构+AI落地经验才是硬通货
本文以平安银行AI测试岗招聘为切入点,解析当前市场对AI测试的真实需求:重“落地经验”而非概念,核心是“用AI做测试”。涵盖岗位职责(智能用例生成、缺陷预测、AI自动化、智能体测试)、技术栈(三层架构+Prompt工程+AI工具链)及务实学习路径,强调测试根基与AI应用并重。
|
5月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
24天前
|
存储 供应链 数据可视化
大模型应用:面向结构化表格的 RAG 实践:技术架构与特性解析.26
本文提出面向结构化表格的RAG新模式,突破传统RAG将表格转为纯文本导致语义丢失、多表融合低效、版本兼容性差等瓶颈。通过结构化解析、元数据增强、向量索引优化与精细化检索,实现行列语义保留、跨表关联查询及本地轻量化部署,显著提升财务、政务等场景下Excel/CSV数据的检索精度与问答质量。
139 11

热门文章

最新文章