淘系产业级移动应用智能测试最新方案MonkeyBot公开!测试效能提升3倍以上

简介: 淘系产业级移动应用智能测试最新方案MonkeyBot公开!测试效能提升3倍以上

作者|居反

111.gif

产业级移动应用测试面临操作系统碎片化人工测试负担过重、功能复杂场景繁多、自动化测试探索效率低效的问题。淘系技术质量团队与北京大学讲席教授谢涛老师团队合作,在业界提出了首个基于计算机视觉(和多模态强化学习)的自动化视觉测试框架Monkeybot,解决了遍历测试效率低下,自动测试工具难以跨平台使用的问题,为移动应用测试提供了通用高效的解决方案。并于21年9月底在QECon全球软件质量效能大会上对行业公开了这一技术方案。随后,在10月份云栖大会上谢涛教授对MonkeyBot落地效果进行了分享展示。

1.jpg

Monkeybot在阿里巴巴集团包括淘宝、千牛等在内的十余个大型产业移动应用上落地部署,服务于他们的日常测试和质量保障,特别是双十一等重要场景的质量保障和测试工作中,并通过软件绿色联盟向全行业提供用户体验测试,智能探索测试,智能验证等服务。已在Android、iOS、鸿蒙等操作系统落地实践,推动测试效能提升3倍以上。

接下来一起看下我们是如何来实现的吧。

研究背景

手淘拥有十亿级用户,产品快速迭代和功能复杂多样化给质量保障工作带来巨大挑战,面临功能测试回归成本高、易漏测等问题,迫切需要一个高效智能的自动化测试方案来保障软件质量。
 解决复杂交叉场景易漏测问题

随着淘宝业务的扩大,当前手淘不仅具有购物下单的功能,还有很多其他的业务功能,比如有消息聊天、直播、逛逛、互动游戏等。不同的业务都是划分在不同的团队负责,因此各业务的上线和回归都是相对比较独立的。但是,从用户角度很难区分每个业务的边界,用户使用产品过程一定是一个多场景组合的情况,比如用户买东西的时候想跟商家沟通一下尺寸号码的问题,用户大概率会从商品详情页找到客服,然后进到聊天页面发消息;结果商家没有及时回复,下次可能会从消息tab找到会话去聊天,然后逛着逛着商家回复了又可以从新消息弹框点进去聊,聊完了可能还要返回继续逛,逛着逛着又想起一些事情要跟商家交代,于是从快捷入口进到消息再找到会话聊天。一个简单且常用的聊天功能,用户可能会有很多路径去完成,过程中也会涉及到很多消息之外的业务,对于测试同学很难全面覆盖组合场景验证,也就容易出现交叉场景漏测导致线上问题发生。

2.jpg

 解决快速迭代回归成本高问题

手淘客户端每次迭代发布各个业务都需要进行回归验证,每个月手淘至少一次正式版本发布,大概每周都有一次灰度发布,对于每一次发布都要进行至少两轮回归,每次回归至少覆盖安卓和iOS两个系统,保守计算每个月至少要做16次功能回归,每次回归都需要大量的人力成本。

为了降低回归成本,UI自动化测试广受大家喜爱,Selenium、appium、Airtest、RXT等工具陆续出现,通过维护自动化脚本来实现测试自动化,也取得了不错效果。但是随着产品快速迭代,维护自动化测试脚本仍然需要很大的人力成本和时间成本。

为了更好地为测试提效,让机器尽可能以接近用户的视角来自动执行测试流程,尽可能多地覆盖不同业务场景,受遍历测试和Monkey测试的一些启发,我们尝试让机器在给定app内自主探索,结合智能的探索策略,具备类人测试能力,实现全流程无人参与的自动化测试。
思路分析

为了让机器具备类人测试能力,我们制定了以下几个目标:首先,在执行层面我们希望一套测试工具支持多系统多平台验证;其次,测试工具需要摆脱对测试脚本依赖,具有主动理解业务的能力;最后,在理解业务的基础之上能智能做出决策执行操作,有效覆盖更多用户操作路径。

显然,这些目标是很难实现的。但是,我们仍然要在这布满荆棘的道路上摸索前行!

通过长时间的技术调研和尝试,我们找到了如下图所示的一套解决方案。第一,基于纯视觉的UI分析,不再依赖系统信息完成分析,更好的适配不同系统;第二,通过图像特征、文本信息和UI的结构等信息来对UI状态进行建模获取图文多模态信息,然后对于图片进行不同层次多粒度状态抽象,更好地理解图像业务含义;第三,引入强化学习探索策略,结合探索历史和智能探索策略,实现更有效地路径覆盖。

相关文章
|
6天前
|
人工智能 自然语言处理 JavaScript
利用MCP Server革新软件测试:更智能、更高效的自动化
MCP Server革新软件测试:通过标准化协议让AI实时感知页面结构,实现自然语言驱动、自适应维护的自动化测试,大幅提升效率,降低脚本开发与维护成本,推动测试左移与持续测试落地。
|
1月前
|
人工智能 自然语言处理 测试技术
AI测试平台的用例管理实践:写得清晰,管得高效,执行更智能
在测试过程中,用例分散、步骤模糊、回归测试效率低等问题常困扰团队。霍格沃兹测试开发学社推出的AI测试平台,打通“用例编写—集中管理—智能执行”全流程,提升测试效率与覆盖率。平台支持标准化用例编写、统一管理操作及智能执行,助力测试团队高效协作,释放更多精力优化测试策略。目前平台已开放内测,欢迎试用体验!
|
3月前
|
JavaScript 前端开发 测试技术
Playwright自动化测试系列课(4) | 异步加载克星:自动等待 vs 智能等待策略深度解析​
本文深度解析Playwright自动化测试中的等待策略,对比自动等待(零配置防御机制)与智能等待(精准控制异步场景)的核心差异。通过实战案例讲解等待机制的选择标准、常见失效原因及调试技巧,帮助开发者有效解决页面异步加载问题,提升测试脚本的稳定性和执行效率。
|
3月前
|
人工智能 物联网 测试技术
智能化测试基础架构:软件质量保障的新纪元
本文介绍了智能化测试基础架构的核心构成与优势。该架构融合AI、领域工程与自动化技术,包含智能测试平台、测试智能体、赋能引擎和自动化工具链四部分,能自动生成用例、调度执行、分析结果,显著提升测试效率与覆盖率。其核心优势在于实现专家经验规模化、质量前移和快速适应业务变化,助力企业构建新一代质量保障体系。建议从构建知识图谱和试点关键领域智能体起步,逐步推进测试智能化转型。
|
9月前
|
数据可视化 前端开发 测试技术
接口测试新选择:Postman替代方案全解析
在软件开发中,接口测试工具至关重要。Postman长期占据主导地位,但随着国产工具的崛起,越来越多开发者转向更适合中国市场的替代方案——Apifox。它不仅支持中英文切换、完全免费不限人数,还具备强大的可视化操作、自动生成文档和API调试功能,极大简化了开发流程。
|
4月前
|
自然语言处理 算法 数据可视化
文本聚类效果差?5种主流算法性能测试帮你找到最佳方案
本文探讨了自然语言处理中句子嵌入的聚类技术,使用Billingsmoore数据集(925个英语句子)进行实验。通过生成句子嵌入向量并可视化分析,对比了K-Means、DBSCAN、HDBSCAN、凝聚型层次聚类和谱聚类等算法的表现。结果表明,K-Means适合已知聚类数量的场景,DBSCAN和HDBSCAN适用于未知聚类数量且存在异常值的情况,而谱聚类在句子嵌入领域表现不佳。最终建议根据数据特征和计算资源选择合适的算法以实现高质量聚类。
190 0
文本聚类效果差?5种主流算法性能测试帮你找到最佳方案
|
6月前
|
人工智能 自然语言处理 JavaScript
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。
779 15
测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!
|
10月前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
312 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
10月前
|
JSON API 数据格式
淘系等商品评论Json数据格式参考,API接口测试
通过以上示例和说明,你可以了解淘系商品评论的JSON数据结构和如何使用相关API接口获取评论数据。在实际操作中,你需要参考具体的API接口文档和开放平台的相关说明进行配置和调用。
|
10月前
|
监控 测试技术 定位技术
HTTP代理IP响应速度测试方案设计与指标体系
随着数字化发展,网络安全、隐私保护及内容访问自由成为核心需求。HTTP代理因其技术优势成为热门选择。本文介绍HTTP代理IP响应速度测试方案,包括基础性能、稳定性、地理位置、实际应用、安全性测试及监控指标,推荐测试工具,并提供测试结果评估标准。
207 2