基于Sikuli GUI图像识别框架的PC客户端自动化测试实践

简介: Sikuli是一款基于GUI图像识别框架的自动化测试工具,它以图像检索技术为基础,提供了一套基于 Jython 的脚本语言以及集成开发环境。使用者可利用屏幕截图直接 引用 GUI 元素进行编程,完成交互操作。Sikuli 一词取自墨西哥的土著语,意为“上帝之眼”,寓意—— Sikuli 让电脑能像人一样”看”这个”真实世 界”。

写在前面


最近两天,公司有个PC客户端的测试任务,除了最基础的功能测试外,还包括稳定性测试和兼容性测试需求。刚好去年接触过Sikuli这款基于GUI图像识别框架的自动化测试工具,于是便应用于测试工作中,辅助测试任务。初步试用下来,总体效果还算差强人意,也间接助我发现了一个致命级别的大bug(后续会介绍)。

一、GUI图像识别框架元祖:Sikuli

Sikuli 创始于 2009 年,是麻省理工学院用户界面设计小组的一个开源研究项目。2012 年由 RaiMan 接管开发和 支持并将其命名为 SikuliX。它以图像检索技术为基础,提供了一套基于 Jython 的脚本语言以及集成开发环境。使用者可利用屏幕截图直接 引用 GUI 元素进行编程,完成交互操作。Sikuli 一词取自墨西哥的土著语,意为“上帝之眼”,寓意—— Sikuli 让电脑能像人一样”看”这个”真实世 界”。官网:http://www.sikulix.com/

SikuliX支持作为脚本语言:

  • Python 语言级别 2.7(由Jython支持)
  • 支持运行RobotFramework文本脚本
  • Ruby 语言级别 1.9 和 2.0(由JRuby支持)
  • JavaScript(受 Java 脚本引擎支持)

SikuliX的常见用途:

  • 应用程序或网页的日常自动化任务
  • 玩游戏
  • IT系统和网络的管理

二、Sikuli运行原理

http://doc.sikuli.org/devs/system-design.html#sikuli-ide

三、Sikuli安装

Sikuli 支持跨平台运行,可以运行在Mac OS X、Windows 和 Linux 系统下。下载地址:https://launchpad.net/sikuli/+download或者官网:http://sikulix.com/

推荐安装x1.0-rc3(需要依赖JDK1.6版本)

四、Sikuli IDE主界面基本使用

Sikuli1.x版本官方文档:http://doc.sikuli.org/

  • 左侧为常用函数,包括查找、鼠标动作、键盘动作等
  • 点击元素的图片可以调节识别的偏移度、匹配的精度
  • sikuli脚本首次保存会提示并弹出保存路径,可自定义保存路径
  • 脚本也可以导出为exe格式的可执行文件
  • 一个脚本对应一个目录,目录中对应脚本中的图标截图、python脚本

五、Sikuli 脚本语法

Sikuli 的脚本编写遵循 Python 语法规范,其本身提供了多种自定义类及其自定义方法。由于 Sikuli 基于 Jython,其核心代码由 Java 编写,可在用户自定义的 Java 工程中将其作为 Java 标准类库进行

  • 定位APP窗口:myApp.window()
  • 聚焦到当前APP:myApp.focus()
  • 判断元素是否存在:exists()
  • 点击某个元素或图标:click()
  • 输入文本内容:type("hello world")
  • 按下键盘按键:type(Key.ENTER)  按键名要大写

六、Sikuli 应用示例

PC客户端的自动循环发送消息的脚本示例:

importtimeimportrandommyApp=App("yueyun-im")  # 声明APP实例ifnotmyApp.window():  # 判断当前是否处于APP窗口openApp("D:\\yueyun-im\\yueyun-im.exe")  # 如果不处于APP窗口,则打开指定位置EXEmyApp.focus()  # 聚焦于APPifexists("K7iX.png"):  # 判断图标是否存在click("K7iX.png")  # 点击指定图标按钮ifnotexists("1655945972853.png"):
click("1655946081065.png")
click("1655945972853.png")
#while 'p' in 'python': foriinrange(10):
type("TEST-SIKULI-MSG-"+str(i))
time.sleep(0.2)  # 休眠3秒#click("1655946081065.png")type(Key.ENTER)  # 按下键盘的ENTER键,按键名要大写type(Key.ENTER)
myApp.close()  # 关闭APP


七、Sikuli 优势及局限

1.优势

① 学习成本低,只需掌握简单的python语法就能快速上手;

② 无需关注元素有哪些属性,所见即所得;

③ 适合非标准控件等自定义界面的定位,如游戏界面;

④ 支持跨平台,如:Windows、Linux、macOS;

2.局限

① 基于图像识别,图片的大小、分辨率、色彩都会对识别造成影响,定位不能百分百准确地识别到元素;

② 只能定位当前正在操作的窗口界面;

③ 若流程过长,则会造成脚本过于臃肿;

④ 图片存在相似度,会对识别造成影响,需要手动一一调整图片的精度;

Sikuli 使用小结


  • 尽管sikuli用来实现复杂的测试场景不太现实,这也是所有GUI自动化测试无法改变的现实。但用来做一些特定场景的测试还是游刃有余,比如:

① 循环、持续发送消息,7*24h运行,以检测程序运行稳定性;

② 持续发送图片或视频文件,以检测程序连续上传、下载文件稳定性;

③ 在不同的PC系统版本上运行,以检测程序的兼容性;

  • 对于web自动化、APP自动化主要用该端特定的自动化框架,如selenium、appium,sikuli作为辅助、可以和selenium等结合使用;
  • 对于特定的、复杂的场景,如游戏界面、flash应用等难以识别到元素的应用界面,可以使用sikuli;
  • 今天在测试场景②的过程中也发现了一个bug:【当前聊天窗口,持续下载图片过程中,程序闪退】。虽然说这个bug是sikuli测出来的bug有些牵强(本身自动化测试也不是用来发现bug的),但sikuli绝对是出了很大一份力。只要能合理地利用,任何不起眼的工具都可以发挥它的价值!



相关文章
|
7月前
|
Java 测试技术 API
自动化测试工具集成及实践
自动化测试用例的覆盖度及关键点最佳实践、自动化测试工具、集成方法、自动化脚本编写等(兼容多语言(Java、Python、Go、C++、C#等)、多框架(Spring、React、Vue等))
636 6
|
人工智能 JavaScript 前端开发
自动化测试框架的演进与实践###
本文深入探讨了自动化测试框架从诞生至今的发展历程,重点分析了当前主流框架的优势与局限性,并结合实际案例,阐述了如何根据项目需求选择合适的自动化测试策略。文章还展望了未来自动化测试领域的技术趋势,为读者提供了宝贵的实践经验和前瞻性思考。 ###
360 11
|
敏捷开发 人工智能 Devops
探索自动化测试的高效策略与实践###
当今软件开发生命周期中,自动化测试已成为提升效率、保障质量的关键工具。本文深入剖析了自动化测试的核心价值,探讨了一系列高效策略,包括选择合适的自动化框架、设计可维护的测试脚本、集成持续集成/持续部署(CI/CD)流程,以及有效管理和维护测试用例库。通过具体案例分析,揭示了这些策略在实际应用中的成效,为软件测试人员提供了宝贵的经验分享和实践指导。 ###
|
Java 测试技术 持续交付
探索自动化测试在软件开发中的关键作用与实践
在现代软件开发流程中,自动化测试已成为提升产品质量、加速交付速度的不可或缺的一环。本文深入探讨了自动化测试的重要性,分析了其在不同阶段的应用价值,并结合实际案例阐述了如何有效实施自动化测试策略,以期为读者提供一套可操作的实践指南。
|
监控 jenkins 测试技术
自动化测试框架的构建与实践
【10月更文挑战第40天】在软件开发周期中,测试环节扮演着至关重要的角色。本文将引导你了解如何构建一个高效的自动化测试框架,并深入探讨其设计原则、实现方法及维护策略。通过实际代码示例和清晰的步骤说明,我们将一起探索如何确保软件质量,同时提升开发效率。
389 1
|
人工智能 自然语言处理 API
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。
3727 16
UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
631 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
人工智能 编解码 自然语言处理
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。
620 8
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
2280 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
人工智能 JSON 数据管理
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流,有效减少计算成本并提高训练效率。ShowUI在小规模高质量数据集上表现出色,展现出在GUI自动化领域的潜力。
539 4
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

热门文章

最新文章