用docker搭建selenium grid分布式环境实践之路

简介:

用docker搭建selenium grid分布式环境实践之路
最近需要测试zoom视频会议,同时模拟100个人加入会议。经过了解,zoom提供了直接通过url链接加入会议的方式(只能通过chrome浏览器或者FireFox浏览器,因为用的协议是webrtc)。

顺着这个思路考虑可以通过Selenium自动化,同时启动多个浏览器进程,每个进程代表一个视频会议用户,达到模拟多方会议的效果。不过有以下两个难点:

需要多个chrome浏览器进程同时存活,在电脑上启动一个chrome浏览器进程差不多要消耗220M左右。
视频会议的音频和视频源的问题。
针对视频会议的音频和视频源的问题,chrome浏览器有比较好的支持,在Selenium脚本中初始化Chrome浏览器的参数中,只需要加入如下配置:

chrome_options.add_argument("--use-fake-ui-for-media-stream")
chrome_options.add_argument("--use-fake-device-for-media-stream")
就能在加入视频会议之后,使用虚拟的视频和音频。不过有个问题需要考虑,这个虚拟视频和真实的视频会议中的视频质量看上去是有差距的,会不会对测试结果造成影响,我们这里暂时不讨论这个话题。

现在唯一比较头疼的是怎么实现100个chrome浏览器进程,可能你会觉得,这不就是资源问题吗?加服务器不就搞定了?!但是假如有了服务器资源之后,怎么做任务调度呢?好在有Selenium Grid,它是Selenium的三大组件,专门用来执行分布式测试。

于是基于Selenium Grid设计了个测试方案:

将某台服务器作为Hub,也就是master
将剩下的机器作为node,注册到hub机器。
本地采用多进程执行Selenium自动化脚本(我使用python语言实现的)。
按照上面的设计思路,理论上是能够模拟出100人同时加入会议的。接下来我们就正式开始用docker搭建Selenium Grid分布式环境的探索之路。

selenium jar包直接启动节点
其实,最开始我是直接使用jar包启动节点的,起几个节点还能接受,但是节点多了之后会特别麻烦,比如:想重启下节点,则需要手动全部kill掉,然后再一个个启动。

只要是手动重复的工作,就能脚本化。于是我写了两个shell脚本,一个脚本是根据传参启动对应数量的节点;另一个脚本是将所有的节点进程全部kill掉。主要脚本如下图所示:

虽然用脚本也能轻松的执行,但还是不方便。首先启动节点后,会增加好多java进程,并且没办法查看单个节点的日志,因为所有节点的日志都同时在控制台打印。于是考虑用docker来管理Selenium grid节点。

用docker命令直接启动
在github上有现成的镜像: https://github.com/SeleniumHQ/docker-selenium 。然后说明文档中也列出了所有可用的镜像名称,因为我主要使用chrome浏览器,所有安装了: selenium/hub 、 selenium/node-chrome、 selenium/node-chrome-debug 三个镜像,其中selenium/node-chrome-debug镜像会启动一个VNC Server,在脚本执行过程中,本地可以连上VNC Server,通过界面查看服务器的脚本执行情况。 使用命令:

$ docker pull selenium/hub
$ docker pull selenium/node-chrome
$ docker pull selenium/node-chrome-debug
启动hub的命令如下:

$ docker run -d -p 4444:4444 -e GRID_MAX_SESSION=100 --name hub selenium/hub
启动本地节点(hub和node在一台机器上)的命令如下:

$ docker run -d -p 5555:5555 -e NODE_MAX_INSTANCES=5 -e NODE_MAX_SESSION=5 --shm-size=2g --link hub:hub --name node1 selenium/node-chrome
启动远端节点(hub和node不在一台机器上)的命令如下:

$ docker run -d -p port:5555 -e HUB_HOST=remote_ip -e HUB_PORT=remote_port -e REMOTE_HOST=http://ip:port -e NODE_MAX_INSTANCES=5 -e NODE_MAX_SESSION=5 --shm-size=2g --name node1 selenium/node-chrome
这里需要注意,网上很多教程提供的启动命令都是hub和node在一台机器上,假如需要hub和node在不同的机器上,按照网上的教程,虽然启动不会报错,但是节点和hub之间的网络是不通的。

不过直接使用docker命令虽然可以单独查看单个节点的日志,但是却和使用jar包的方式面对一样的问题:启动多个节点,非常不方便,需要手动执行多次命令。有没有更好的方案呢?当然有,可以使用docker-compose对docker容器进行整合。

docker-compose 启动
docker compose是docker的一个命令行工具,用来定义和运行多个容器组成的应用。相当于我们可以将多个docker命令放到一个文件里,然后由docker-compose一键执行。

同样的,也需要分两种情况:

Hub和node在一台机器上
可以使用如下的配置文件docker-compose.yml

version: "3"
services:
selenium-hub:

image: selenium/hub
container_name: selenium-hub
ports:
  - "4444:4444"
environment:
  - GRID_MAX_SESSION=50
  - GRID_TIMEOUT=900
  - START_XVFB=false

chrome:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
depends_on:
  - selenium-hub
environment:
  - HUB_HOST=selenium-hub
  - HUB_PORT=4444
  - NODE_MAX_INSTANCES=5
  - NODE_MAX_SESSION=5

然后在控制台执行命令:

$ docker-compose up -d //-d表示在后台运行
如果想同时启动多个节点该怎么办呢?非常简单:

$ docker-compose up -d --scale chrome=num //num是要启动节点的数量
如果想关闭节点,可以执行如下命令:

$ docker-compose down
Hub和node不在一台机器上
可以使用如下配置文件docker-compose.yml

version: "3"
services:
# selenium-chrome-1
selenium-chrome-node-1:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
ports:
  - "5556:5555"
restart: always
stdin_open: true
environment:
  HUB_HOST: hub_ip
  HUB_PORT: 4444
  NODE_MAX_INSTANCES: 5
  NODE_MAX_SESSION: 5
  REMOTE_HOST: http://节点ip:5556
  GRID_TIMEOUT: 60000
shm_size: "2gb"

# selenium-chrome-2
selenium-chrome-node-2:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
ports:
  - "5555:5555"
restart: always
stdin_open: true
container_name: node1
environment:
  HUB_HOST: hub_ip
  HUB_PORT: 4444
  NODE_MAX_INSTANCES: 5
  NODE_MAX_SESSION: 5
  REMOTE_HOST: http://节点ip:5555
  GRID_TIMEOUT: 60000
shm_size: "2gb"

# selenium-chrome-3
selenium-chrome-node-3:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
ports:
  - "5557:5555"
restart: always
stdin_open: true
environment:
  HUB_HOST: hub_ip
  HUB_PORT: 4444
  NODE_MAX_INSTANCES: 5
  NODE_MAX_SESSION: 5
  REMOTE_HOST: http://节点ip:5557
  GRID_TIMEOUT: 60000
shm_size: "2gb"

# selenium-chrome-4
selenium-chrome-node-4:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
ports:
  - "5558:5555"
restart: always
stdin_open: true
environment:
  HUB_HOST: hub_ip
  HUB_PORT: 4444
  NODE_MAX_INSTANCES: 5
  NODE_MAX_SESSION: 5
  REMOTE_HOST: http://节点ip:5558
  GRID_TIMEOUT: 60000
shm_size: "2gb"

# selenium-chrome-5
selenium-chrome-node-5:

image: selenium/node-chrome
volumes:
  - /dev/shm:/dev/shm
ports:
  - "5559:5555"
restart: always
stdin_open: true
environment:
  HUB_HOST: hub_ip
  HUB_PORT: 4444
  NODE_MAX_INSTANCES: 5
  NODE_MAX_SESSION: 5
  REMOTE_HOST: http://节点ip:5559
  GRID_TIMEOUT: 60000
shm_size: "2gb"

启动节点的命令是(前提是hub需要提前启动):

$ docker-compose up -d
关闭节点的命令是:

$ docker-compose down
遗留问题
按照我上面这种方式搭建Selenium Grid环境,本地节点可以正常执行,但是远端的节点却经常超时,不过从http://hub_ip:4444/grid/console界面上看到的节点网络全部都是通的。

之前查过一些资料,貌似需要使用Docker Swarm,它是一个docker集群管理工具, 将若干台 Docker 主机抽象为一个整体,并且通过一个入口统一管理这些 Docker 主机上的各种 Docker 资源 。不过目前还没研究它,后面如果用Docker Swarm有结论之后,我再写文章同步给大家。

总结
用docker搭建selenium grid分布式环境,非常方便,基本是一行命令就能启动或者关闭节点。希望我这篇文章能给大家提供一些思路,帮助大家在平时的工作中解决一些问题。

还是那句话,任何技术,只要能帮你解决实际的问题,就是好的技术!

原文地址https://www.cnblogs.com/zhouliweiblog/p/12572047.html

相关文章
|
4月前
|
人工智能 安全 Java
分布式 Multi Agent 安全高可用探索与实践
在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。
1104 72
|
4月前
|
关系型数据库 Apache 微服务
《聊聊分布式》分布式系统基石:深入理解CAP理论及其工程实践
CAP理论指出分布式系统中一致性、可用性、分区容错性三者不可兼得,必须根据业务需求进行权衡。实际应用中,不同场景选择不同策略:金融系统重一致(CP),社交应用重可用(AP),内网系统可选CA。现代架构更趋向动态调整与混合策略,灵活应对复杂需求。
|
6月前
|
数据采集 消息中间件 监控
单机与分布式:社交媒体热点采集的实践经验
在舆情监控与数据分析中,单机脚本适合小规模采集如微博热榜,而小红书等大规模、高时效性需求则需分布式架构。通过Redis队列、代理IP与多节点协作,可提升采集效率与稳定性,适应数据规模与变化速度。架构选择应根据实际需求,兼顾扩展性与维护成本。
191 2
|
4月前
|
应用服务中间件 Linux nginx
在虚拟机Docker环境下部署Nginx的步骤。
以上就是在Docker环境下部署Nginx的步骤。需要注意,Docker和Nginix都有很多高级用法和细节需要掌握,以上只是一个基础入门级别的教程。如果你想要更深入地学习和使用它们,请参考官方文档或者其他专业书籍。
236 5
|
5月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
6月前
|
缓存 Ubuntu Docker
Ubuntu环境下删除Docker镜像与容器、配置静态IP地址教程。
如果遇见问题或者想回滚改动, 可以重启系统.
456 16
|
7月前
|
存储 缓存 Serverless
【Azure Container App】如何在Consumption类型的容器应用环境中缓存Docker镜像
在 Azure 容器应用的 Consumption 模式下,容器每次启动均需重新拉取镜像,导致冷启动延迟。本文分析该机制,并提出优化方案:使用 ACR 区域复制加速镜像拉取、优化镜像体积、设置最小副本数减少冷启动频率,或切换至 Dedicated 模式实现镜像缓存,以提升容器启动效率和应用响应速度。
243 0
|
存储 网络协议 API
Docker 官方出品丨Docker 最佳实践系列指南(一)
Docker 企业版 (Docker EE) 是 Docker Inc 推出的旨在用于整条软件供应链的企业级容器平台。
4780 0