jenkins master 与slave 异常断开引起task 任务失败之故障深入分析

简介:

环境信息: 

      网络环境 :   同一个子网中

      jenkins master :     centos 7   jenkins 2.0  master 

      jenkins slave :  windows    slave 


故障现象: 


     任务的报错信息:     



现象分析: 

     1,   master slave 异常断开

     2,  任务执行失败

     3,  tcp 长连接异常断开 

    4,   断开连接失败,  4 层问题  或者是 3层问题



原因猜测:  

     1, master  负载过高  引起异常断开

     2, 网络质量差,引起异常断开

     3,  slave  进程假死 引起 异常断开  



排查方法: 

    1, 网络质量监控  (秒级)

    2,  进程存活监控   

    3,  debug 日志打开   master  slave  

    4,    tcp 长连接抓包分析 

    5,  全链路 数据包 路由质量检测 监控 



短期解决办法:

1, 剔除 问题节点



长期解决方案:    


1,  查看debug 日志 

2,  windows slave  自动重连 master 

3,   task 设置 retry  功能

4,  windows slave  守护脚本的开发  



          本文转自heavenseahill 51CTO博客,原文链接:http://blog.51cto.com/shower/1973379,如需转载请自行联系原作者




相关文章
|
30天前
|
Kubernetes 容器
k8s集群部署成功后某个节点突然出现notready状态的问题原因分析和解决办法
k8s集群部署成功后某个节点突然出现notready状态的问题原因分析和解决办法
15 0
|
5月前
解决es集群启动完成后报master_not_discovered_exception
解决es集群启动完成后报master_not_discovered_exception
141 0
|
6月前
|
关系型数据库 MySQL 网络安全
Mysql主从同步时Slave_SQL_Running状态为Yes , 但是Slave_IO_Running状态为Connecting以及NO的情况故障排除
当使用Navicat工具打开这三个数据库时 , 发现主库和从库的数据不同
71 0
|
7月前
|
网络安全
Agent 报告复制作业 "sync" 进度时遇到错误
Agent 报告复制作业 "sync" 进度时遇到错误
57 1
|
9月前
|
关系型数据库 MySQL Shell
检查MySQL主从同步状态
检查MySQL主从同步状态
64 1
|
11月前
|
SQL 监控 关系型数据库
MySQL主从复制“死掉”!引发Slave库SQL线程异常的一次“血案”追踪
MySQL主从复制“死掉”!引发Slave库SQL线程异常的一次“血案”追踪
815 0
|
分布式计算 安全 Scala
Master 检测心跳并删除超时的 Worker | 学习笔记
快速学习 Master 检测心跳并删除超时的 Worker
157 0
Master 检测心跳并删除超时的 Worker | 学习笔记
|
消息中间件 存储 JSON
kill -9 导致 Kakfa 重启失败的惨痛经历!
0.11 版本的 kafka 的 unclean.leader.election.enable 参数默认为 false,表示分区不可在 ISR 以外的副本选举 leader,导致了 A 主题发送消息持续报 34 分区 leader 不存在的错误,且该分区还未消费的消息不能继续消费了。接下来运维在 kafka-manager 查不到 broker0 节点了处于假死状态,但是进程依然还在,重启了好久没见反应,然后通过 kill -9 命令杀死节点进程后,接着重启失败了,导致了如下问题
274 0
kill -9 导致 Kakfa 重启失败的惨痛经历!
|
Go API 开发工具
利用etcd选举sdk实践master/slave故障转移
本次记录[利用etcd选主sdk实践master/slave故障转移], 并利用etcdctl客户端验证选主sdk的工作原理。
利用etcd选举sdk实践master/slave故障转移