【Jenkins稳定运维】服务器频繁崩溃?资深管理员的应对策略

简介: 本文分享了作者作为管理员在面对服务器频繁崩溃时的应对策略,包括使用Shell脚本优化运维工作、学习Jenkins Pipeline插件以及一些运维技能扩展,强调了在运维工作中不断学习和实践的重要性。
一、背景

最近工作的五年,无论何时何地工作,总之测试已经离不开干运维的工作,或许也是没有界定测试和运维的工作部分,比如说:在linux服务器需要操作某些文件或服务时,总是习惯性的写出一长穿命令来偷懒,结果如下:

. /etc/profile.d/java11.sh && for dir in `ll |grep ^d|awk '{print $9}'`;do cd $dir; mvn -s "/usr/local/maven/conf/xxxx-test.xml"   clean  package  -Dmaven.test.skip=true -Plockin-test; if [ $? -eq 0 ]; then cd ..; else exit 0; fi ; done

这要是放在别人眼里,没有编程基础或者是没有储备多少linux指令的同学来说,看起来有些费劲,那么如何优雅的体现呢?为什么又要写成一长串呢?

二、分析&实现

原因竟然是:当前脚本属于一次性的,那么如何优雅,唯shell脚本而已,将上面一长串linux命令优化如下:

#!/bin/sh
# 引申环境变量
. /etc/profile.d/maven.sh 
. /etc/profile.d/java11.sh
# 遍历目录 ^d 匹配
for dir in `ll |grep ^d|awk '{print $9}'`
  do 
    cd $dir
    # 进入目录构建服务
    mvn -s "/usr/local/maven/conf/xxxx-test.xml"   clean  package  -Dmaven.test.skip=true -Plockin-test
    # 如果构建成功则继续返回上层,否则退出
    if [ $? -eq 0 ]; then 
      # 成功叫jar包传输到服务器上
      rsync -avz target/*.jar xxxx@192.168.12.11:/home/xxxx/jar_server_java/
      cd ..
    else 
      exit 0
    fi
    # 循环、条件结束符
  done
三、苦恼又暗自欣喜

相比之前工作,通过靠兼职运维而涨薪,需要负责公司的运维工作,不管是本地环境还是云服务器,总是要忙忙碌碌,四处救火,有时呢也是清闲,所以能明白环境问题带来的忙碌,有时可能是一周,当然有人会说了,为啥需要这么久时间?呵,这个也没法解释,如果要怪就怪自己手贱,或者是没有做好备份策略。

好在现在的工作,有运维岗位了,只是可能不太熟练这些项目的部署方式和意义,所以在恢复环境过程中遇到无法解决的问题,同时需要开发和测试来协助,所以这时候题主又携带着运维技能上场了。

四、学会了新技能

题主部署过java项目、python项目,当然还有前端vue项目,不管是node管理器还是mvn构建工具,也会遇到一个个不曾见过的难题,好在都能一一找到解决方案。

学习插件:Pipeline Stage View
在这里插入图片描述
如上图所示,在没有写流水线之前,咱们一直在说CI/CD,实现的也很低级:单个服务实现git仓库与jenkins之间相互调用,但是咱们并没有直接上线,不能说开发提交代码了,然后就直接部署生产,至少中间需要经过一轮测试验证,所以题主认为正确的思路就是:开发提交代码(单元测试)–测试环境拉取代码部署–测试验证环节(接口/UI自动化)–上线生产环境–验收测试(接口/UI自动化)

pipeline {
   
   
    agent any

    environment {
   
   
        GITURL = '全局git地址'
    }

    stages {
   
   
        stage('第一个job') {
   
   
            steps {
   
   
                build job: 'test-a', parameters: [
                    [$class: 'BooleanParameterValue', name: 'confirm', value: 'true'],
                    [$class: 'GitParameterValue', name: 'commit_id', value: "${commit_id}"]
                ]
            }
        }
        stage('第二个job') {
   
   
            steps {
   
   
                build job: 'test-b', parameters: [
                    [$class: 'BooleanParameterValue', name: 'confirm', value: 'true'],
                    [$class: 'GitParameterValue', name: 'commit_id', value: "${commit_id}"]
                ]
            }
        }
    }
}

Pipeline这个流水线插件,在这次工作中学习了,突然发现它并高深,大道至简,所以工具还是工具,永远都要服从人的思想工作。

五、技能扩展
  • 系统服务service找出来,批量执行stop && start
find /lib/systemd/system -name "xxxx*"|awk -F "/" '{print $5}'|xargs systemctl stop
  • 查找文件,批量删除
 find ./xxxx*/log/*  -name "*202*" |xargs rm -rf {
   
   }/;
  • 过滤文件内容
 grep -R  xxxx-s5 */config.xml
  • 批量替换
grep -R  xxxx-s5 */config.xml |awk -F ":" '{print$1}'|xargs sed -i 's/xxxx-s5/xxxx-test/g'
相关文章
|
11天前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
46 6
阿里云日常运维-购买服务器
|
5天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
4天前
|
运维 监控 Cloud Native
云原生时代的运维策略:从反应式到自动化
在云计算的浪潮下,运维领域经历了翻天覆地的变化。本文将带你领略云原生时代下的运维新风貌,探索如何通过自动化和智能化手段,实现从传统的反应式运维向主动、智能的运维模式转变。我们将一起见证,这一变革如何助力企业提升效率,保障服务的连续性与安全性,以及运维人员如何适应这一角色的转变,成为云原生时代的引领者。
17 8
|
8天前
|
弹性计算 JSON 运维
阿里云ECS实例运维属性-如何控制实例的宕机表现
介绍如何通过运维属性指定阿里云ECS的宕机运维表现等
|
2天前
|
存储 运维 网络协议
运维的基本概念:服务器和网络基础知识
运维的基本概念:服务器和网络基础知识
9 0
运维的基本概念:服务器和网络基础知识
|
8天前
|
运维 Ubuntu Linux
掌握自动化运维:使用Ansible进行服务器配置管理
【9月更文挑战第5天】本文旨在通过深入浅出的方式,介绍如何利用Ansible这一强大的自动化工具来简化和加速日常的服务器配置管理工作。文章将首先概述自动化运维的重要性,接着详细讲解Ansible的基本概念、安装过程及其在服务器配置中的应用实例。我们将通过具体的操作步骤和代码示例,展示如何使用Ansible编写任务,以及如何执行这些任务以实现批量的服务器配置。最后,文章将探讨一些高级用法,帮助读者进一步提升自动化运维的能力。
|
7天前
|
运维 监控 安全
自动化运维:提升效率与可靠性的现代策略
【9月更文挑战第6天】在数字化时代,自动化运维不再是可选项,而是企业保持竞争力的必需品。通过整合先进的技术和实践,自动化不仅提升了运维的效率,还增强了系统的稳定性和安全性。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,同时提供实用的代码示例,帮助读者构建和优化自己的自动化运维体系。
13 2
|
8天前
|
运维 监控 持续交付
云时代的运维策略——从传统到现代的转变
本文将探讨在云计算时代,运维(Operations)如何从传统的IT基础设施管理转变为更加灵活、自动化的云服务管理。我们将通过具体案例分析,了解云运维的核心要素和最佳实践,以及如何利用现代工具和技术来提升效率和可靠性。文章旨在为读者提供一条清晰的路径,以应对快速变化的云环境,并确保业务连续性和增长。
23 3
|
8天前
|
运维 应用服务中间件 持续交付
自动化运维之路:使用Ansible进行服务器配置管理
【9月更文挑战第5天】本文将引导您了解如何利用Ansible这一强大的自动化工具,来简化和加速您的服务器配置管理工作。我们将通过实际代码示例,展示如何使用Ansible编写Playbook,实现自动化部署、配置更新和任务执行。通过阅读本文,您不仅能够掌握Ansible的基本用法,还将学会如何构建可重复使用的自动化脚本,以提升运维效率和减少人为错误。
|
14天前
|
存储 运维 监控
自动化运维:使用Python脚本进行服务器监控
【8月更文挑战第31天】在数字化时代,服务器的稳定运行对于企业至关重要。本文将介绍如何使用Python编写一个简单的服务器监控脚本,帮助运维人员及时发现并解决潜在问题。我们将从基础的服务器资源监控开始,逐步深入到日志分析与报警机制的实现。通过实际代码示例和操作步骤,使读者能够快速掌握自动化监控的技能,提升工作效率。