【Jenkins稳定运维】服务器频繁崩溃?资深管理员的应对策略

简介: 本文分享了作者作为管理员在面对服务器频繁崩溃时的应对策略,包括使用Shell脚本优化运维工作、学习Jenkins Pipeline插件以及一些运维技能扩展,强调了在运维工作中不断学习和实践的重要性。
一、背景

最近工作的五年,无论何时何地工作,总之测试已经离不开干运维的工作,或许也是没有界定测试和运维的工作部分,比如说:在linux服务器需要操作某些文件或服务时,总是习惯性的写出一长穿命令来偷懒,结果如下:

. /etc/profile.d/java11.sh && for dir in `ll |grep ^d|awk '{print $9}'`;do cd $dir; mvn -s "/usr/local/maven/conf/xxxx-test.xml"   clean  package  -Dmaven.test.skip=true -Plockin-test; if [ $? -eq 0 ]; then cd ..; else exit 0; fi ; done

这要是放在别人眼里,没有编程基础或者是没有储备多少linux指令的同学来说,看起来有些费劲,那么如何优雅的体现呢?为什么又要写成一长串呢?

二、分析&实现

原因竟然是:当前脚本属于一次性的,那么如何优雅,唯shell脚本而已,将上面一长串linux命令优化如下:

#!/bin/sh
# 引申环境变量
. /etc/profile.d/maven.sh 
. /etc/profile.d/java11.sh
# 遍历目录 ^d 匹配
for dir in `ll |grep ^d|awk '{print $9}'`
  do 
    cd $dir
    # 进入目录构建服务
    mvn -s "/usr/local/maven/conf/xxxx-test.xml"   clean  package  -Dmaven.test.skip=true -Plockin-test
    # 如果构建成功则继续返回上层,否则退出
    if [ $? -eq 0 ]; then 
      # 成功叫jar包传输到服务器上
      rsync -avz target/*.jar xxxx@192.168.12.11:/home/xxxx/jar_server_java/
      cd ..
    else 
      exit 0
    fi
    # 循环、条件结束符
  done
三、苦恼又暗自欣喜

相比之前工作,通过靠兼职运维而涨薪,需要负责公司的运维工作,不管是本地环境还是云服务器,总是要忙忙碌碌,四处救火,有时呢也是清闲,所以能明白环境问题带来的忙碌,有时可能是一周,当然有人会说了,为啥需要这么久时间?呵,这个也没法解释,如果要怪就怪自己手贱,或者是没有做好备份策略。

好在现在的工作,有运维岗位了,只是可能不太熟练这些项目的部署方式和意义,所以在恢复环境过程中遇到无法解决的问题,同时需要开发和测试来协助,所以这时候题主又携带着运维技能上场了。

四、学会了新技能

题主部署过java项目、python项目,当然还有前端vue项目,不管是node管理器还是mvn构建工具,也会遇到一个个不曾见过的难题,好在都能一一找到解决方案。

学习插件:Pipeline Stage View
在这里插入图片描述
如上图所示,在没有写流水线之前,咱们一直在说CI/CD,实现的也很低级:单个服务实现git仓库与jenkins之间相互调用,但是咱们并没有直接上线,不能说开发提交代码了,然后就直接部署生产,至少中间需要经过一轮测试验证,所以题主认为正确的思路就是:开发提交代码(单元测试)–测试环境拉取代码部署–测试验证环节(接口/UI自动化)–上线生产环境–验收测试(接口/UI自动化)

pipeline {
   
   
    agent any

    environment {
   
   
        GITURL = '全局git地址'
    }

    stages {
   
   
        stage('第一个job') {
   
   
            steps {
   
   
                build job: 'test-a', parameters: [
                    [$class: 'BooleanParameterValue', name: 'confirm', value: 'true'],
                    [$class: 'GitParameterValue', name: 'commit_id', value: "${commit_id}"]
                ]
            }
        }
        stage('第二个job') {
   
   
            steps {
   
   
                build job: 'test-b', parameters: [
                    [$class: 'BooleanParameterValue', name: 'confirm', value: 'true'],
                    [$class: 'GitParameterValue', name: 'commit_id', value: "${commit_id}"]
                ]
            }
        }
    }
}

Pipeline这个流水线插件,在这次工作中学习了,突然发现它并高深,大道至简,所以工具还是工具,永远都要服从人的思想工作。

五、技能扩展
  • 系统服务service找出来,批量执行stop && start
find /lib/systemd/system -name "xxxx*"|awk -F "/" '{print $5}'|xargs systemctl stop
  • 查找文件,批量删除
 find ./xxxx*/log/*  -name "*202*" |xargs rm -rf {
   
   }/;
  • 过滤文件内容
 grep -R  xxxx-s5 */config.xml
  • 批量替换
grep -R  xxxx-s5 */config.xml |awk -F ":" '{print$1}'|xargs sed -i 's/xxxx-s5/xxxx-test/g'
相关文章
|
2月前
|
运维 应用服务中间件 网络安全
自动化运维的新篇章:使用Ansible进行服务器配置管理
【10月更文挑战第34天】在现代IT基础设施的快速迭代中,自动化运维成为提升效率、确保一致性的关键手段。本文将通过介绍Ansible工具的使用,展示如何实现高效的服务器配置管理。从基础安装到高级应用,我们将一步步揭开自动化运维的神秘面纱,让你轻松掌握这一技术,为你的运维工作带来革命性的变化。
|
3月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
100 2
|
11天前
|
存储 弹性计算 安全
阿里云服务器配置选择策略参考及后期使用注意事项
对于初次购买阿里云服务器的一些新手用户来说,在云服务器配置选择和后期使用过程中有一些不清楚的地方,小编分享几点阿里云服务器配置选择策略,以及后期使用注意事项,购买过程中注意好下面这些事项,能让我们选对选好阿里云服务器,购买之后,在使用过程中,注意下面这些事项,能够让我们更好、更安全的使用阿里云服务器。下面是小编分享的一份详尽的阿里云服务器配置与使用指南,以供参考和借鉴。
|
30天前
|
运维 Ubuntu 应用服务中间件
自动化运维之路:使用Ansible进行服务器管理
在现代IT基础设施中,自动化运维已成为提高效率和可靠性的关键。本文将引导您通过使用Ansible这一强大的自动化工具来简化日常的服务器管理任务。我们将一起探索如何配置Ansible、编写Playbook以及执行自动化任务,旨在为读者提供一条清晰的路径,从而步入自动化运维的世界。
|
28天前
|
运维 网络安全 Python
自动化运维:使用Ansible实现批量服务器配置
在快速迭代的IT环境中,高效、可靠的服务器管理变得至关重要。本文将介绍如何使用Ansible这一强大的自动化工具,来简化和加速批量服务器配置过程。我们将从基础开始,逐步深入到更复杂的应用场景,确保即使是新手也能跟上节奏。文章将不包含代码示例,而是通过清晰的步骤和逻辑结构,引导读者理解自动化运维的核心概念及其在实际操作中的应用。
|
29天前
|
运维 Ubuntu 网络协议
自动化运维:使用Ansible进行服务器配置管理
在现代IT架构中,自动化运维已成为提升效率、减少人为错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化和标准化服务器的配置管理过程。通过具体的代码示例和操作步骤,我们将展示如何快速部署应用、管理配置以及自动化日常任务,从而确保环境的一致性和可靠性。
|
2月前
|
运维 安全 Ubuntu
自动化运维:使用Ansible进行服务器配置管理
在现代IT基础设施中,自动化运维是确保高效、稳定和安全服务的关键。本文将深入介绍如何使用Ansible这一开源工具来简化服务器配置管理工作,从基础安装到高级应用,我们将一步步展示如何通过Ansible Playbooks实现自动化部署和维护,旨在帮助读者构建更加灵活和可扩展的运维体系。
47 7
|
2月前
|
运维 Prometheus 监控
运维自动化:提高IT效率的关键策略
在当今快速发展的IT领域,运维自动化已成为企业提升运营效率、降低错误率和成本的重要手段。随着云计算、大数据和人工智能技术的不断进步,实现运维流程的自动化不仅可行,而且变得日益重要。本文探讨了运维自动化的概念、关键技术及其在实际工作中的应用,旨在为IT专业人士提供一种高效管理和维护系统的方法。
|
2月前
|
运维 监控 安全
盘点Linux服务器运维管理面板
随着云计算和大数据技术的迅猛发展,Linux服务器在运维管理中扮演着越来越重要的角色。传统的Linux服务器管理方式已经无法满足现代企业的需求,因此,高效、安全、易用的运维管理面板应运而生。
|
28天前
|
人工智能 运维 监控
自动化运维:提升IT效率的关键策略
在当今快速发展的信息技术时代,企业面临着不断增长的数据量和复杂的系统架构。为了保持竞争力,自动化运维成为提高IT部门效率和响应速度的关键策略。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,旨在为IT专业人员提供实现高效运维管理的实用指南。
37 0

热门文章

最新文章