Linux集群和自动化维2.6.4 开发类脚本

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介:

2.6.4 开发类脚本


业务需求在不断地变化,有时候互联网上的开源方案并不能全部解决,这个时候就需要自己写一些开发类的脚本来满足工作中的需求了,虽然很多时候脚本都可以独立运行,但笔者的做法还是尽量将其return结果写成Nagios能够识别的格式,以便配合Nagios发送报警邮件和信息。

1.监测redis是否正常运行

笔者接触的线上NoSQL业务主要是redis数据库,多用于处理大量数据的高访问负载需求。为了最大化地利用资源,每个redis实例分配的内存并不是很大,有时候程序组的同事导入数据量大的IP list时会导致redis实例崩溃,所以笔者开发了一个redis监测脚本并配合Nagios进行工作,脚本内容如下所示(此脚本在Amazon Linux AMI x86_64下已测试通过):

#!/usr/bin/python

#Check redis Nagios Plungin,Please install the redis-py module.

import redis

import sys

 

STATUS_OK = 0

STATUS_WARNING = 1

STATUS_CRITICAL = 2

 

HOST = sys.argv[1]

PORT = int(sys.argv[2])

WARNING = float(sys.argv[3])

CRITICAL = float(sys.argv[4])

 

def connect_redis(host, port):

    r = redis.Redis(host, port, socket_timeout = 5, socket_connect_timeout = 5)

    return r

 

def main():

    r = connect_redis(HOST, PORT)

    try:

        r.ping()

    except:

        print HOST,PORT,'down'

        sys.exit(STATUS_CRITICAL)

 

    redis_info = r.info()

    used_mem = redis_info['used_memory']/1024/1024/1024.0

    used_mem_human = redis_info['used_memory_human']

 

    if WARNING <= used_mem < CRITICAL:

        print HOST,PORT,'use memory warning',used_mem_human

        sys.exit(STATUS_WARNING)

    elif used_mem >= CRITICAL:

        print HOST,PORT,'use memory critical',used_mem_human

        sys.exit(STATUS_CRITICAL)

    else:

        print HOST,PORT,'use memory ok',used_mem_human

        sys.exit(STATUS_OK)

 

if __name__ == '__main__':

    main()

2.监测机器的IP连接数

需求其实比较简单,先统计IP连接数,如果ip_conns值小于15 000则显示为正常,介于15 000至20 000之间为警告,如果超过20 000则报警,脚本内容如下所示(此脚本在Amazon Linux AMI x86_64下已测试通过):

#!/bin/bash

#Nagios plugin For ip connects

#$1 = 15000 $2 = 20000

ip_conns=`netstat -an | grep tcp | grep EST | wc -l`

messages=`netstat -ant | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'|tr -s '\n' ',' | sed -r 's/(.*),/\1\n/g' `

 

if [ $ip_conns -lt $1 ]

then

    echo "$messages,OK -connect counts is $ip_conns"

    exit 0

fi

if [ $ip_conns -gt $1 -a $ip_conns -lt $2 ]

then

    echo "$messages,Warning -connect counts is $ip_conns"

    exit 1

fi

if [ $ip_conns -gt $2 ]

then

    echo "$messages,Critical -connect counts is $ip_conns"

    exit 2

fi

3.监测机器的CPU利用率脚本

线上的bidder业务机器,在业务繁忙的高峰期会出现CPU利用率达到100%(sys%+ user%),导致后面的流量打在上面却完全进不去的情况,但此时机器、系统负载及Nginx+Lua进程都是完全正常的,所以这种情况下需要开发一个CPU利用率脚本,在超过自定义阀值时报警,方便运维人员批量添加bidder AMI机器以应对峰值,AWS EC2实例机器是可以以小时来计费的,大家在这里也要注意分清系统负载和CPU利用率之间的区别。脚本内容如下所示(此脚本在Amazon Linux AMI x86_64下已测试通过):

#!/bin/bash

# ==============================================================================

# CPU Utilization Statistics plugin for Nagios

#

# USAGE     :   ./check_cpu_utili.sh [-w <user,system,iowait>] [-c <user,system,iowait>] ( [ -i <intervals in second> ] [ -n <report number> ])

#          

# Exemple: ./check_cpu_utili.sh

#          ./check_cpu_utili.sh -w 70,40,30 -c 90,60,40

#          ./check_cpu_utili.sh -w 70,40,30 -c 90,60,40 -i 3 -n 5

#-------------------------------------------------------------------------------

# Paths to commands used in this script.  These may have to be modified to match your system setup.

IOSTAT="/usr/bin/iostat"

 

# Nagios return codes

STATE_OK=0

STATE_WARNING=1

STATE_CRITICAL=2

STATE_UNKNOWN=3

 

# Plugin parameters value if not define

LIST_WARNING_THRESHOLD="70,40,30"

LIST_CRITICAL_THRESHOLD="90,60,40"

INTERVAL_SEC=1

NUM_REPORT=1

# Plugin variable description

PROGNAME=$(basename $0)

 

if [ ! -x $IOSTAT ]; then

    echo "UNKNOWN: iostat not found or is not executable by the nagios user."

    exit $STATE_UNKNOWN

fi

 

print_usage() {

        echo ""

        echo "$PROGNAME $RELEASE - CPU Utilization check script for Nagios"

        echo ""

        echo "Usage: check_cpu_utili.sh -w -c (-i -n)"

        echo ""

        echo "  -w  Warning threshold in % for warn_user,warn_system,warn_iowait CPU (default : 70,40,30)"

        echo "  Exit with WARNING status if cpu exceeds warn_n"

        echo "  -c  Critical threshold in % for crit_user,crit_system,crit_iowait CPU (default : 90,60,40)"

        echo "  Exit with CRITICAL status if cpu exceeds crit_n"

        echo "  -i  Interval in seconds for iostat (default : 1)"

        echo "  -n  Number report for iostat (default : 3)"

        echo "  -h  Show this page"

        echo ""

    echo "Usage: $PROGNAME"

    echo "Usage: $PROGNAME --help"

    echo ""

    exit 0

}

 

print_help() {

    print_usage

        echo ""

        echo "This plugin will check cpu utilization (user,system,CPU_Iowait in %)"

        echo ""

    exit 0

}

 

# Parse parameters

while [ $# -gt 0 ]; do

    case "$1" in

        -h | --help)

            print_help

            exit $STATE_OK

            ;;

        -v | --version)

                print_release

                exit $STATE_OK

                ;;

        -w | --warning)

                shift

                LIST_WARNING_THRESHOLD=$1

                ;;

        -c | --critical)

               shift

                LIST_CRITICAL_THRESHOLD=$1

                ;;

        -i | --interval)

               shift

               INTERVAL_SEC=$1

                ;;

        -n | --number)

               shift

               NUM_REPORT=$1

                ;;       

        *)  echo "Unknown argument: $1"

            print_usage

            exit $STATE_UNKNOWN

            ;;

        esac

shift

done

 

# List to Table for warning threshold (compatibility with

TAB_WARNING_THRESHOLD=(`echo $LIST_WARNING_THRESHOLD | sed 's/,/ /g'`)

if [ "${#TAB_WARNING_THRESHOLD[@]}" -ne "3" ]; then

    echo "ERROR : Bad count parameter in Warning Threshold"

    exit $STATE_WARNING

else 

USER_WARNING_THRESHOLD=`echo ${TAB_WARNING_THRESHOLD[0]}`

SYSTEM_WARNING_THRESHOLD=`echo ${TAB_WARNING_THRESHOLD[1]}`

IOWAIT_WARNING_THRESHOLD=`echo ${TAB_WARNING_THRESHOLD[2]}`

fi

 

# List to Table for critical threshold

TAB_CRITICAL_THRESHOLD=(`echo $LIST_CRITICAL_THRESHOLD | sed 's/,/ /g'`)

if [ "${#TAB_CRITICAL_THRESHOLD[@]}" -ne "3" ]; then

    echo "ERROR : Bad count parameter in CRITICAL Threshold"

    exit $STATE_WARNING

else

USER_CRITICAL_THRESHOLD=`echo ${TAB_CRITICAL_THRESHOLD[0]}`

SYSTEM_CRITICAL_THRESHOLD=`echo ${TAB_CRITICAL_THRESHOLD[1]}`

IOWAIT_CRITICAL_THRESHOLD=`echo ${TAB_CRITICAL_THRESHOLD[2]}`

fi

 

if [ ${TAB_WARNING_THRESHOLD[0]} -ge ${TAB_CRITICAL_THRESHOLD[0]} -o ${TAB_WARNING_THRESHOLD[1]} -ge ${TAB_CRITICAL_THRESHOLD[1]} -o ${TAB_WARNING_THRESHOLD[2]} -ge ${TAB_CRITICAL_THRESHOLD[2]} ]; then

  echo "ERROR : Critical CPU Threshold lower as Warning CPU Threshold "

  exit $STATE_WARNING

fi

 

CPU_REPORT=`iostat -c $INTERVAL_SEC $NUM_REPORT | sed -e 's/,/./g' | tr -s ' ' ';' | sed '/^$/d' | tail -1`

CPU_REPORT_SECTIONS=`echo ${CPU_REPORT} | grep ';' -o | wc -l`

CPU_USER=`echo $CPU_REPORT | cut -d ";" -f 2`

CPU_SYSTEM=`echo $CPU_REPORT | cut -d ";" -f 4`

CPU_IOWAIT=`echo $CPU_REPORT | cut -d ";" -f 5`

CPU_STEAL=`echo $CPU_REPORT | cut -d ";" -f 6`

CPU_IDLE=`echo $CPU_REPORT | cut -d ";" -f 7`

NAGIOS_STATUS="user=${CPU_USER}%,system=${CPU_SYSTEM}%,iowait=${CPU_IOWAIT}%,idle=${CPU_IDLE}%"

NAGIOS_DATA="CpuUser=${CPU_USER};${TAB_WARNING_THRESHOLD[0]};${TAB_CRITICAL_THRESHOLD[0]};0"

 

CPU_USER_MAJOR=`echo $CPU_USER| cut -d "." -f 1`

CPU_SYSTEM_MAJOR=`echo $CPU_SYSTEM | cut -d "." -f 1`

CPU_IOWAIT_MAJOR=`echo $CPU_IOWAIT | cut -d "." -f 1`

CPU_IDLE_MAJOR=`echo $CPU_IDLE | cut -d "." -f 1`

 

# Return

if [ ${CPU_USER_MAJOR} -ge $USER_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_CRITICAL

    elif [ ${CPU_SYSTEM_MAJOR} -ge $SYSTEM_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_CRITICAL

    elif [ ${CPU_IOWAIT_MAJOR} -ge $IOWAIT_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_CRITICAL

    elif [ ${CPU_USER_MAJOR} -ge $USER_WARNING_THRESHOLD ] && [ ${CPU_USER_MAJOR} -lt $USER_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_WARNING

      elif [ ${CPU_SYSTEM_MAJOR} -ge $SYSTEM_WARNING_THRESHOLD ] && [ ${CPU_SYSTEM_MAJOR} -lt $SYSTEM_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_WARNING

      elif  [ ${CPU_IOWAIT_MAJOR} -ge $IOWAIT_WARNING_THRESHOLD ] && [ ${CPU_IOWAIT_MAJOR} -lt $IOWAIT_CRITICAL_THRESHOLD ]; then

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_WARNING

else

      

        echo "CPU STATISTICS OK:${NAGIOS_STATUS} | CPU_USER=${CPU_USER}%;70;90;0;100"

        exit $STATE_OK

fi

此脚本参考了Nagios的官方文档https://exchange.nagios.org/并进行了代码精简和移值,源代码是运行在ksh下面的,这里将其移植到了bash下面,ksh下定义数组的方式跟bash还是有区别的;另外有一点也请大家注意,Shell本身是不支持浮点运算的,但可以通过bc或awk的方式来处理。

另外,若要配合PNP4nagios出图(PNP4nagios可以观察一段周期内的CPU利用率峰值),此脚本还可以更精简,脚本内容如下所示(此脚本在Amazon Linux AMI x86_64下已测试通过):

#!/bin/bash

# Nagios return codes

STATE_OK=0

STATE_WARNING=1

STATE_CRITICAL=2

STATE_UNKNOWN=3

 

# Plugin parameters value if not define

LIST_WARNING_THRESHOLD="90"

LIST_CRITICAL_THRESHOLD="95"

INTERVAL_SEC=1

NUM_REPORT=5

 

CPU_REPORT=`iostat -c $INTERVAL $NUM_REPORT  | sed -e 's/,/./g' | tr -s ' ' ';' | sed '/^$/d' |tail -1`

CPU_REPORT_SECTIONS=`echo ${CPU_REPORT} | grep ';' -o | wc -l`

CPU_USER=`echo $CPU_REPORT | cut -d ";" -f 2`

CPU_SYSTEM=`echo $CPU_REPORT | cut -d ";" -f 4`

# Add for integer shell issue

CPU_USER_MAJOR=`echo $CPU_USER | cut -d "." -f 1`

CPU_SYSTEM_MAJOR=`echo $CPU_SYSTEM | cut -d "." -f 1`

CPU_UTILI_COU=`echo ${CPU_USER} + ${CPU_SYSTEM}|bc`

CPU_UTILI_COUNTER=`echo $CPU_UTILI_COU | cut -d "." -f 1`

 

# Return

if [ ${CPU_UTILI_COUNTER} -lt ${LIST_WARNING_THRESHOLD} ]

then

    echo "OK - CPUCOU=${CPU_UTILI_COU}% | CPUCOU=${CPU_UTILI_COU}%;80;90"

    exit ${STATE_OK}

fi

if [ ${CPU_UTILI_COUNTER} -gt ${LIST_WARNING_THRESHOLD} -a ${CPU_UTILI_COUNTER} -lt ${LIST_CRITICAL_THRESHOLD} ]

then

    echo "Warning - CPUCOU=${CPU_UTILI_COUNTER}% | CPUCOU=${CPU_UTILI_COUNTER}%;80;90"

    exit ${STATE_WARNING}

fi

if [ ${CPU_UTILI_COUNTER} -gt ${LIST_CRITICAL_THRESHOLD} ]

then

   echo "Critical - CPUCOU=${CPU_UTILI_COUNTER}% | CPUCOU=${CPU_UTILI_COUNTER}%;80;90"

    exit ${STATE_CRITICAL}

fi

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore &nbsp; &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
26天前
|
数据采集 监控 数据挖掘
Python自动化脚本:高效办公新助手###
本文将带你走进Python自动化脚本的奇妙世界,探索其在提升办公效率中的强大潜力。随着信息技术的飞速发展,重复性工作逐渐被自动化工具取代。Python作为一门简洁而强大的编程语言,凭借其丰富的库支持和易学易用的特点,成为编写自动化脚本的首选。无论是数据处理、文件管理还是网页爬虫,Python都能游刃有余地完成任务,极大地减轻了人工操作的负担。接下来,让我们一起领略Python自动化脚本的魅力,开启高效办公的新篇章。 ###
|
8天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
71 14
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
19天前
|
Android开发 开发者 Python
通过标签清理微信好友:Python自动化脚本解析
微信已成为日常生活中的重要社交工具,但随着使用时间增长,好友列表可能变得臃肿。本文介绍了一个基于 Python 的自动化脚本,利用 `uiautomator2` 库,通过模拟用户操作实现根据标签批量清理微信好友的功能。脚本包括环境准备、类定义、方法实现等部分,详细解析了如何通过标签筛选并删除好友,适合需要批量管理微信好友的用户。
25 7
|
17天前
|
运维 Kubernetes Devops
自动化运维:从脚本到工具的演进之旅
在数字化浪潮中,自动化运维成为提升效率、保障系统稳定的关键。本文将探索自动化运维的发展脉络,从基础的Shell脚本编写到复杂的自动化工具应用,揭示这一技术变革如何重塑IT运维领域。我们将通过实际案例,展示自动化运维在简化工作流程、提高响应速度和降低人为错误中的重要作用。无论你是初学者还是资深专家,这篇文章都将为你提供宝贵的洞见和实用的技巧。
|
25天前
|
SQL 测试技术 API
如何编写API接口的自动化测试脚本
本文详细介绍了编写API自动化测试脚本的方法和最佳实践,涵盖确定测试需求、选择测试框架、编写测试脚本(如使用Postman和Python Requests库)、参数化和数据驱动测试、断言和验证、集成CI/CD、生成测试报告及维护更新等内容,旨在帮助开发者构建高效可靠的API测试体系。
|
22天前
|
运维 Devops
自动化运维:从脚本到DevOps的进化之旅
在数字化时代,自动化运维不仅是提高生产效率的关键,更是企业竞争力的象征。本文将带领读者穿越自动化运维的发展历程,从最初的脚本编写到现代DevOps文化的形成,揭示这一演变如何重塑IT行业的工作模式。通过具体案例,我们将展示自动化工具和实践如何简化复杂任务,优化流程,并促进团队协作。你将发现,自动化运维不仅关乎技术的进步,更体现了人、流程和技术三者之间协同增效的深层逻辑。
|
24天前
|
监控 数据挖掘 数据安全/隐私保护
Python脚本:自动化下载视频的日志记录
Python脚本:自动化下载视频的日志记录
|
27天前
|
机器学习/深度学习 人工智能 运维
自动化运维之路:从脚本到工具的演进
在IT运维领域,效率和准确性是衡量工作成效的关键指标。随着技术的发展,自动化运维逐渐成为提升这两个指标的重要手段。本文将带领读者了解自动化运维的演变历程,从最初的简单脚本编写到现今复杂的自动化工具应用,展示如何通过技术提升运维效率。文章不仅介绍理论和实践案例,还提供了代码示例,帮助读者理解自动化运维的实际应用场景。
|
29天前
|
运维 监控 网络安全
自动化运维的崛起:如何利用Python脚本简化日常任务
【10月更文挑战第43天】在数字化时代的浪潮中,运维工作已从繁琐的手工操作转变为高效的自动化流程。本文将引导您了解如何运用Python编写脚本,以实现日常运维任务的自动化,从而提升工作效率和准确性。我们将通过一个实际案例,展示如何使用Python来自动部署应用、监控服务器状态并生成报告。文章不仅适合运维新手入门,也能为有经验的运维工程师提供新的视角和灵感。
|
1月前
|
存储 Python
Python自动化脚本编写指南
【10月更文挑战第38天】本文旨在为初学者提供一条清晰的路径,通过Python实现日常任务的自动化。我们将从基础语法讲起,逐步引导读者理解如何将代码块组合成有效脚本,并探讨常见错误及调试技巧。文章不仅涉及理论知识,还包括实际案例分析,帮助读者快速入门并提升编程能力。
65 2
下一篇
DataWorks