Shell - 监控某个进程的内存占用情况、主机CPU、磁盘空间等信息以及守护进程

简介: Shell - 监控某个进程的内存占用情况、主机CPU、磁盘空间等信息以及守护进程

20200928103236959.png


脚本

 #!/bin/sh
##############################
## 名称: MonitorES.sh
## 描述: 主机利用率超过阈值  判断top占用内存的进程 匹配ES 重启
## 参数: 暂无
## 作者: 小工匠
##############################
#定义退出标识符
EXIT_FAILURE=1   #Failing exit status 
EXIT_SUCCESS=0   #Successful exit status   
THREOD=$1
#当天
CURRENT_DAY=`date "+%Y%m%d"`
#当前执行脚本的全路径
SCRIPT_PATH=$(cd `dirname $0`; pwd)
LOG_FILE=$SCRIPT_PATH/MonitorES_$CURRENT_DAY.log 
#进程名称
PROCESS='org.elasticsearch.bootstrap.Elasticsearch'
#进程PID
PID=$(ps -ef| grep $PROCESS | grep -v 'grep' | awk '{print $2;}')
#记录Memory、Storage、CPU 信息
RecordCurrentUsage(){
  /usr/bin/free -m >>$LOG_FILE 2>&1
  free -m | awk 'NR==2{printf "Memory Usage: %s/%sMB (%.2f%%)\n", $3,$2,$3*100/$2 }' >>$LOG_FILE 2>&1
  df -h | awk '$NF=="/"{printf "Disk Usage: %d/%dGB (%s)\n", $3,$2,$5}' >>$LOG_FILE 2>&1
  top -bn1 | grep load | awk '{printf "CPU Load: %.2f\n", $(NF-2)}' >>$LOG_FILE 2>&1
}
#当前主机内存使用率   used/total 
CalcCurrentMemoryRatio(){
  MemoryRatio=$(/usr/bin/free | awk '/Mem/{printf("RAM Usage: %.0f\n"), $3/$2*100}' |  awk '{print $3}')
  echo "当前主机内存使用率:$MemoryRatio% " >>$LOG_FILE 2>&1
}
#执行
ExecStrategy(){
  # ES实际使用内存
  MemorySizeOfES=$(awk '/VmRSS/ {print $2}' < /proc/$PID/status) 
  echo "ES实际使用内存:$MemorySizeOfES " >>$LOG_FILE 2>&1
  # 主机总内存
  MemorySizeOfServer=$(free | sed -n '2p' | awk '{print $2}')
  echo "主机总内存:$MemorySizeOfServer " >>$LOG_FILE 2>&1
        EsMemoryRatio=$(printf "%d%%" $(($MemorySizeOfES*100/$MemorySizeOfServer)))
  echo "ES内存/总内存:$MemorySizeOfES/$MemorySizeOfServer=$EsMemoryRatio " >>$LOG_FILE 2>&1
  if [ "$MemorySizeOfES" = "" ]; then
          MemorySizeOfES=0
        fi
  if [ "$MemorySizeOfServer" = "" ]; then
         MemorySizeOfServer=0
        fi
  if [ $MemoryRatio -ge $THREOD ]; then 
       # do something  TODO
           echo "当前主机内存使用$MemoryRatio 大于阈值 $THREOD, Do Action"   >>$LOG_FILE 2>&1 
        else 
           echo "当前主机内存使用$MemoryRatio 小于阈值 $THREOD, Do Nothing"   >>$LOG_FILE 2>&1
  fi
}
echo "==========================begin  `date "+%Y-%m-%d %H:%M:%S"`===============================================" >>$LOG_FILE 2>&1
if [ -z ${PID} ];then
  echo "The $PROCESS does not exist." >>$LOG_FILE 2>&1
  exit EXIT_FAILURE
fi 
RecordCurrentUsage
CalcCurrentMemoryRatio
ExecStrategy
echo "==========================end    `date "+%Y-%m-%d %H:%M:%S"`=================================================" >>$LOG_FILE 2>&1
#输出一行空行到日志中,方便区分每次执行的日志
echo "" >>$LOG_FILE 2>&1
exit $EXIT_SUCCESS


启动的两种方式

方式一 注册到系统Cron

registMonitor(){
  echo "*/5 * * * * sh ${current_path}/MonitorES.sh 95" >  /var/spool/cron/root
}


这种方式有个缺点,没法停止服务,除非把cron也注释掉。。。


方式二

while循环 比如这个守护

#!/bin/bash
logfile=/watch.log
touch $logfile
while [ 1 -eq 1 ]
do
        AdminProcNum=`ps -ef | grep "org.elasticsearch.bootstrap.Elasticsearch" | grep -v grep | wc -l`
  echo "---------------------------  $(date "+%Y-%m-%d %H:%M:%S") ElasticsearchProcNum: $AdminProcNum  -----------------------------------------" >> ${logfile}  2>&1 
        if [ $AdminProcNum -lt 1 ]
        then
    echo "start" >> /xxx.log 
    su elasticsearch<<!
    cd $ES_HOME
    ./bin/elasticsearch -d
    exit
!
    echo "--------------------------- Elasticsearch Started By Watcher  $(date "+%Y-%m-%d %H:%M:%S")----------------------------------------" >> ${logfile}  2>&1 
        fi
        sleep 60
done



运行结果

一天一个文件 ,注意清理

==========================begin  2020-09-28 08:20:01===============================================
              total        used        free      shared  buff/cache   available
Mem:           3940        2652         635           6         653        1047
Swap:          2047         829        1218
Memory Usage: 2652/3940MB (67.31%)
Disk Usage: 16/18GB (96%)
CPU Load: 0.38
CPU Load: 0.10
当前主机内存使用率:67% 
ES实际使用内存:1302560 
主机总内存:4035036 
ES内存/总内存:1302560/4035036=32% 
当前主机内存使用67 小于阈值 95, Do Nothing
==========================end    2020-09-28 08:20:01=================================================
==========================begin  2020-09-28 08:25:01===============================================
              total        used        free      shared  buff/cache   available
Mem:           3940        2651         634           6         653        1047
Swap:          2047         829        1218
Memory Usage: 2651/3940MB (67.28%)
Disk Usage: 16/18GB (96%)
CPU Load: 0.56
CPU Load: 0.10
当前主机内存使用率:67% 
ES实际使用内存:1302568 
主机总内存:4035036 
ES内存/总内存:1302568/4035036=32% 
当前主机内存使用67 小于阈值 95, Do Nothing
==========================end    2020-09-28 08:25:01=================================================



20210707225745171.gif


linux内存、cpu、磁盘IO

#!/bin/bash
# 获取要监控的本地服务器IP地址
IP=`ifconfig | grep inet | grep -vE 'inet6|127.0.0.1' | awk '{print $2}'`
echo "IP地址:"$IP
# 获取cpu总核数
cpu_num=`grep -c "model name" /proc/cpuinfo`
echo "cpu总核数:"$cpu_num
# 1、获取CPU利用率
# 获取用户空间占用CPU百分比
cpu_user=`top -b -n 1 | grep Cpu | awk '{print $2}' | cut -f 1 -d "%"`
echo "用户空间占用CPU百分比:"$cpu_user
# 获取内核空间占用CPU百分比
cpu_system=`top -b -n 1 | grep Cpu | awk '{print $4}' | cut -f 1 -d "%"`
echo "内核空间占用CPU百分比:"$cpu_system
# 获取空闲CPU百分比
cpu_idle=`top -b -n 1 | grep Cpu | awk '{print $8}' | cut -f 1 -d "%"`
echo "空闲CPU百分比:"$cpu_idle
# 获取等待输入输出占CPU百分比
cpu_iowait=`top -b -n 1 | grep Cpu | awk '{print $10}' | cut -f 1 -d "%"`
echo "等待输入输出占CPU百分比:"$cpu_iowait
#2、获取CPU上下文切换和中断次数
# 获取CPU中断次数
cpu_interrupt=`vmstat -n 1 1 | sed -n 3p | awk '{print $11}'`
echo "CPU中断次数:"$cpu_interrupt
# 获取CPU上下文切换次数
cpu_context_switch=`vmstat -n 1 1 | sed -n 3p | awk '{print $12}'`
echo "CPU上下文切换次数:"$cpu_context_switch
#3、获取CPU负载信息
# 获取CPU15分钟前到现在的负载平均值
cpu_load_15min=`uptime | awk '{print $11}' | cut -f 1 -d ','`
echo "CPU 15分钟前到现在的负载平均值:"$cpu_load_15min
# 获取CPU5分钟前到现在的负载平均值
cpu_load_5min=`uptime | awk '{print $10}' | cut -f 1 -d ','`
echo "CPU 5分钟前到现在的负载平均值:"$cpu_load_5min
# 获取CPU1分钟前到现在的负载平均值
cpu_load_1min=`uptime | awk '{print $9}' | cut -f 1 -d ','`
echo "CPU 1分钟前到现在的负载平均值:"$cpu_load_1min
# 获取任务队列(就绪状态等待的进程数)
cpu_task_length=`vmstat -n 1 1 | sed -n 3p | awk '{print $1}'`
echo "CPU任务队列长度:"$cpu_task_length
#4、获取内存信息
# 获取物理内存总量
mem_total=`free | grep Mem | awk '{print $2}'`
echo "物理内存总量:"$mem_total
# 获取操作系统已使用内存总量
mem_sys_used=`free | grep Mem | awk '{print $3}'`
echo "已使用内存总量(操作系统):"$mem_sys_used
# 获取操作系统未使用内存总量
mem_sys_free=`free | grep Mem | awk '{print $4}'`
echo "剩余内存总量(操作系统):"$mem_sys_free
# 获取应用程序已使用的内存总量
mem_user_used=`free | sed -n 3p | awk '{print $3}'`
echo "已使用内存总量(应用程序):"$mem_user_used
# 获取应用程序未使用内存总量
mem_user_free=`free | sed -n 3p | awk '{print $4}'`
echo "剩余内存总量(应用程序):"$mem_user_free
# 获取交换分区总大小
mem_swap_total=`free | grep Swap | awk '{print $2}'`
echo "交换分区总大小:"$mem_swap_total
# 获取已使用交换分区大小
mem_swap_used=`free | grep Swap | awk '{print $3}'`
echo "已使用交换分区大小:"$mem_swap_used
# 获取剩余交换分区大小
mem_swap_free=`free | grep Swap | awk '{print $4}'`
echo "剩余交换分区大小:"$mem_swap_free
#5、获取磁盘I/O统计信息
echo "指定设备(/dev/sda)的统计信息"
# 每秒向设备发起的读请求次数
disk_sda_rs=`iostat -kx | grep sda| awk '{print $4}'`
echo "每秒向设备发起的读请求次数:"$disk_sda_rs
# 每秒向设备发起的写请求次数
disk_sda_ws=`iostat -kx | grep sda| awk '{print $5}'`
echo "每秒向设备发起的写请求次数:"$disk_sda_ws
# 向设备发起的I/O请求队列长度平均值
disk_sda_avgqu_sz=`iostat -kx | grep sda| awk '{print $9}'`
echo "向设备发起的I/O请求队列长度平均值"$disk_sda_avgqu_sz
# 每次向设备发起的I/O请求平均时间
disk_sda_await=`iostat -kx | grep sda| awk '{print $10}'`
echo "每次向设备发起的I/O请求平均时间:"$disk_sda_await
# 向设备发起的I/O服务时间均值
disk_sda_svctm=`iostat -kx | grep sda| awk '{print $11}'`
echo "向设备发起的I/O服务时间均值:"$disk_sda_svctm
# 向设备发起I/O请求的CPU时间百分占比
disk_sda_util=`iostat -kx | grep sda| awk '{print $12}'`
echo "向设备发起I/O请求的CPU时间百分占比:"$disk_sda_util



详解


相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。 &nbsp;
相关文章
|
消息中间件 存储 网络协议
从零开始掌握进程间通信:管道、信号、消息队列、共享内存大揭秘
本文详细介绍了进程间通信(IPC)的六种主要方式:管道、信号、消息队列、共享内存、信号量和套接字。每种方式都有其特点和适用场景,如管道适用于父子进程间的通信,消息队列能传递结构化数据,共享内存提供高速数据交换,信号量用于同步控制,套接字支持跨网络通信。通过对比和分析,帮助读者理解并选择合适的IPC机制,以提高系统性能和可靠性。
2210 14
|
存储 缓存 Linux
Linux系统中如何查看CPU信息
本文介绍了查看CPU核心信息的方法,包括使用`lscpu`命令和读取`/proc/cpuinfo`文件。`lscpu`能快速提供逻辑CPU数量、物理核心数、插槽数等基本信息;而`/proc/cpuinfo`则包含更详细的配置数据,如核心ID和处理器编号。此外,还介绍了如何通过`lscpu`和`dmidecode`命令获取CPU型号、制造商及序列号,并解释了CPU频率与缓存大小的相关信息。最后,详细解析了`lscpu`命令输出的各项参数含义,帮助用户更好地理解CPU的具体配置。
1771 8
|
缓存 安全 Linux
Linux系统查看操作系统版本信息、CPU信息、模块信息
在Linux系统中,常用命令可帮助用户查看操作系统版本、CPU信息和模块信息
3796 23
|
消息中间件 Linux
Linux:进程间通信(共享内存详细讲解以及小项目使用和相关指令、消息队列、信号量)
通过上述讲解和代码示例,您可以理解和实现Linux系统中的进程间通信机制,包括共享内存、消息队列和信号量。这些机制在实际开发中非常重要,能够提高系统的并发处理能力和数据通信效率。希望本文能为您的学习和开发提供实用的指导和帮助。
1059 20
|
C语言 开发者 内存技术
探索操作系统核心:从进程管理到内存分配
本文将深入探讨操作系统的两大核心功能——进程管理和内存分配。通过直观的代码示例,我们将了解如何在操作系统中实现这些基本功能,以及它们如何影响系统性能和稳定性。文章旨在为读者提供一个清晰的操作系统内部工作机制视角,同时强调理解和掌握这些概念对于任何软件开发人员的重要性。
|
运维 监控 Ubuntu
【运维】如何在Ubuntu中设置一个内存守护进程来确保内存不会溢出
通过设置内存守护进程,可以有效监控和管理系统内存使用情况,防止内存溢出带来的系统崩溃和服务中断。本文介绍了如何在Ubuntu中编写和配置内存守护脚本,并将其设置为systemd服务。通过这种方式,可以在内存使用超过设定阈值时自动采取措施,确保系统稳定运行。
678 4
|
Linux 调度 C语言
深入理解操作系统:从进程管理到内存优化
本文旨在为读者提供一次深入浅出的操作系统之旅,从进程管理的基本概念出发,逐步探索到内存管理的高级技巧。我们将通过实际代码示例,揭示操作系统如何高效地调度和优化资源,确保系统稳定运行。无论你是初学者还是有一定基础的开发者,这篇文章都将为你打开一扇了解操作系统深层工作原理的大门。
236 4
|
Linux 数据库 Perl
【YashanDB 知识库】如何避免 yasdb 进程被 Linux OOM Killer 杀掉
本文来自YashanDB官网,探讨Linux系统中OOM Killer对数据库服务器的影响及解决方法。当内存接近耗尽时,OOM Killer会杀死占用最多内存的进程,这可能导致数据库主进程被误杀。为避免此问题,可采取两种方法:一是在OS层面关闭OOM Killer,通过修改`/etc/sysctl.conf`文件并重启生效;二是豁免数据库进程,由数据库实例用户借助`sudo`权限调整`oom_score_adj`值。这些措施有助于保护数据库进程免受系统内存管理机制的影响。
|
Linux Shell
Linux 进程前台后台切换与作业控制
进程前台/后台切换及作业控制简介: 在 Shell 中,启动的程序默认为前台进程,会占用终端直到执行完毕。例如,执行 `./shella.sh` 时,终端会被占用。为避免不便,可将命令放到后台运行,如 `./shella.sh &`,此时终端命令行立即返回,可继续输入其他命令。 常用作业控制命令: - `fg %1`:将后台作业切换到前台。 - `Ctrl + Z`:暂停前台作业并放到后台。 - `bg %1`:让暂停的后台作业继续执行。 - `kill %1`:终止后台作业。 优先级调整:
1503 5
|
运维 关系型数据库 MySQL
掌握taskset:优化你的Linux进程,提升系统性能
在多核处理器成为现代计算标准的今天,运维人员和性能调优人员面临着如何有效利用这些处理能力的挑战。优化进程运行的位置不仅可以提高性能,还能更好地管理和分配系统资源。 其中,taskset命令是一个强大的工具,它允许管理员将进程绑定到特定的CPU核心,减少上下文切换的开销,从而提升整体效率。
掌握taskset:优化你的Linux进程,提升系统性能