建议收藏丨大数据集群常用监控命令(内存、磁盘、CPU、网络)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 建议收藏丨大数据集群常用监控命令(内存、磁盘、CPU、网络)

正文


1、核心命令


linux 监控网络IO、磁盘、CPU、内存:


CPU:vmstat 、sar –u、top

磁盘IO:iostat –xd、sar –d、top

网络IO:iftop -n、ifstat、dstat –nt、sar -n DEV 2 3

磁盘容量:df –h

内存使用:free –m、top


2、常用命令


(1)内存:条数、每条大小、内存是DDR4还是DDR3、内存频率是2666MT/S还是1600MT/s


条数: dmidecode|grep -A5 'Memory Device'|grep Size | grep -v Installed |wc -l


每条大小:   dmidecode|grep -A5 'Memory Device'|grep Size | grep -v Installed |uniq


内存类型:   dmidecode | grep -A16 "Memory Device" | grep 'Type:' |grep -v Unknown |uniq


内存频率:    dmidecode | grep -A16 "Memory Device" | grep 'Speed' |grep -v Unknown |uniq


(2)硬盘:块数,大小


fdisk -l | grep "Disk /dev/sd"


(3)查看什么进程占用端口


netstat -antp | fgrep <port>


(4)查看进程资源


jps -l           #  获取进程id

jmap -heap 21046

(5)CPU个数


cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l


(6)CPU核数


cat /proc/cpuinfo| grep "cpu cores"| uniq


(7)CPU主频


cat /proc/cpuinfo| grep "model name"| uniq



3、核心命令详解


3.1、ps aux


ps命令用于查看系统中的进程状态


88.png


USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND

● USER,进程所有者的用户名。

● PID,进程号,可以唯一标识该进程。

● %CPU,进程自最近一次刷新以来所占用的CPU时间和总时间的百分比。

● %MEM,进程使用内存的百分比。

● VSZ,进程使用的虚拟内存大小,以K为单位。

● RSS,进程占用的物理内存的总数量,以K为单位。

● TTY,进程相关的终端名。

● STAT,进程状态,用(R--运行或准备运行;S--睡眠状态;I--空闲;Z--冻结;D--不间断睡眠;W-进程没有驻留页;T停止或跟踪。)这些字母来表示。

● START,进程开始运行时间。

● TIME,进程使用的总CPU时间。

● COMMAND,被执行的命令行。



3.2、Top


top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。


000000000000000.png


1、上半部分显示了整体系统负载情:


top一行:从左到右依次为当前系统时间,系统运行的时间,系统在之前1min、5min和15min内cpu的平均负载值

Tasks一行:该行给出进程整体的统计信息,包括统计周期内进程总数、运行状态进程数、休眠状态进程数、停止状态进程数和僵死状态进程数

Cpu(s)一行:cpu整体统计信息,包括用户态下进程、系统态下进程占用cpu时间比,nice值大于0的进程在用户态下占用cpu时间比,cpu处于idle状态、wait状态的时间比,以及处理硬中断、软中断的时间比

Mem一行:该行提供了内存统计信息,包括物理内存总量、已用内存、空闲内存以及用作缓冲区的内存量

Swap一行:虚存统计信息,包括交换空间总量、已用交换区大小、空闲交换区大小以及用作缓存的交换空间大小


2、下半部分显示了各个进程的运行情况:


PID: 进程pid

USER: 拉起进程的用户

PR: 该列值加100为进程优先级,若优先级小于100,则该进程为实时(real-time)进程,否则为普通(normal)进程,实时进程的优先级更高,更容易获得cpu调度,以上输出结果中,java进程优先级为120,是普通进程,had进程优先级为2,为实时进程,migration 进程的优先级RT对应于0,为最高优先级

NI: 进程的nice优先级值,该列中,实时进程的nice值为0,普通进程的nice值范围为-20~19

VIRT: 进程所占虚拟内存大小(默认单位kB)

RES: 进程所占物理内存大小(默认单位kB)

SHR: 进程所占共享内存大小(默认单位kB)

S: 进程的运行状态

%CPU: 采样周期内进程所占cpu百分比

%MEM: 采样周期内进程所占内存百分比

TIME+: 进程使用的cpu时间总计

COMMAND: 拉起进程的命令


【桥哥有话】


1、遇到问题不要慌。根据经验,再通过命令排查内存、磁盘、网络、cpu,问题无非就这几类,切不可着急忙慌乱改一通,让简单问题复杂化。


2、根据以上命令,提前设置监控预警。监控预警能够让你及时发现系统的性能信息、比如磁盘快满了,内存超负荷了,我们可以提前作出调整。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
13天前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
31 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
12天前
|
分布式计算 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(一)
32 5
|
12天前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
29 4
|
12天前
|
资源调度 大数据 分布式数据库
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
大数据-158 Apache Kylin 安装配置详解 集群模式启动(二)
22 2
|
13天前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
34 2
|
13天前
|
存储 消息中间件 druid
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
40 1
|
13天前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
20 0
|
29天前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
99 5
|
14天前
|
C# 开发工具 Windows
C# 获取Windows系统信息以及CPU、内存和磁盘使用情况
C# 获取Windows系统信息以及CPU、内存和磁盘使用情况
30 0
|
28天前
|
Prometheus Kubernetes 监控
使用kubectl快速查看各个节点的CPU和内存占用量
在Kubernetes集群中,安装metrics-server,并使用kubectl快速查看集群中各个节点的资源使用情况。
61 0