K8S pod内存告警分析

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: K8S pod内存告警分析

**背景:**

目前prometheus 给pod的内存告警阀值设置的80%,由于JVM 设置最高申请内存为pod limit 的75%,通过arthas查看到堆内存和元空间占用内存之和跟prometheus告警值不同。

**一、排查步骤:**

**1、prometheus 告警使用参数****

使用container_memory_rss值进行告警


   ```html

- alert: Pod内存使用率

       expr: |

          sum(container_memory_rss{image!=""}) by(pod, namespace) /

          sum(container_spec_memory_limit_bytes{image!=""}) by(pod, namespace) * 100 != +inf > 80

       for: 5m

       labels:

         severity: warning

       annotations:

         summary: "命名空间: {{ $labels.namespace }} | Pod名称: {{ $labels.pod }} 内存使用大于80% (当前值: {{ $value }})"

```

**2、找到pod运行node节点**

```html

[root@pro-k8s-master ~]# kubectl -n msApp

```

**3、通过Docker state 查看容器资源**

```html

[root@k8s-node1 ~]# docker ps |grep mayi-center-64ddfdd6-5crl6

[root@pro-node1 ~]# docker ps |grep mayi-center-64ddfdd6-2dzpt

b6b3733024c2   192.168.0.45/middleground-business-center/pro_mayi-center            "sh -c 'JAVA $JAVA_O…"   7 days ago          Up 7 days                               k8s_mayi-center_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_0

5770fe14e7aa   registry.cn-shanghai.aliyuncs.com/google_containers/pause:3.1                 "/pause"                 7 days ago          Up 7 days                               k8s_POD_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_0

[root@k8s-node1 ~]#docker state b6b3733024c2

CONTAINER ID        NAME                                                                                                         CPU %               MEM USAGE / LIMIT   MEM %               NET I/O             BLOCK I/O           PIDS

b6b3733024c2        k8s_mayi-center_mayi-center-9d5d588c5-d7sgd_msapp_eac4e708-bd0a-483c-b5d4-734f95c9f1c7_0   4.31%               1.788GiB / 2GiB     89.40%              0B / 0B             1.52MB / 137MB      132

```

**4、通过top -p 查看容器内存情况**

```html

[root@pro-k8s-node1 ~]# top -p 794890

PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                      

794890 root      20   0 7483084   1.8g  15448 S   6.7  2.9 392:48.42 java

```

**5、通过ps查看**

```html

[root@pro-k8s-node1 ~]# ps -ef|grep mayi

root     277280 257311  0 10:33 pts/0    00:00:00 grep --color=auto mayi

root     794890 794871  3 Sep08 ?        06:32:39 java -XX:+UseContainerSupport .....mayi-center ..... -jar /app.jar

[root@pro-k8s-node1 ~]# ps -e -o 'pid,comm,args,pcpu,rsz,vsz,stime,user,uid' | grep 794890

279183 grep            grep --color=auto 794890     0.0   960 112712 10:35 root         0

794890 java            java -XX:+UseContainerSuppo  3.8 1883224 7483084 Sep08 root      0

```

**6、查看jvm内存**

通过arthas-boot 查看堆内存和非堆内存

**二、查看结果**

1、通过top查看到容器内对应java进程占用内存为1.7G,跟prometheus几乎一致

2、通过ps 查看到容器内对应java进程占用内存为1.7G+,跟prometheus几乎一致

3、通过docker state 查看到容器内存查看内存内存为1.7G+,跟prometheus几乎一致

4、通过arthas-boot查看到jvm堆内存和非堆内存之和为1.6G+。

**三、结论**

由于通过prometheus pod内存告警和实际jvm查看到的内存不同带来的疑问,初步怀疑是jvm本身占用了部分内存。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
打赏
0
0
0
0
23
分享
相关文章
监控和分析 JavaScript 内存使用情况
【10月更文挑战第30天】通过使用上述的浏览器开发者工具、性能分析工具和内存泄漏检测工具,可以有效地监控和分析JavaScript内存使用情况,及时发现和解决内存泄漏、过度内存消耗等问题,从而提高JavaScript应用程序的性能和稳定性。在实际开发中,可以根据具体的需求和场景选择合适的工具和方法来进行内存监控和分析。
K8S异常诊断之俺的内存呢
本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。
K8S异常诊断之俺的内存呢
|
4月前
|
动态内存分配与管理详解(附加笔试题分析)(上)
动态内存分配与管理详解(附加笔试题分析)
101 1
【C++核心】C++内存分区模型分析
这篇文章详细解释了C++程序执行时内存的四个区域:代码区、全局区、栈区和堆区,以及如何在这些区域中分配和释放内存。
77 2
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
100 1
|
3月前
|
如何使用内存快照分析工具来分析Node.js应用的内存问题?
需要注意的是,不同的内存快照分析工具可能具有不同的功能和操作方式,在使用时需要根据具体工具的说明和特点进行灵活运用。
79 3
【Azure App Service】部署在App Service上的.NET应用内存消耗不能超过2GB的情况分析
x64 dotnet runtime is not installed on the app service by default. Since we had the app service running in x64, it was proxying the request to a 32 bit dotnet process which was throwing an OutOfMemoryException with requests >100MB. It worked on the IaaS servers because we had the x64 runtime install
k8s 设置pod 的cpu 和内存
在 Kubernetes (k8s) 中,设置 Pod 的 CPU 和内存资源限制和请求是非常重要的,因为这有助于确保集群资源的合理分配和有效利用。你可以通过定义 Pod 的 `resources` 字段来设置这些限制。 以下是一个示例 YAML 文件,展示了如何为一个 Pod 设置 CPU 和内存资源请求(requests)和限制(limits): ```yaml apiVersion: v1 kind: Pod metadata: name: example-pod spec: containers: - name: example-container image:
540 1
使用 Chrome 浏览器的内存分析工具来检测 JavaScript 中的内存泄漏
【10月更文挑战第25天】利用 Chrome 浏览器的内存分析工具,可以较为准确地检测 JavaScript 中的内存泄漏问题,并帮助我们找出潜在的泄漏点,以便采取相应的解决措施。
544 9
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。

热门文章

最新文章