Kubernetes 内存泄露怎么玩

简介: Kubernetes 内存泄露怎么玩


网络异常,图片无法展示
|

问题描述

  1. 当 k8s 集群运行日久以后,有的 node 无法再新建 pod,并且出现如下错误,当重启服务器之后,才可以恢复正常使用。查看 pod 状态的时候会出现以下报错。
applying cgroup … caused: mkdir …no space left on device

或者在 describe pod 的时候出现 cannot allocate memory。

这时候你的 k8s 集群可能就存在内存泄露的问题了,当创建的 pod 越多的时候内存会泄露的越多,越快。

  1. 具体查看是否存在内存泄露
$ cat /sys/fs/cgroup/memory/kubepods/memory.kmem.slabinfo

当出现 cat: /sys/fs/cgroup/memory/kubepods/memory.kmem.slabinfo: Input/output error 则说明不存在内存泄露的情况 如果存在内存泄露会出现

slabinfo - version: 2.1# name            <active_objs> <num_objs> <objsize> <objperslab> <pagesperslab> : tunables <limit> <batchcount> <sharedfactor> : slabdata <active_slabs> <num_slabs> <sharedavail>

解决方案

  1. 解决方法思路:关闭 runc 和 kubelet 的 kmem,因为升级内核的方案改动较大,此处不采用。
  2. kmem 导致内存泄露的原因:

内核对于每个 cgroup 子系统的的条目数是有限制的,限制的大小定义在 kernel/cgroup.c #L139,当正常在 cgroup 创建一个 group 的目录时,条目数就加 1。我们遇到的情况就是因为开启了 kmem accounting 功能,虽然 cgroup 的目录删除了,但是条目没有回收。这样后面就无法创建 65535 个 cgroup 了。也就是说,在当前内核版本下,开启了 kmem accounting 功能,会导致 memory cgroup 的条目泄漏无法回收。

2.1 编译 runc

  • 配置 go 语言环境
$ wget https://dl.google.com/go/go1.12.9.linux-amd64.tar.gz$ tar xf go1.12.9.linux-amd64.tar.gz -C /usr/local/
# 写入bashrc$ vim ~/.bashrc$ export GOPATH="/data/Documents"$ export GOROOT="/usr/local/go"$ export PATH="$GOROOT/bin:$GOPATH/bin:$PATH"$ export GO111MODULE=off
# 验证$ source ~/.bashrc$ go env
  • 下载 runc 源码
$ mkdir -p /data/Documents/src/github.com/opencontainers/$ cd /data/Documents/src/github.com/opencontainers/$ git clone https://github.com/opencontainers/runc$ cd runc/$ git checkout v1.0.0-rc9  # 切到v1.0.0-rc9 tag
  • 编译
# 安装编译组件$ sudo yum install libseccomp-devel$ make BUILDTAGS='seccomp nokmem'# 编译完成之后会在当前目录下看到一个runc的可执行文件,等kubelet编译完成之后会将其替换

2.2 编译 kubelet

  • 下载 kubernetes 源码
$ mkdir -p /root/k8s/$ cd /root/k8s/$ git clone https://github.com/kubernetes/kubernetes$ cd kubernetes/$ git checkout v1.15.3
  • 制作编译环境的镜像(Dockerfile 如下)
FROM centos:centos7.3.1611
ENV GOROOT /usr/local/goENV GOPATH /usr/local/gopathENV PATH /usr/local/go/bin:$PATH
RUN yum install rpm-build which where rsync gcc gcc-c++ automake autoconf libtool make -y \    && curl -L https://studygolang.com/dl/golang/go1.12.9.linux-amd64.tar.gz | tar zxvf - -C /usr/local
  • 在制作好的 go 环境镜像中来进行编译 kubelet
$ docker run  -it --rm   -v /root/k8s/kubernetes:/usr/local/gopath/src/k8s.io/kubernetes   build-k8s:centos-7.3-go-1.12.9-k8s-1.15.3   bash$ cd /usr/local/gopath/src/k8s.io/kubernetes#编译$ GO111MODULE=off KUBE_GIT_TREE_STATE=clean KUBE_GIT_VERSION=v1.15.3 make kubelet GOFLAGS="-tags=nokmem"
  1. 替换原有的 runc 和 kubelet
  • 将原有 runc 和 kubelet 备份
$ mv /usr/bin/kubelet /home/kubelet$ mv /usr/bin/docker-runc /home/docker-runc
  • 停止 docker 和 kubelet
$ systemctl stop docker$ systemctl stop kubelet
  • 将编译好的 runc 和 kubelet 进行替换
$ cp kubelet /usr/bin/kubelet$ cp kubelet /usr/local/bin/kubelet$ cp runc /usr/bin/docker-runc
  • 检查 kmem 是否关闭前需要将此节点的 pod 杀掉重启或者重启服务器,当结果为 0 时成功
$ cat /sys/fs/cgroup/memory/kubepods/burstable/memory.kmem.usage_in_bytes
  • 检查是否还存在内存泄露的情况
$ cat /sys/fs/cgroup/memory/kubepods/memory.kmem.slabinfo



相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
相关文章
|
13天前
|
存储 Kubernetes 调度
Kubernetes Pod生命周期
Kubernetes Pod生命周期
21 0
Kubernetes Pod生命周期
|
9月前
|
Kubernetes 监控 NoSQL
12-Kubernetes-Pod详解-生命周期
12-Kubernetes-Pod详解-生命周期
|
9月前
|
Prometheus Kubernetes 监控
Kubernetes APIServer 内存爆满分析
董江,容器技术布道者及实践者,中国移动高级系统架构专家,曾担任华为云核心网技术专家,CloudNative社区核心成员,KubeServiceStack社区发起者,Prometheus社区PMC,Knative Committer,Grafana社区Contributer。 欢迎关注:https://kubeservice.cn/
Kubernetes APIServer 内存爆满分析
|
11月前
|
存储 Prometheus Kubernetes
细说Kubernetes Pod的驱逐
细说Kubernetes Pod的驱逐
|
11月前
|
设计模式 Kubernetes Java
Kubernetes中Pod的实现原理
在Kubernetes里部署一个应用的过程。Pod,是Kubernetes项目中最小的API对象。更专业说法,是Kubernetes项目的原子调度单位。
99 0
|
存储 Kubernetes Java
Kubernetes rubbish 如何回收
Kubernetes rubbish 如何回收
249 0
|
Kubernetes 网络协议 应用服务中间件
Kubernetes-Pod介绍(二)-生命周期
Pod对象自从其创建开始至其终止退出的时间范围称为其生命周期。在这段时间中,Pod会处于多种不同的状态,并执行一些操作;其中,创建主容器(main container)为必需的操作,其他可选的操作还包括运行初始化容器(init container)、容器启动后钩子(post start hook)、容器的存活性探测(liveness probe)、就绪性探测(readiness probe)以及容器终止前钩子(pre stop hook)等
|
运维 Kubernetes 监控
Kubernetes组件问题排查的一些方法
Kubernetes组件问题排查的一些方法
Kubernetes组件问题排查的一些方法
|
Kubernetes 监控 API
Kubernetes资源对象:DaemonSet
Kubernetes资源对象:DaemonSet
98 0
|
自然语言处理 Kubernetes Perl
Kubernetes资源对象:Deployment
Kubernetes资源对象:Deployment
148 0