一 cgroup 介绍
1,cgroup 是什么
cgroups,是一个非常强大的linux内核工具,他不仅可以限制被 namespace 隔离起来的资源, 还可以为资源设置权重、计算使用量、操控进程启停等等。 所以 cgroups(Control groups)实现了对资源的配额和度量。
2,cgroups有四大功能
●资源限制:可以对任务使用的资源总额进行限制
●优先级分配:通过分配的cpu时间片数量以及磁盘IO带宽大小,实际上相当于控制了任务运行优先级
●资源统计:可以统计系统的资源使用量,如cpu时长,内存用量等
●任务控制:cgroup可以对任务执行挂起、恢复等操作
二 cgroups对 CPU 的控制
1,cpu 的工作原理
关键词 周期(--cpu-period) 占比时间(--cpu-quota)
周期:你可以理解为一个周期 cpu 在以肉眼看不见的速度 轮流处理4个容器,一个周期就是 处理完4个容器 的一轮
占比时间: 你可以理解为 在一个周期里 对容器3 的优先级高 优先处理容器3
2,设置CPU使用率上限
2.1 cgroups对 CPU 的控制 原理
Linux通过CFS(Completely Fair Scheduler,完全公平调度器)来调度各个进程对CPU的使用。CFS默认的调度周期是100ms。
我们可以设置每个容器进程的调度周期,以及在这个周期内各个容器最多能使用多少 CPU 时间
/sys/fs/cgroup/cpu/docker/容器启动id/
2.2 --cpu-period
使用 --cpu-period 即可设置调度周期,cpu分配的周期(微秒,所以文件名中用 us 表示),默认为100000。不改
CFS 周期的有效范围是 1ms~1s,对应的 --cpu-period 的数值范围是 1000~1000000。 周期100毫秒
2.3 --cpu-quota
使用 --cpu-quota 即可设置在每个周期内容器能使用的CPU时间。两者可以配合使用。
表示该cgroups限制占用的时间(微秒),默认为-1,表示不限制。 如果设为50000,表示占用50000/100000=50%的CPU
而容器的 CPU 配额必须不小于 1ms,即 --cpu-quota 的值必须 >= 1000。
2.4 设置CPU使用率上限 演示
启动 test51的容器
去到 该目录下 (容器启动的id 号)
看到
#cpu.cfs_period_us:cpu分配的周期(微秒,所以文件名中用 us 表示),默认为100000。
#cpu.cfs_quota_us:表示该cgroups限制占用的时间(微秒),默认为-1,表示不限制。 如果设为50000,表示占用50000/100000=50%的CPU。
设置50%的比例分配CPU使用时间上限
去到 test51 写测试占用cpu 的脚本
加执行权限 执行脚本
top 查看宿主机 可以看到 容器test51 只会占用 50% 的cpu
2.5 创建容器时 限制cpu
docker run -itd --name test6 --cpu-quota 50000 centos:7 /bin/bash #可以重新创建一个容器并设置限额
3, 设置CPU资源占用比(设置多个容器时才有效)
3.1 设置CPU资源占用比原理
Docker 通过 --cpu-shares 指定 CPU 份额,默认值为1024,值为1024的倍数。
#创建两个容器为 c1 和 c2,若只有这两个容器,设置容器的权重,使得c1和c2的CPU资源占比为1/3和2/3。
3.2 语法
1:2 的权重
docker run -itd --name c1 --cpu-shares 512 centos:7 docker run -itd --name c2 --cpu-shares 1024 centos:7 docker stats 查看容器运行状态(动态更新)
3.3 演示
先启动 test52 test53 容器
分别进入容器,进行压力测试
yum install -y epel-release yum install stress -y stress -c 4 #产生四个进程,每个进程都反复不停的计算随机数的平方根
查看容器运行状态(动态更新)
docker stats 可以看到是2:1
4, 设置容器绑定指定的CPU
4,1 cpu 核数原理
cpu 是0 开始 例如如果有4核 编号分别是 0 1 2 3
4.2 语法
docker run -itd --name test7 --cpuset-cpus 1,3 centos:7 /bin/bash --cpuset-cpus 1,3 容器test7 绑定cpu 1和3
4.3 演示
开启容器test54 绑定cpu0
进行压测
#进入容器,进行压力测试 yum install -y epel-release yum install stress -y stress -c 4
docker stats 查看状态 可以看到容器 test54 只绑定在第一个cpu 上
三 cgroups对内存使用的限制
1,限制容器可以使用的最大内存
docker run -itd --name test8 -m 512m centos:7 /bin/bash 限制容器 test8 内存使用512M
演示:
2, 限制可用的 swap 大小
2,1 限制 swap 规则
强调一下,--memory-swap(swap 内存) 是必须要与 --memory (真实物理内存)一起使用的。
正常情况下,--memory-swap 的值包含容器可用内存和可用 swap。
所以 -m 300m --memory-swap=1g 的含义为:容器可以使用 300M 的物理内存,并且可以使用 700M(1G - 300)的 swap。
如果 --memory-swap 设置为 0 或者 不设置,则容器可以使用的 swap 大小为 -m 值的两倍。
如果 --memory-swap 的值和 -m 值相同,则容器不能使用 swap。
如果 --memory-swap 值为 -1,它表示容器程序使用的内存受限,而可以使用的 swap 空间使用不受限制(宿主机有多少 swap 容器就可以使用多少)。
2.2 限制 swap 演示
docker run -itd -m 200m --memory-swap=1g nginx:latest --vm 1 --vm-bytes 100M --vm 1 启动一个内存工作线程 --vm-bytes 每个线程分配100m
四 对磁盘IO配额控制(blkio)的限制
1,命令集合
限制容器的 读写速度
--device-read-bps:限制某个设备上的读速度bps(数据量),单位可以是kb、mb(M)或者gb。 例:docker run -itd --name test9 --device-read-bps /dev/sda:1M centos:7 /bin/bash --device-write-bps : 限制某个设备上的写速度bps(数据量),单位可以是kb、mb(M)或者gb。 例:docker run -itd --name test10 --device-write-bps /dev/sda:1mb centos:7 /bin/bash
限制容器的读写速度
--device-read-iops :限制读某个设备的iops(次数) --device-write-iops :限制写入某个设备的iops(次数)
2, 演示 限制写速度
限制写速度 1M 一秒
进入该容器 写入数据 测试速度
#通过dd来验证写速度 dd if=/dev/zero of=test.out bs=1M count=10 oflag=direct #添加oflag参数以规避掉文件系统cache (规避放到缓存)
演示失败 因为docker版本不符合
3, 清理docker占用的磁盘空间
docker system prune -a #可以用于清理磁盘,删除关闭的容器、无用的数据卷和网络
五 docker 版本
目前 yum 安装的 版本 是 26.1.0
企业常用版本: 20.10.17
六 生产故障
1, 故障
由于docker容器故障导致大量日志集满,会造成磁盘空间满
2,解决办法
先dh -Th 看总大小
再 du -sh 看每个日志的大小
运行脚本删除不必要的日志
3, 脚本
#!/bin/bash logs=$ (find /var/lib/docker/containers/ -name *-json.log*) for log in $logs do cat /dev/null > $log done
当日志占满之后如何处理
###设置docker日志文件数量及每个日志大小
vim /etc/docker/daemon.json
{
"registry-mirrors": ["http://f613ce8f.m.daocloud.io"],
"log-driver": "json-file", #我的一日志格式
"log-opts": { "max-size" : "500m", "max-file" : "3"} 日志的参数最大500M 我最大容器中有三个日志文件 每个日志文件大小是500M
}
修改完需要重新加载 systemctl daemon-reload
4, 演示
先进到docker 放日志文件的地方 /var/lib/docker /containers
du -sh * 查看所有日志文件的大小 目前正常
非正常 启动容器 模拟故障
du -sh * 可以看到有一个 日志非常大
写脚本 加权限 并运行
再次du -sh * 正常了
5, 脚本具体解释
这是一个使用 Bash shell 编写的脚本,其功能是清空指定路径下所有 Docker 容器日志文件。下面是该脚本的详细解释:
```bash
#!/bin/bash
```
这行是“shebang”语句,指定了该脚本应使用 `/bin/bash` 解释器来执行。
```bash
logs=$(find /var/lib/docker/containers/ -name *-json.log*)
```
这行代码利用 `find` 命令查找位于 `/var/lib/docker/containers/` 目录及其子目录下的所有以 `-json.log` 结尾的文件,并将这些文件的完整路径保存到名为 `logs` 的变量中。`$(...)` 表示命令替换,即执行括号内的命令并将输出结果作为字符串赋值给变量。
```bash
for log in $logs
do
```
这里使用 `for` 循环遍历之前存储在变量 `logs` 中的所有日志文件路径。每次循环迭代时,当前日志文件的路径会被赋值给变量 `log`。
```bash
cat /dev/null > $log
```
在循环体内部,使用 `cat` 命令结合特殊文件 `/dev/null`(空设备文件,读取它返回空,写入它则丢弃所有数据)和重定向操作符 `>` 来清空指定的日志文件。具体来说,`cat /dev/null > $log` 的作用是将 `/dev/null` 的内容(即空)重定向到变量 `$log` 指定的日志文件中,从而达到清空该日志文件的目的。
```bash
done
```
这行标志着 `for` 循环的结束。
综上所述,这个 Bash 脚本的主要目的是查找 `/var/lib/docker/containers/` 目录下所有 Docker 容器生成的 JSON 格式的日志文件,并逐个清空它们的内容。
七 总结
Cgroup(Control Groups)是一个Linux内核的特性,通过内核来限制记录和隔离进程组的系统资源使用(CPU/内存/磁盘I/O等)
1 对CPU限制
CPU-period(CPU周期):指的是CPU在给与当前管理控制容器的分配资源时,CPU分配周期,默认为1s,此配置可以在运行时直接指定
CPU-quota(CPU配额):直接限制了Cgroup可以使用CPU的时间,如果设置了Cgroup的CPU配额1000000us(微秒)那么在每个100ms(毫秒)内的时间窗口,Cgroup最多使只能使用1000000us(微秒)的CPU
CPUset-CPU:指定容器仅能使用指定的CPU,按照CPU的下标来表示
2 对内存限制
内存使用上限(硬限制)
内存+swap使用上限(硬限制)比如,swap 1G 必须需要设置物理内存,举例200M 1G-200M=800M的swap
3 对磁盘I/O限制
--device-read-bps:限制某个设备上的读速度bps(数据量),单位可以是kb、mb(M)或者gb。
--device-write-bps : 限制某个设备上的写速度bps(数据量),单位可以是kb、mb(M)或者gb。
--device-read-iops :限制读某个设备的iops(次数)
--device-write-iops :限制写入某个设备的iops(次数)
八 namespace 的六大隔离
Linux中的Namespace提供了六种不同的隔离机制,允许在单个操作系统内部创建多个独立的执行环境。这六大隔离分别是:
- PID Namespace(进程ID隔离):
- PID Namespace为进程提供了一个独立的进程标识符空间。在每个PID Namespace中,都可以有自己的一套进程ID,因此,不同Namespace中的进程可以拥有相同的PID,从而实现了进程ID的隔离。这使得容器内的初始进程可以认为自己是PID 1,进而模拟出一个独立系统的环境。
- NET Namespace(网络隔离):
- NET Namespace允许每个容器拥有自己的网络设备、IP地址、路由表、端口等,从而达到网络层面的隔离。这意味着容器内的网络配置不会影响到宿主机或其他容器。
- IPC Namespace(进程间通信隔离):
- 用于隔离System V IPC、POSIX消息队列和共享内存等进程间通信机制。每个IPC Namespace有自己独立的IPC资源,确保了容器之间不会互相干扰。
- UTS Namespace(主机名与域名隔离):
- 允许每个容器设置独立的主机名和域名,使得容器内部可以认为自己是一台独立的主机。
- USER Namespace(用户与用户组隔离):
- 提供了用户和用户组的隔离,使得容器内的用户ID和组ID可以与宿主机上的不同,提升了容器的安全性,允许非特权用户在容器内部以root权限运行进程,而不会影响到宿主机上的真实root用户。
- MNT Namespace(文件系统挂载点隔离):
- 允许每个容器拥有独立的文件系统挂载点视图,可以有不同的根目录和挂载点配置。这使得容器可以拥有自己的文件系统层次结构,对文件系统的修改不会影响到宿主机或其他容器。
这些Namespace机制共同工作,为Docker等容器技术提供了强大的资源隔离能力,使得容器能够像运行在独立的系统中一样运行应用程序,但实际共享的是宿主机的内核。