深入剖析docker核心技术（namespace、cgroups、union fs、网络）（二）-阿里云开发者社区

深入剖析docker核心技术（namespace、cgroups、union fs、网络）（一）：https://developer.aliyun.com/article/1417842

OverlayFS

大白话：就是把不同的目录结构，merge到一个目录去，并且把这个目录挂载到这个容器里面，这样每一个容器看到的都是自己独立的一个文件系统。

OverlayFS 是一种与 AUFS 类似的联合文件系统，同样属于文件级的存储驱动，包含了最初的 Overlay 和更新更稳定的 overlay2。

Overlay 只有两层：upper 层和 lower 层，Lower 层代表镜像层，upper 层代表容器可写层。

upper和lower会一起合并成一个合并层，就是mount指定两个层级，最后会被合并成一个目录。

如果一个目录在下层，那么在合并层是可见的（文件1）
如果一个目录在上层，那么在合并层也是可见的（文件4）
如果一个文件在上下层都存在，那么在合并层中用的是上层文件（文件2）

那么这就给容器机会了，在dockerfile中的每一条指令，都是原来层的上一层，每一层都往上叠一次，那么最终容器加载看到的文件项目就是文件Mount。

OverlayFS 文件系统例子操作

[root@node2 /]# mkdir upper lower merged work
[root@node2 /]# echo "from lower" > lower/in_lower.txt
[root@node2 /]# echo "from upper" > upper/in_upper.txt
[root@node2 /]# echo "from lower" > lower/in_both.txt
[root@node2 /]# echo "from upper" > upper/in_both.txt
[root@node2 /]# sudo mount -t overlay overlay -o lowerdir=`pwd`/lower,upperdir=`pwd`/upper,workdir=`pwd`/work `pwd`/merged
[root@node2 /]# cd merged/
[root@node2 merged]# ls
in_both.txt  in_lower.txt  in_upper.txt
# 当有同名文件的时候以上层为主
[root@node2 merged]# cat in_both.txt 
from upper

查看docker容器是怎么用的

可以看到GraphDriver这里就定义了文件系统，可以看到lowerdir有很多不同的部分，事实上，dockerfile中的每一层都做了一次monut，中间的指令都是一次次mount出来的。

[root@node2 /]# docker run -it --name centos -P centos /bin/bash
[root@26cb16ab2fc0 /]# exit
exit
[root@node2 /]# docker inspect 26cb16ab2fc0
"GraphDriver": {
            "Name": "overlay2",
            "Data": {
                "LowerDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0-init/diff:/var/lib/docker/overlay2/7da4ae3d97674a0cdfe8af9f9b341f75c3a436cf8538325b9e2263fbc043a990/diff",
                "MergedDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/merged",
                "UpperDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/diff",
                "WorkDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/work"
            }
        }

OCI 容器标准

Open Container Initiative

OCI 组织于 2015 年创建，是一个致力于定义容器镜像标准和运行时标准的开放式组织。
OCI 定义了运行时标准（Runtime Specification）、镜像标准（Image Specification）和分发标准（Distribution Specification）

运行时标准定义如何解压应用包并运行
镜像标准定义应用如何打包
分发标准定义如何分发容器镜像

Docker 引擎架构

在docker初期，docker daemon是主进程，任何的container进程都是daemon fork出来的，这样就有一个问题，如果docker重启或者升级，那么docker daemon这个父进程是要销毁的，那么这些子进程怎么办。这是docker早期的问题。

后面containerd出来了，他做了一个docker shim或者叫container shim，就是说containerd是一个单纯的daemon，所有fork出来的子进程的父进程不再说daemon，他为每一个容器进程构建了一个shim，作为他的父进程，那么 shim的父进程是谁呢，是systemd，这样的话containerd重启的话所有的容器是不受影响的。

容器里面的1号进程，是entrypoint指定的那个进程

网络

概述

Null(–net=None)

把容器放入独立的网络空间但不做任何网络配置；
用户需要通过运行 docker network 命令来完成网络配置。

Host

使用主机网络名空间，复用主机网络。

Container

重用其他容器的网络。

Bridge(–net=bridge)

使用 Linux 网桥和 iptables 提供容器互联，
Docker 在每台主机上创建一个名叫 docker0的网桥，
通过 veth pair 来连接该主机的每一个 EndPoint。

跨主机网络方式，下面两种

Overlay(libnetwork, libkv)

通过网络封包实现。

Remote(work with remote drivers)

Underlay：
• 使用现有底层网络，为每一个容器配置可路由的网络 IP。
Overlay：
• 通过网络封包实现。

默认模式–Bridge和NAT

在主机启动容器：

[root@node2 /]# docker run -it -p 8888:80 nginx

Docker 会以标准模式配置网络：

创建 veth pair；
将 veth pair的一端连接到 docker0 网桥；
veth pair 的另外一端设置为容器名空间的 eth0；
为容器名空间的 eth0 分配 ip；
主机上的 Iptables 规则：-A DOCKER ! -i docker0 -p tcp -m tcp --dport 8888 -j DNAT --to-destination 172.17.0.2:80

linux中是由bridge网桥设备的，图中的docker0就是网桥，docker驱动CNM会自动给容器分配ip（bridge模式下），任何会构建一个veth pair，是一个虚拟的网络设备，可以理解为是一个网线，有A，B两端，双向的。只需要创建一个veth pair，一端插在docker0网桥上面，一端查到容器里面，作为容器的虚拟网口，并且把ip地址配置在上面，这样从主机到容器的网络就联通了。

下面来查看这些信息

# 运行一个容器
# -p 8888:80的意思就是将主机的8888端口映射到容器的80端口
[root@node2 /]# docker run -it -p 8888:80 nginx
...
# 可以看到docker0这个网桥
[root@node2 /]# brctl show 
bridge name bridge id   STP enabled interfaces
docker0   8000.0242463a9968 no    veth5cecfe5
# 查看容器进程号
[root@node2 /]# docker inspect 6ef7f2dd7253|grep -i pid
            "Pid": 99551,
            "PidMode": "",
            "PidsLimit": 0,
# 查看该pid的net namespace下的网络
[root@node2 /]# nsenter -t 99551 -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
18: eth0@if19: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 172.17.0.2/16 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::42:acff:fe11:2/64 scope link 
       valid_lft forever preferred_lft forever
[root@node2 /]# nsenter -t 99551 -n ip r
default via 172.17.0.1 dev eth0 
172.17.0.0/16 dev eth0 proto kernel scope link src 172.17.0.2

可以看到这个容器有自己的interface和自己的路由表，那么在主机上就能访问到这个ip地址，网络是通的。这一切都是容器驱动帮我们做的，下面介绍Null的时候将介绍自己创建网络

[root@node2 /]# iptables-save
...
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 8888 -j DNAT --to-destination 172.17.0.2:80
...

iptable是linux内核里面处理数据包的时候，做包过滤和包修改的工具，可以定义一些规则，linux在处理这些数据包的时候来读这些规则，按照规则去修改数据包的包头。

Nul网络。

Null 模式是一个空实现，即容器没有配置任何网络。可以通过 Null 模式启动容器并在宿主机上通过命令为容器配置网络。

# 创建net namespace 的目录
[root@node2 /]# mkdir -p /var/run/netns
[root@node2 /]# find -L /var/run/netns -type l -delete
# 以Null网络模式启动nginx docker
[root@node2 /]# docker run --network=none  -d nginx
9ebdcd509ea7c11f454dc981808799183e847b03d6c0f519fd7316ea1f7f1818
# 找到容器对应的pid
[root@node2 /]# docker inspect 9ebdcd509|grep -i pid
            "Pid": 127513,
            "PidMode": "",
            "PidsLimit": 0,
# 检查容器的网络配置
[root@node2 /]# nsenter -t 127513 -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever

# 链接网络名称空间
[root@node2 /]# export pid=127513
[root@node2 /]# ln -s /proc/$pid/ns/net /var/run/netns/$pid
[root@node2 /]# ip netns list
127513
# 创建veth pair
[root@node2 /]# ip link add A type veth peer name B
# 往docker0这个网桥上插A口
[root@node2 /]# brctl addif docker0 A
# 启动A口
[root@node2 /]# ip link set A up
[root@node2 /]# SETIP=172.17.0.10
[root@node2 /]# SETMASK=16
[root@node2 /]# GATEWAY=172.17.0.1
# 将B口放到pid的namespace里面去
[root@node2 /]# ip link set B netns $pid
# 可以看到B口已经在这个namespace里面了
[root@node2 /]# nsenter -t $pid -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
20: B@if21: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
    link/ether 9a:39:63:07:3c:a2 brd ff:ff:ff:ff:ff:ff link-netnsid 0
# 将B口改名为eth0
[root@node2 /]# ip netns exec $pid ip link set dev B name eth0
# 启动eth0口
[root@node2 /]# ip netns exec $pid ip link set eth0 up
# 配置ip、mark
[root@node2 /]# ip netns exec $pid ip addr add $SETIP/$SETMASK dev eth0
# 配置路由
[root@node2 /]# ip netns exec $pid ip route add default via $GATEWAY
# 查看
[root@node2 /]# nsenter -t $pid -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state 
20: eth0@if21: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
    link/ether 9a:39:63:07:3c:a2 brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 172.17.0.10/16 scope global eth0
# 成功使用容器提供的服务
[root@node2 /]# curl 172.17.0.10
<!DOCTYPE html>
...
</html>

上面的命令其实就是默认的网桥模式做的事情

Underlay

上面介绍的都是解决了容器和主机的网络联通，那么如果想跨主机联通如何实现呢。第一种方法是，物理网络认识一个网络段，能不能预留一个网络段分配给容器呢，那么这样通过ip分配的机制把ip分配给容器，那么这样跨主机的网络就互通了，因为这个ip段是物理网络认识的，物理机知道路由怎么走。相当于容器的网络依托于物理的网络。这种模式就是Underlay。

采用 Linux 网桥设备（sbrctl），通过物理网络连通容器；
创建新的网桥设备 mydr0；
将主机网卡加入网桥；
把主机网卡的地址配置到网桥，并把默认路由规则转移到网桥 mydr0；
启动容器；
创建 veth 队，并且把一个 peer 添加到网桥 mydr0；
配置容器把 veth 的另一个 peer 分配给容器网卡；

Overlay

Docker overlay 网络驱动原生支持多主机网络；
Libnetwork 是一个内置的基于 VXLAN 的网络驱动

VXLAN

overlay就是隧道模式，容器A和容器B是不互通的，但是主机上的底层网络是互通的，overlay就是主机上的包发出去的时候，从主机A容器访问主机B容器，本身是不互通的。

overlay就是在每一个主机上面有一个设备，这个设备会处理每一个数据包，如果是容器网络的数据包，他会在容器网络的原始数据包上面加一层，在linux里面看到的任何的数据包，看到的是skb，skb会看到每一层header，ipheader，tcpheader，他可以在不破坏原来的header基础之上，在上面再加一层header，那么加上的这一层的原始地址就是主机A的地址，目标地址就是主机B的地址，这样数据包就可以传到对端了。

传到对端后，主机B的虚拟设备再把外层的header剥掉，剩下的数据包就是原来的数据包了，这样的话在主机上处理原始数据包的时候，看到目标地址，就知道是主机B的容器，就知道走哪个口了。所以所谓的overlay就是封包解包的过程。

Flannel

比较出名的flannel就是走overlay的，默认的主机上装的就是overlay的模式。flannel在每个主机上就会有flannel这样一个设备，任何数据包出去的时候，会被flannel封一层，这样数据包就能到达对端。

深入剖析docker核心技术（namespace、cgroups、union fs、网络）（二）

OverlayFS

OverlayFS 文件系统例子操作

OCI 容器标准

Docker 引擎架构

网络

概述

默认模式–Bridge和NAT

Nul网络。

Underlay

Overlay

VXLAN

Flannel

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像