深入剖析docker核心技术(namespace、cgroups、union fs、网络)(二)

简介: 深入剖析docker核心技术(namespace、cgroups、union fs、网络)(二)

深入剖析docker核心技术(namespace、cgroups、union fs、网络)(一):https://developer.aliyun.com/article/1417842

OverlayFS

大白话:就是把不同的目录结构,merge到一个目录去,并且把这个目录挂载到这个容器里面,这样每一个容器看到的都是自己独立的一个文件系统。

OverlayFS 是一种与 AUFS 类似的联合文件系统,同样属于文件级的存储驱动,包含了最初的 Overlay 和 更新更稳定的 overlay2。

Overlay 只有两层:upper 层和 lower 层,Lower 层代表镜像层,upper 层代表容器可写层。

upper和lower会一起合并成一个合并层,就是mount指定两个层级,最后会被合并成一个目录。

  • 如果一个目录在下层,那么在合并层是可见的(文件1)
  • 如果一个目录在上层,那么在合并层也是可见的(文件4)
  • 如果一个文件在上下层都存在,那么在合并层中用的是上层文件(文件2)

那么这就给容器机会了, 在dockerfile中的每一条指令,都是原来层的上一层,每一层都往上叠一次,那么最终容器加载看到的文件项目就是文件Mount。

OverlayFS 文件系统例子操作

[root@node2 /]# mkdir upper lower merged work
[root@node2 /]# echo "from lower" > lower/in_lower.txt
[root@node2 /]# echo "from upper" > upper/in_upper.txt
[root@node2 /]# echo "from lower" > lower/in_both.txt
[root@node2 /]# echo "from upper" > upper/in_both.txt
[root@node2 /]# sudo mount -t overlay overlay -o lowerdir=`pwd`/lower,upperdir=`pwd`/upper,workdir=`pwd`/work `pwd`/merged
[root@node2 /]# cd merged/
[root@node2 merged]# ls
in_both.txt  in_lower.txt  in_upper.txt
# 当有同名文件的时候以上层为主
[root@node2 merged]# cat in_both.txt 
from upper

查看docker容器是怎么用的

可以看到GraphDriver这里就定义了文件系统,可以看到lowerdir有很多不同的部分,事实上,dockerfile中的每一层都做了一次monut,中间的指令都是一次次mount出来的。

[root@node2 /]# docker run -it --name centos -P centos /bin/bash
[root@26cb16ab2fc0 /]# exit
exit
[root@node2 /]# docker inspect 26cb16ab2fc0
"GraphDriver": {
            "Name": "overlay2",
            "Data": {
                "LowerDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0-init/diff:/var/lib/docker/overlay2/7da4ae3d97674a0cdfe8af9f9b341f75c3a436cf8538325b9e2263fbc043a990/diff",
                "MergedDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/merged",
                "UpperDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/diff",
                "WorkDir": "/var/lib/docker/overlay2/bd7b9b6577911e31ba997a11022b8241cebd8d6b435aa8d8b109f18f41d9b7f0/work"
            }
        }

OCI 容器标准

Open Container Initiative

  1. OCI 组织于 2015 年创建,是一个致力于定义容器镜像标准和运行时标准的开放式组织。
  2. OCI 定义了运行时标准(Runtime Specification)、镜像标准(Image Specification)和分发标准(Distribution Specification)
  • 运行时标准定义如何解压应用包并运行
  • 镜像标准定义应用如何打包
  • 分发标准定义如何分发容器镜像

Docker 引擎架构

在docker初期,docker daemon是主进程, 任何的container进程都是daemon fork出来的,这样就有一个问题,如果docker重启或者升级,那么docker daemon这个父进程是要销毁的,那么这些子进程怎么办。这是docker早期的问题。

 后面containerd出来了,他做了一个docker shim或者叫container shim,就是说containerd是一个单纯的daemon,所有fork出来的子进程的父进程不再说daemon,他为每一个容器进程构建了一个shim,作为他的父进程,那么 shim的父进程是谁呢,是systemd,这样的话containerd重启的话所有的容器是不受影响的。

容器里面的1号进程,是entrypoint指定的那个进程

网络

概述

  • Null(–net=None)
把容器放入独立的网络空间但不做任何网络配置;
用户需要通过运行 docker network 命令来完成网络配置。
  • Host
使用主机网络名空间,复用主机网络。
  • Container
重用其他容器的网络。
  • Bridge(–net=bridge)
使用 Linux 网桥和 iptables 提供容器互联,
Docker 在每台主机上创建一个名叫 docker0的网桥,
通过 veth pair 来连接该主机的每一个 EndPoint。

跨主机网络方式,下面两种

  • Overlay(libnetwork, libkv)
通过网络封包实现。
  • Remote(work with remote drivers)
Underlay:
• 使用现有底层网络,为每一个容器配置可路由的网络 IP。
Overlay:
• 通过网络封包实现。

默认模式–Bridge和NAT

在主机启动容器:

[root@node2 /]# docker run -it -p 8888:80 nginx

Docker 会以标准模式配置网络:

  • 创建 veth pair;
  • 将 veth pair的一端连接到 docker0 网桥;
  • veth pair 的另外一端设置为容器名空间的 eth0;
  • 为容器名空间的 eth0 分配 ip;
  • 主机上的 Iptables 规则:-A DOCKER ! -i docker0 -p tcp -m tcp --dport 8888 -j DNAT --to-destination 172.17.0.2:80

linux中是由bridge网桥设备的,图中的docker0就是网桥,docker驱动CNM会自动给容器分配ip(bridge模式下),任何会构建一个veth pair,是一个虚拟的网络设备,可以理解为是一个网线,有A,B两端,双向的。只需要创建一个veth pair,一端插在docker0网桥上面,一端查到容器里面,作为容器的虚拟网口,并且把ip地址配置在上面,这样从主机到容器的网络就联通了。

下面来查看这些信息

# 运行一个容器
# -p 8888:80的意思就是将主机的8888端口映射到容器的80端口
[root@node2 /]# docker run -it -p 8888:80 nginx
...
# 可以看到docker0这个网桥
[root@node2 /]# brctl show 
bridge name bridge id   STP enabled interfaces
docker0   8000.0242463a9968 no    veth5cecfe5
# 查看容器进程号
[root@node2 /]# docker inspect 6ef7f2dd7253|grep -i pid
            "Pid": 99551,
            "PidMode": "",
            "PidsLimit": 0,
# 查看该pid的net namespace下的网络
[root@node2 /]# nsenter -t 99551 -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
18: eth0@if19: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 172.17.0.2/16 scope global eth0
       valid_lft forever preferred_lft forever
    inet6 fe80::42:acff:fe11:2/64 scope link 
       valid_lft forever preferred_lft forever
[root@node2 /]# nsenter -t 99551 -n ip r
default via 172.17.0.1 dev eth0 
172.17.0.0/16 dev eth0 proto kernel scope link src 172.17.0.2

 可以看到这个容器有自己的interface和自己的路由表,那么在主机上就能访问到这个ip地址,网络是通的。这一切都是容器驱动帮我们做的,下面介绍Null的时候将介绍自己创建网络

[root@node2 /]# iptables-save
...
-A DOCKER ! -i docker0 -p tcp -m tcp --dport 8888 -j DNAT --to-destination 172.17.0.2:80
...


iptable是linux内核里面处理数据包的时候,做包过滤和包修改的工具,可以定义一些规则,linux在处理这些数据包的时候来读这些规则,按照规则去修改数据包的包头。

Nul网络。

Null 模式是一个空实现,即容器没有配置任何网络。可以通过 Null 模式启动容器并在宿主机上通过命令为容器配置网络。

# 创建net namespace 的目录
[root@node2 /]# mkdir -p /var/run/netns
[root@node2 /]# find -L /var/run/netns -type l -delete
# 以Null网络模式启动nginx docker
[root@node2 /]# docker run --network=none  -d nginx
9ebdcd509ea7c11f454dc981808799183e847b03d6c0f519fd7316ea1f7f1818
# 找到容器对应的pid
[root@node2 /]# docker inspect 9ebdcd509|grep -i pid
            "Pid": 127513,
            "PidMode": "",
            "PidsLimit": 0,
# 检查容器的网络配置
[root@node2 /]# nsenter -t 127513 -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
# 链接网络名称空间
[root@node2 /]# export pid=127513
[root@node2 /]# ln -s /proc/$pid/ns/net /var/run/netns/$pid
[root@node2 /]# ip netns list
127513
# 创建veth pair
[root@node2 /]# ip link add A type veth peer name B
# 往docker0这个网桥上插A口
[root@node2 /]# brctl addif docker0 A
# 启动A口
[root@node2 /]# ip link set A up
[root@node2 /]# SETIP=172.17.0.10
[root@node2 /]# SETMASK=16
[root@node2 /]# GATEWAY=172.17.0.1
# 将B口放到pid的namespace里面去
[root@node2 /]# ip link set B netns $pid
# 可以看到B口已经在这个namespace里面了
[root@node2 /]# nsenter -t $pid -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
20: B@if21: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN group default qlen 1000
    link/ether 9a:39:63:07:3c:a2 brd ff:ff:ff:ff:ff:ff link-netnsid 0
# 将B口改名为eth0
[root@node2 /]# ip netns exec $pid ip link set dev B name eth0
# 启动eth0口
[root@node2 /]# ip netns exec $pid ip link set eth0 up
# 配置ip、mark
[root@node2 /]# ip netns exec $pid ip addr add $SETIP/$SETMASK dev eth0
# 配置路由
[root@node2 /]# ip netns exec $pid ip route add default via $GATEWAY
# 查看
[root@node2 /]# nsenter -t $pid -n ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state 
20: eth0@if21: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
    link/ether 9a:39:63:07:3c:a2 brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 172.17.0.10/16 scope global eth0
# 成功使用容器提供的服务
[root@node2 /]# curl 172.17.0.10
<!DOCTYPE html>
...
</html>

上面的命令其实就是默认的网桥模式做的事情

Underlay

上面介绍的都是解决了容器和主机的网络联通,那么如果想跨主机联通如何实现呢。第一种方法是,物理网络认识一个网络段,能不能预留一个网络段分配给容器呢,那么这样通过ip分配的机制把ip分配给容器,那么这样跨主机的网络就互通了,因为这个ip段是物理网络认识的,物理机知道路由怎么走。相当于容器的网络依托于物理的网络。这种模式就是Underlay。

  • 采用 Linux 网桥设备(sbrctl),通过物理网络连通容器;
  • 创建新的网桥设备 mydr0;
  • 将主机网卡加入网桥;
  • 把主机网卡的地址配置到网桥,并把默认路由规则转移到网桥 mydr0;
  • 启动容器;
  • 创建 veth 队,并且把一个 peer 添加到网桥 mydr0;
  • 配置容器把 veth 的另一个 peer 分配给容器网卡;

Overlay

  • Docker overlay 网络驱动原生支持多主机网络;
  • Libnetwork 是一个内置的基于 VXLAN 的网络驱动

VXLAN

overlay就是隧道模式,容器A和容器B是不互通的,但是主机上的底层网络是互通的,overlay就是主机上的包发出去的时候,从主机A容器访问主机B容器,本身是不互通的。

 overlay就是在每一个主机上面有一个设备,这个设备会处理每一个数据包,如果是容器网络的数据包,他会在容器网络的原始数据包上面加一层,在linux里面看到的任何的数据包,看到的是skb,skb会看到每一层header,ipheader,tcpheader,他可以在不破坏原来的header基础之上,在上面再加一层header,那么加上的这一层的原始地址就是主机A的地址,目标地址就是主机B的地址,这样数据包就可以传到对端了。

 传到对端后,主机B的虚拟设备再把外层的header剥掉,剩下的数据包就是原来的数据包了,这样的话在主机上处理原始数据包的时候,看到目标地址,就知道是主机B的容器,就知道走哪个口了。所以所谓的overlay就是封包解包的过程。

Flannel

  比较出名的flannel就是走overlay的,默认的主机上装的就是overlay的模式。flannel在每个主机上就会有flannel这样一个设备,任何数据包出去的时候,会被flannel封一层,这样数据包就能到达对端。


目录
相关文章
|
3月前
|
Kubernetes Docker Python
Docker 与 Kubernetes 容器化部署核心技术及企业级应用实践全方案解析
本文详解Docker与Kubernetes容器化技术,涵盖概念原理、环境搭建、镜像构建、应用部署及监控扩展,助你掌握企业级容器化方案,提升应用开发与运维效率。
740 108
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
王耀恒:从网络营销老兵到GEO技术布道者
在王耀恒看来,AI时代的技术竞争已从“信息不对称”转向“系统化应用能力”。他的GEO课程体系正是这一理念的体现——技术可以被复制,但深度实践验证的系统框架、认知升级路径和教学转化艺术却构成了难以逾越的壁垒。
|
1月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
310 2
|
1月前
|
机器学习/深度学习 人工智能 监控
上海拔俗AI软件定制:让技术真正为你所用,拔俗网络这样做
在上海,企业正通过AI软件定制破解通用化难题。该模式以业务场景为核心,量身打造智能解决方案,涵盖场景化模型开发、模块化架构设计与数据闭环优化三大技术维度,推动技术与业务深度融合,助力企业实现高效、可持续的数字化转型。
|
2月前
|
监控 前端开发 安全
Netty 高性能网络编程框架技术详解与实践指南
本文档全面介绍 Netty 高性能网络编程框架的核心概念、架构设计和实践应用。作为 Java 领域最优秀的 NIO 框架之一,Netty 提供了异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。本文将深入探讨其 Reactor 模型、ChannelPipeline、编解码器、内存管理等核心机制,帮助开发者构建高性能的网络应用系统。
219 0
|
5月前
|
Docker 容器
Docker网关冲突导致容器启动网络异常解决方案
当执行`docker-compose up`命令时,服务器网络可能因Docker创建新网桥导致IP段冲突而中断。原因是Docker默认的docker0网卡(172.17.0.1/16)与宿主机网络地址段重叠,引发路由异常。解决方法为修改docker0地址段,通过配置`/etc/docker/daemon.json`调整为非冲突段(如192.168.200.1/24),并重启服务。同时,在`docker-compose.yml`中指定网络模式为`bridge`,最后通过检查docker0地址、网络接口列表及测试容器启动验证修复效果。
|
4月前
|
监控 算法 安全
基于 C# 基数树算法的网络屏幕监控敏感词检测技术研究
随着数字化办公和网络交互迅猛发展,网络屏幕监控成为信息安全的关键。基数树(Trie Tree)凭借高效的字符串处理能力,在敏感词检测中表现出色。结合C#语言,可构建高时效、高准确率的敏感词识别模块,提升网络安全防护能力。
124 2
|
3月前
|
Kubernetes Cloud Native 持续交付
Docker:轻量级容器化技术解析
Docker:轻量级容器化技术解析
|
3月前
|
运维 测试技术 Docker
Docker:轻量级容器化技术革命
Docker:轻量级容器化技术革命

热门文章

最新文章