网易云基于Kubernetes+Docker的容器服务研发实践

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介:

网易从2012年春开始云计算研发,陆续上线私有云IaaS、PaaS服务,并实现网易95%以上的互联网业务迁移上云。在近日的网易云技术布道系列活动中,张晓龙分享了网易云基础服务团队在研发容器服务过程中的实战经验。

 

一、网易云技术架构
 

 

首先看到网易云的研发历程和整体架构,如下:

 

下图是网易云的简单架构:

 

 

技术架构从底到上可分为三层:

 

  1. 基础设施层主要采用虚拟化技术将服务器、交换机/路由器以及硬盘等物理设备虚拟成为可以按需分配的计算/存储/网络资源。基础设施层主要包括:云主机、云网络、云硬盘等服务。基础设施层不仅为网易云容器服务运行提供计算/存储/网络资源,同时也为数据库、缓存、负载均衡等网易云平台服务提供资源;

  2. 核心业务层主要包括两块:一是容器及容器编排:镜像仓库、日志服务、容器服务、编排服务,主要覆盖了以容器以及容器编排为中心的网易云容器服务核心功能;二是PaaS插件服务,主要包括数据库、负载均衡、对象存储、缓存等;

  3. 最上面的外围服务层,也是构成一个平台不可或缺的一部分。主要包括:认证、API服务、计费服务、安全服务、监控服务。

 

二、网易云的容器服务
 

 

作为核心服务之一,网易云容器服务提供弹性计算、DevOps工具链及微服务基础设施等。服务的功能包括三个方面:

 

  1. 提供有状态/无状态容器及其镜像加速/构建/仓库等在内的容器服务;

  2. 提供包括对象存储、CDN、关系数据库、MongoDB、负载均衡、缓存服务、安全服务等在内的完善平台服务,是实现互联网应用的通用的基础组件;

  3. 提供包括服务发现、编排服务、APM服务、持续集成、监控服务、日志服务、持续发布等在内的完整DevOps工具链。

 

三、容器服务的核心技术
 

 

要构建一个容器服务,需要三类核心的技术:基础设施、容器、容器编排。下面详细解读。

 

基础设施
 

 

基础设施提供容器运行所需计算/存储/网络资源,高效管理这些资源并确保资源的按需分配、高效交付,同时要保证交付资源的QoS比如计算能力、网络性能、I/O能力等。

 

基础设施服务的技术基础是虚拟化技术,包括计算、网络、存储的虚拟化技术,计算的虚拟化无论在硬件或软件层面都相对成熟,而在网络、存储的虚拟化上网易云的选择是软件定义的技术。

 

  • 在计算虚拟化方面,采用了高效稳定可靠的KVM虚拟化技术;

  • 在网络虚拟化方面,基于OpenVSwitch采用最新流行的SDN技术,获得更大的网络灵活性;

  • 在块存储方面,采用的是可扩展性较强的Ceph技术;

  • 使用开源云平台框架OpenStack实现对上述资源的高效管理;

 

容器
 

 

容器是网易云容器服务资源交付的最小单位,通过采用了最新Docker技术,实现应用交付的标准化;目前的容器服务基于Docker1.12版本打造。

 

容器编排
 

 

要基于容器实现一个可水平扩展的产品服务端架构,需要使用容器编排技术实现对容器集群的发布、回滚、迁移、扩容、缩容等。我们的容器编排基于开源项目Kubernetes,Kubernetes服务将资源抽象为三个层次:容器(软件及运行环境),Pod(相关联的容器组合)容纳一个或多个容器,Node(提供计算/网络/存储的资源节点)容纳一个或多个Pod。

 

四、构建容器云的关键技术
 

 

关键技术1——基础设施服务

 

网络

  • 使用VxLan大二层技术实现网络数据面,基于OpenVswitch开源虚拟交换机实现OpenFlow协议;

  • 基于OpenStack Neutron实现网络控制面。

 

存储

  • 两类块存储后端:1)基于Ceph的普通块存储;2)基于软RAID技术的自研高性能块存储(用于高性能IO场景如数据库等);

  • 基于OpenStack Cinder实现块存储资源管理。

 

计算

  • 采用KVM虚拟化技术;

  • 基于OpenStack Nova实现虚拟机生命周期的管理。

 

关键设计2——容器计算

 

首先,容器的计算资源应该如何提供?应该跑在物理机上还是虚拟机上?从公有云层面来说,在容器的隔离性不是特别好的情况下,还是要跑在云主机上面,这是对用户最基本的安全承诺。

 

  • 好处1:由于是操作系统层面的轻量级虚拟化,容器安全性一直是用户非常关心的问题,也制约着容器技术的发展。容器安全性问题以“容器逃逸”问题最有名,也就是黑客是可以通过容器的一些漏洞渗透到运行容器所在的宿主机上,对宿主机上的其他容器以及宿主机本身都造成巨大的威胁。在容器安全性问题没有得到有效解决前,将容器运行在虚拟机上,利用虚拟机的强隔离性,可以加固容器的安全性。

  • 好处2:由于容器是轻量级虚拟化,所有容器共享宿主机的内核,宿主机上一个容器的运行异常和故障,很有可能导致宿主机内核的crash,从而影响宿主机上其他容器的正常运行;因此,将容器运行在云主机中,尽可能少的容器共享同一个内核,可以实现故障的隔离,提高系统稳定性;

  • 好处3:由于容器运行在云主机中,我们可以大胆把一些系统的能力如设置iptables的能力开发给用户,而不用担心开放这些能力会对宿主机系统造成很大的影响。这可以使得用户得到更多的功能,对容器具有更强的掌控;

 

这样做的缺点在于:容器运行于云主机,要忍受硬件虚拟化技术带来一定的资源和性能开销。

 

关键设计3——容器网络

 

容器网络

  • 私有网:虚拟平坦二层网络、租户间完全隔离,通过容器私有网卡接入

  • 公网:允许绑定公网IP到容器,通过容器公网网卡接入

 

实现

 

 

容器网络由基础设施服务来提供,并确保网络的性能、可扩展性;容器不关心和处理网络性能、可扩展性问题,只管用云提供的网络服务创建和使用相应的网络。网易云为每个租户提供一张完全隔离的私有网络以及一张所有租户共享的公网。

 

  • 私有网接入:基于云主机上的网桥和容器veth pair实现

  • 公网接入:将云主机上的公网端口置入容器的namespace中

 

关键设计4——持久化容器数据

 

容器的存储也是比较难解决的问题,多数容器都是无状态的,也就是说容器内部不应该保存用户有用的数据,一个容器挂掉后,用镜像能很快启动另一个容器,保证系统的正常运行。从架构上来说这个设计很好,弹性可扩展。但如果架构设计能力不是太好的情况下,很容易出现有状态容器的需求。

 

存储需求

但不管是Docker还是Kubernetes都不解决容器的存储问题,只可以用docker -v指定一个数据目录,所以在构建容器云时有2个需求:

  • 容器根目录rootfs会保存其运行时数据,需要用云盘保存容器rootfs数据

  • 容器需要挂载云盘作为data盘

 

难点

Docker默认会将所有容器rootfs都存储在overlay目录下,不同容器rootfs数据无法有效区分并隔离

 

方案

  • 实现Docker启动时可指定独立rootfs的功能

  • 在启动容器前将云盘挂载到启动容器的rootfs上

 

关键设计5——网络安全

 

网络安全也是云平台设计非常重要的一点。

 

网络过滤

  • L2过滤:确保报文源MAC地址是系统所分配端口MAC地址,防止ARP欺骗

  • L3过滤:确保数据包源IP是系统所分配IP,防止IP地址欺骗

  • L4过滤:过滤指定的TCP/UDP端口,便于实施网络封禁

 

DDoS攻击防护

基于Intel DPDK技术实现高性能实时抗攻击

 

关键技术6——网络带宽QoS

 

设计原则

  • 保证用户所申请网络带宽

  • 有效利用空闲网络资源,免费提升用户带宽体验

 

实现方案

  • 基于Linux Traffic Control并修改OVS,实现保证速率、最大速率

  • 将小包按照MPU(Minimum Packet Unit)大小来处理

 

网络QoS另一个重要问题是网络小包过载的问题。

  • 问题:VXLAN小包处理性能不够好,网络小包过多导致宿主机CPU过载(软中断过多),影响网络性能和稳定性

  • 方案:限制容器网络的PPS (Packet Per Second)

 

关键优化7——容器启动速度

 

问题

容器运行于云主机,容器启动依赖于云主机先启动,而基于硬件虚拟化技术的云主机启动速度较慢。

 

启动速度优化

  1. 定制系统镜像,裁剪不必要服务启动加载项;

  2. 云主机IP静态化,加速网络初始化过程。IP静态化的原因:云主机网络初始化使用DHCP服务获取网络IP和路由等信息,会占用较多启动时间。在网络服务启动前使用Cloud-init和ConfigDrive完成网卡名称匹配和IP配置信息注入;

  3. 优化OpenStack创建云主机流程,主要是在OpenStack的计算节点上做了一些优化。

 

优化效果

创建容器在40秒内完成

 

关键优化8——网络性能

 

内网使用巨帧(Jumbo Frames)模式,提升数据传输的吞吐量。

 

VxLan性能优化

使用不同内核版本和OVS版本的组合,VxLan性能差异很大,在万兆网络环境下使用3.18版本内核 + 2.6版本OVS,云主机单连接网关转发性能可近4Gbps,云主机多连接网关转发性能可达近9Gbps,云主机间互访近4Gbps

 

关键技术9——解决Ceph运维时性能衰减

 

性能问题

社区Ceph在osd进程重启时会出现长时间、极其严重的性能衰减(80%+),原因是osd重启时要恢复重启期间脏数据对象,会消耗大量网络/磁盘开销

 

解决手段

在pglog记录重启期间数据对象的增量数据,在重启时增量恢复数据对象

 

解决效果

  • 减少重启过程对集群正常I/O性能影响( I/O性能降低10%~20%以内)

  • 缩短重启恢复所需时间(重启单个osd从10分钟减少到40秒左右)

                           

关键优化10——容器编排多租户支持

 

原生的Kubernetes没有租户和多租户的概念,意味着要给每个用户部署一套Kubernetes的集群管理系统,网易云用一套Kubernetes集群去管理所有租户的容器,这是跟社区版本中完全不一样的地方。

 

完善多租户支持

  • 将容器的资源按照多租户进行分类,如下图所示,将node、存储、网络等集群共享的资源实现租户隔离

  • 实现租户资源的安全访问控制,为每个租户实现独立的认证和授权

 

关键优化11——容器编排性能

 

性能问题

  • 原生K8S编排的可扩展性有瓶颈,无法支持更大规模节点的编排

  • K8S各组件在高水位下资源占用太大

 

优化手段

  • 实现调度器并行调度,提升集群调度能力

  • 实现副本控制器多优先级处理,提升容器创建速度

  • 精简内部负载均衡转发表

  • 优化api-server和kubelet、kube-proxy,减少内存资源占用

 

调度器并行优化

  • 问题:原生scheduler调度是全集群串行,不可并行扩展

  • 优化:所有资源按用户分组,全并行调度,集群规模再大也能瞬间调度

 

副本控制器多优先级处理

  • 问题:原生controller对副本的增量的增/删/改和全量定时任务单队列处理

  • 优化:增加多优先级队列(Add>Update>Delete>Sync All),让实时控制流优先处理,提升容器创建速度

 

内部负载均衡转发表精简

  • 问题:原生使用iptable全局转发,性能随集群规模增大线性递减

  • 优化:租户之间网络隔离后,可以将转发规则精简到各个租户内部

 

kubelet、kube-proxy、api-server内存优化

  • 问题:这些服务随着集群规模增长,内存也都直线上涨

  • 优化:agent只加载自己租户拥有的namespace下数据, apiserver增加索引降低cpu以减少并发协程数

 

优化效果

  • 支持3w+容器的编排

  • 高水位下容器创建时间40s之内完成

  • K8S上节点占用内存优化为原来的1/4,Api-Server内存减少了1/4

 

关键技术12——容器性能监控

 

  1. 数据采集:基于CAdvisor采集计算存储网络等监控如cpu/mem/io/tcp连接/网络流量

  2. 数据推送:Agent负责从CAdvisor拉取监控数据并推送到后端进行数据聚合

  3. 数据聚合:将相关监控项按照容器、pod、副本等层次聚合并展示

 

五、未来工作
 

 

云计算的研发是一项系统的基础开发工作,有非常大的难度,而云计算产品最重要的是稳定性、性能和安全,我们后续的工作也将围绕这三方面展开。

原文发布时间为:2017-04-07

本文来自云栖社区合作伙伴DBAplus

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
25天前
|
人工智能 弹性计算 运维
ACK Edge与IDC:高效容器网络通信新突破
本文介绍如何基于ACK Edge以及高效的容器网络插件管理IDC进行容器化。
|
8天前
|
Ubuntu Linux 开发工具
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈
Docker 是一个开源的容器化平台,允许开发者将应用程序及其依赖项打包成标准化单元(容器),确保在任何支持 Docker 的操作系统上一致运行。容器共享主机内核,提供轻量级、高效的执行环境。本文介绍如何在 Ubuntu 上安装 Docker,并通过简单步骤验证安装成功。后续文章将探讨使用 Docker 部署开源项目。优雅草央千澈 源、安装 Docker 包、验证安装 - 适用场景:开发、测试、生产环境 通过以上步骤,您可以在 Ubuntu 系统上成功安装并运行 Docker,为后续的应用部署打下基础。
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈
|
14天前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
81 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
|
11天前
|
存储 Kubernetes Docker
Kubernetes(k8s)和Docker Compose本质区别
理解它们的区别和各自的优势,有助于选择合适的工具来满足特定的项目需求。
71 19
|
20天前
|
关系型数据库 应用服务中间件 PHP
实战~如何组织一个多容器项目docker-compose
本文介绍了如何使用Docker搭建Nginx、PHP和MySQL的环境。首先启动Nginx容器并查看IP地址,接着启动Alpine容器并安装curl测试连通性。通过`--link`方式或`docker-compose`配置文件实现服务间的通信。最后展示了Nginx配置文件和PHP代码示例,验证了各服务的正常运行。
44 3
实战~如何组织一个多容器项目docker-compose
|
26天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
12天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
4天前
|
人工智能 运维 监控
容器服务Kubernetes场景下可观测体系生产级最佳实践
阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限,其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景,特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术,阿里云增强了对容器网络、存储及多集群架构的监控能力,帮助客户实现高效运维和成本优化。未来,结合AI助手,将进一步提升问题定位和解决效率,缩短MTTR,助力构建智能运维体系。
|
28天前
|
监控 NoSQL 时序数据库
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
196 77
|
1月前
|
监控 Docker 容器
在Docker容器中运行打包好的应用程序
在Docker容器中运行打包好的应用程序

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版