玩转阿里云上Kubernetes 1.7.2 高可用部署

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 随着Kubernetes社区的不断壮大,其版本不断更迭,新功能及BugFIX也不断更新,促使其部署方式也不断的变化,本文将带您在阿里云上快速的部署一个高可用的Kubernetes集群。并且添加阿里云CloudProvider支持,让您可以方便的自由的使用阿里云上的SLB,NAS,阿里云盘,VPC网络等云资源。

随着Kubernetes社区的不断壮大,其版本不断更迭,新功能及BugFIX也不断更新,促使其部署方式也不断的变化,本文将带您在阿里云上快速的部署一个高可用的Kubernetes集群。并且添加阿里云CloudProvider支持,让您可以方便的自由的使用阿里云上的SLB,NAS,阿里云盘,VPC网络等云资源。

部署结构图

image

如上图,脚本通过执行SSH命令的方式部署一个M + N节点的Kubernetes集群,M=Number(Master) N=Number(Worker)。

  • 支持VPC网络,确保Pod使用的网段不等于宿主机网段。
  • 确保ECS可以访问公网,需要下载安装包及docker镜像。上图示例使用阿里云NAT网关产品作为所有ECS访问公网的代理;也可以为每个ECS绑定弹性公网IP解决公网连通问题。
  • 通常为了实现高可用需要部署最少3个master,每个master上面部署一个etcd组件组成一个etcd集群作为kubernetes元数据存储集群。
  • 每个master节点上部署一个apiserver、scheduler、controller-manager、kubelet等组件,配置使用阿里云SLB作为apiserver的负载均衡入口,worker节点组件通过该SLB访问apiserver. master节点组件通过本地接口IP访问本地apiserver。

下面示例了3个master节点+2个worker节点部署结构。

前置条件

  • 准备3个4核8G(至少大于等于2核4G)的机器作为master,假设IP分别为[192.168.0.1,192.168.0.2,192.168.0.3]
  • 准备2个4核8G(至少大于等于2核4G)的机器作为Worker节点。假设IP分别为[192.168.0.168,192.168.0.169]
  • 请事先打通所有节点之间的SSH通道,并且能够实现公钥登录,避免安装过程中频繁输入密码。
  • 选择任意一台机器作为总控机,未来的所有命令都会在这台总控机上执行,假设选定[192.168.0.1]
  • 高可用部署依赖于阿里云SLB为kubernetes apiserver提供负载均衡能力,因此您需要先手动创建一个阿里云SLB,类型为intranet,监听端口6443,后端端口也是6443,后端server backend为您的3个master节点。假设该SLB的地址为192.168.0.98。
  • 在Kubernetes集群上使用阿里云资源需要您提供阿里云账号的AccessKey和AccessSecret,您可以在账号信息中找到。

步骤

假设我们已经选定192.168.0.1作为总控机执行所有命令,首先登录到总控机上。ssh root@192.168.0.1

步骤一:在所有master节点上部署一套ETCD集群

下载部署脚本:

root@192.168.0.1 # curl https://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/pkg/run/1.0/kuberun.sh  > kuberun.sh 
root@192.168.0.1 # chmod +x kuberun.sh

一键部署ETCD集群:

root@192.168.0.1 # ./kuberun.sh --role deploy-etcd \
    --hosts 192.168.0.1,192.168.0.2,192.168.0.3 \
    --version v3.0.17

上面--hosts参数指定etcd组件将要在哪几个机器上部署, --version指定etcd的版本号,目前支持v3.0.17。命令执行完成后一个高可用ETCD集群就部署完成了,peer证书及客户端证书都存放在/var/lib/etcd/cert下面。
验证:

  • 通过ps -eaf|grep etcd查看进程是否正常启动。
  • 通过命令
root@192.168.0.1 # etcdctl --endpoints=https://192.168.0.1:2379 \
        --ca-file=/var/lib/etcd/cert/ca.pem \
        --cert-file=/var/lib/etcd/cert/etcd-client.pem \
        --key-file=/var/lib/etcd/cert/etcd-client-key.pem \
        cluster-health

注:

  1. 任何时候您部署etcd集群出错后可以通过命令./kuberun.sh --role destroy-etcd --hosts 192.168.0.1,192.168.0.2,192.168.0.3 --version v3.0.17来清理etcd部署环境。

步骤二:在所有master节点上部署Kubernetes Master组件

这些Master组件包含 kubelet,kube-proxy,kubectl,kube-apiserver,kube-controllermanage,kube-scheduler

一键部署master节点
使用上一步下载的kuberun.sh脚本

root@192.168.0.1 # export APISERVER_SLB=192.168.0.98 \
        KEY=abc.efg \
        KEY_SECRET=mntjklouwbkddlam \
        HOSTS=192.168.0.1,192.168.0.2,192.168.0.3 \
        ETCD_HOSTS=192.168.0.1,192.168.0.2,192.168.0.3

root@192.168.0.1 # kuberun.sh --role deploy-masters \
        --container-cidr 172.16.0.0 \
        --hosts ${HOSTS} \
        --etcd-hosts ${ETCD_HOSTS} \
        --apiserver-lb ${APISERVER_SLB} \
        --extra-sans 3.3.3.3 \
        --docker-version 17.06.1.ce \
        --key ${KEY} \
        --key-secret ${KEY_SECRET}

参数解析:

  • --role 执行的命令类型,取值 deploy-master deploy-node destroy-node
  • --container-cidr ,表示集群的POD的网络CIDR,与宿主机网段不重合即可。
  • --hosts, 表示将在哪些机器上面安装Master组件。
  • --etcd-hosts,表示上一步中etcd集群部署的位置。
  • --apiserver-lb, 对于APIServer前面有LB的情况需要指定该LB的IP地址,方便讲该IP添加到受信任列表。
  • --extra-sans , 用于添加额外的集群受信任IP列表。
  • --docker-version, 指定安装的docker版本。

注:

  1. 如果本地不存在安装包,则会自动从阿里云官网上下载安装包。
  2. 任何时候部署出错,可以通过命令./kuberun.sh --role destroy-nodes --hosts 192.168.142.188,192.168.0.1,192.168.0.2,192.168.0.3清理整个环境后重新开始
  3. Master被设置了不调度普通应用,因此您还需要为集群添加node节点来运行常规应用负载.

该命令执行完成后,一个包含master节点的集群就运行起来了.可以通过命令kubectl get no ; kubectl get po -n kube-system来查看集群应用于节点信息了。

现在可以开始加入Node节点了。

步骤三: 为集群添加节点

添加Worker节点的脚本和部署Master的脚本是同一个。同样在总控机192.168.0.1上执行,假设您要添加的节点IP为192.168.0.168,192.168.0.169,请运行如下命令将两个节点添加到集群中。
为了能够安全的将节点添加到集群中,你需要在添加节点是携带一个token,并且指明apiserver endpoint的地址。
token可以通过命令kubeadm token list获得,假设为TOKEN=d79fd6.b754322ebab94533
apiserver endpoint为您上面创建的阿里云SLB地址ENDPOINT=192.168.0.98

root@192.168.0.1 # export TOKEN=d79fd6.b754322ebab94533 \
        APISERVER_LB=192.168.0.98 \
        HOSTS=192.168.0.168,192.168.0.169
root@192.168.0.1 # kuberun.sh --role deploy-nodes \
        --hosts ${HOSTS} \
        --apiserver-lb ${APISERVER_LB} \
        --token ${TOKEN} \
        --endpoint ${APISERVER_LB}:6443

参数解析:

  • --role 执行的命令类型,取值 destroy-nodes
  • --hosts, 表示将在哪些机器上面安装Node组件,即node节点IP列表。
  • --apiserver-lb, 对于APIServer前面有LB的情况需要指定该LB的IP地址,方便将该IP添加到受信任列表。同时,node节点通过该apiserver-lb与apiserver通信。
  • --token 用于对加入的节点进行身份认证的信息。通过在master上执行kubeadm token list获得。
  • --endpoint,指定节点bootstrap时的master的IP及端口,通常使用apiserver-lb的值。

验证
通过kubectl get no命令可以显示出刚添加的节点。

访问Kubernetes集群

按照以上方法成功部署一个kubernetes。

小结

阿里云提供了非常简单高效的方式让您可以快速的在阿里云上搭建一个高可用的Kubernetes集群,让您从负载的集群部署工作中解放出来,更加专注于上层应用开发。同时,集成了阿里云CloudProvider,可以让您直接通过应用部署描述文件使用诸如阿里云SLB、NAS、阿里云盘等云上资源。
阿里云容器服务将以上过程模板化,让您甚至可以不用输入以上命令即可通过ROS模板一键部署Kubernetes集群。欢迎您试用ROS模板一键创建
阿里云容器服务团队致力于在阿里云上推广容器技术。想了解更多容器服务内容,请访问https://www.aliyun.com/product/containerservice

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1天前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
|
5天前
|
人工智能 Kubernetes 异构计算
大道至简-基于ACK的Deepseek满血版分布式推理部署实战
本教程演示如何在ACK中多机分布式部署DeepSeek R1满血版。
|
5天前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
借助阿里云ACK One注册集群,充分利用阿里云强大ACS GPU算力,实现DeepSeek推理模型高效部署。
|
7天前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
ACK One注册集群已正式支持ACS(容器计算服务)算力,为企业的容器化工作负载提供更多选择和更强大的计算能力。
|
10天前
|
存储 Kubernetes 测试技术
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
本教程演示如何在ACK中使用vLLM框架快速部署DeepSeek R1模型推理服务。
|
11天前
|
存储 人工智能 弹性计算
NVIDIA NIM on ACK:优化生成式AI模型的部署与管理
本文结合NVIDIA NIM和阿里云容器服务,提出了基于ACK的完整服务化管理方案,用于优化生成式AI模型的部署和管理。
|
1月前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
2月前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
2月前
|
存储 Kubernetes 容器
K8S部署nexus
该配置文件定义了Nexus 3的Kubernetes部署,包括PersistentVolumeClaim、Deployment和服务。PVC请求20Gi存储,使用NFS存储类。Deployment配置了一个Nexus 3容器,内存限制为6G,CPU为1000m,并挂载数据卷。Service类型为NodePort,通过30520端口对外提供服务。所有资源位于`nexus`命名空间中。
|
2月前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。

热门文章

最新文章

相关产品

  • 容器服务Kubernetes版