Kubernetes-应用部署问题定位和处理

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 1、应用部署问题处理的整体思路 在将容器化的应用部署到Kubernetes集群中,可能会出现各种问题。根据Kubernetes的架构设计原理,容器化应用对外提供服务出现的主要问题在三个点上: 1)应用本身的问题:此问题为应用本身的问题,不在此文中进行详细的阐述; 2)作为容器化应用逻辑主机的P...

1、应用部署问题处理的整体思路


在将容器化的应用部署到Kubernetes集群中,可能会出现各种问题。根据Kubernetes的架构设计原理,容器化应用对外提供服务出现的主要问题在三个点上:

1)应用本身的问题:此问题为应用本身的问题,不在此文中进行详细的阐述;

2)作为容器化应用逻辑主机的Pod的问题:此部分的问题主要涉及到容器化应用是否在容器云中正常部署和运行,这里会涉及到CPU、内存、存储资源等问题;

3)代理容器化应用服务的问题:第三方服务或用户会通过代理服务访问容器化应用,如果代理服务存在问题,则容器云应用将无法对外提供服务能力,这里会涉及到服务是否存在、DNS解析是否正确等问题。

在本文中,以部署的高可用MySQL(请参考:Kubernetes-部署高可用的MySQL)为例展示如何进行问题定位和处理。另外为了能够在Kubernetes集群外访问MySQL数据库,对外暴露了MySQL master的NodePort类型服务,服务名称为mysql-0-svc。

2、调试Pods

在调试Pod之前,通过kubectl get pods命令查看一下Pod的运行状态。

$ kubectl get pods --namespace=kube-public

对于特定的Pod,可以通过kubectl describe pods命令查看详细的信息。

$ kubectl describe pods/mysql-0 --namespace=kube-public

在Pod的生命周期中,有如下的几个状态:

  • Pending: Pod已经被Kubernetes系统接受,但是还有一个或者多个容器镜像未被创建。这包括Pod正在被调度和从网络上下载镜像的时间。
  • Running: Pod已经被绑定到了一个Node,所有的容器也已经被创建。至少有一个容器已经在运行,或者在启动或者重新启动的过程中。
  • Succeeded: 在Pod中的所有的容器都已经被成功的终止,并且不会再重启。
  • Failed: 在Pod中所有容器都已经被终止,并且至少有一个容器是非正常终止的。即,容器以非零状态退出或者被系统强行终止的。
  • Unknown: 由于某些原因,Pod不能被获取,典型的情况是在与Pod的主机进行通信中发生了失败。
  • Waiting:由于某些原因,Pod已被调度到了Node节点上,但无法正常运行。
  • Crashing:由于某些原因,Pod处于崩溃状态。

根据Pod所处的状态,相应的处理方式不同。

2.1 Pod处于待命(Pending)状态

如果Pod被卡在待命(Pending)状态,则意味着它无法被安排到Node节点上。造成这种情况通常因为某种类型的资源不足,从而导致Pod无法被调度。通过查看kubectl describe …命令的输出内容,应该有为什么Pod无法被调度的原因。这些原因包括:

  • 没有足够的资源:集群中的CPU或内存可能已经耗尽了,在这种情况下,需要删除Pod,调整资源请求或向集群中添加新的Node节点。
  • 正在使用hostPort:将Pod绑定到了数量有限的hostPort。在大多数情况下,没有必要使用hostPort,可以尝试使用服务来暴露Pod。如果确实需要hostPort,那么只能调度与Kubernetes集群中的节点一样多的Pod。

2.2 Pod处于等待(Waiting)状态

如果Pod处于等待(Waiting)状态,则它已被调度到一个工作Node上,但它无法在该Node上运行。同样,通过kubectl describe …应该是能够获取有用的信息。处于等待(Waiting)状态的最常见的原因是无法拉取镜像。有三件事需要检查:

  • 确保镜像名称正确无误。
  • 确认镜像仓库中是否存在此镜像?
  • 在机器上,运行docker pull <image>命令,查看是否可以拉取镜像。

2.3 Pod崩溃(Crashing)或其他不健康

首先,通过执行kubectl logs ${POD_NAME} ${CONTAINER_NAME}查看当前容器的日志:

$ kubectl logs mysql-0 mysql --namespace=kube-public

如果容器之前已崩溃,可以使用以下命令访问上一个容器的崩溃日志:

$ kubectl logs --previous mysql-0 mysql --namespace=kube-public

或者,也可以使用kubectl exec在该容器内运行命令:

$ kubectl exec ${POD_NAME} -c ${CONTAINER_NAME} -- ${CMD} ${ARG1} ${ARG2} ... ${ARGN}

请注意,这-c ${CONTAINER_NAME}是可选的,对于仅包含单个容器的Pod,可以省略。

如果这些方法都不起作用,可以找到运行该pod的主机,并通过SSH连接到该主机。

2.4 Pod正在运行,但没有按照要求执行

如果Pod没有按预期运行,可能是Pod描述中存在错误,并且在创建Pod时忽略了该错误。通常可能是,Pod描述的一部分嵌套不正确,或键名不正确,因此键被忽略。例如,如果拼写错误command,commnd则将创建Pod,但不会按照希望使用命令行。

首先,要做的第一件事是删除此Pod,并尝试使用–validate选项再次创建它。例如,运行kubectl create –validate -f mypod.yaml。如果拼写错误command,commnd那么会出现如下错误:

I0805 10:43:25.129850 46757 schema.go:126] unknown field: commnd
I0805 10:43:25.129973 46757 schema.go:129] this may be a false alarm, see https://github.com/kubernetes/kubernetes/issues/6842
pods/mypod

接下来,要检查的是apiserver上的Pod是否与要创建的Pod相匹配。例如,运行kubectl get pods/mypod -o yaml > mypod-on-apiserver.yaml,然后将原始的Pod描述mypod.yaml与从apiserver返回的描述文件mypod-on-apiserver.yaml进行比较。“apiserver”版本通常会有一些不在原始版本上的内容,这不影响。但是,如果原始版本上有不在apiserver版本上的行,则可能意味着原始版本Pod描述规范存在问题。

3、调试代理服务

根据Kubernetes的架构设计,用户或其它应用通过代理服务访问容器化应用。因此需要通过调试确认代理服务是否正常,需要做的工作包括:

1)检查代理服务本身是否存在;

2)检查代理服务是否能够正常通过DNS进行解析;

3)检查代理服务本身是否正确。

3.1 检查服务是否存在

在调试服务时,第一步要做的就是检查服务是否存在。在本文的前面说明了,在Kubernetes中通过NodePort类型对外暴露了MySQL master。通过执行kubectl get svc命令,可以获取是否存在相应服务:

$ kubectl get svc/mysql-0-svc --namespace=kube-public

通过返回的结果可以看出,在Kubernetes集群中存在此服务。

3.2 能否通过DNS解析正常解析代理服务

对于处于同一个命名空间的容器化应用,可以直接通过代理服务的名称(mysql-0-svc)访问MySQL master。

$ kubectl exec -it redis-ha-redis-ha-sentinel-5947b9569-r2b56 --namespace=kube-public -- nslookup mysql-0-svc

对Kubernetes集群中不同命名空间的容器化应用,则需要通过添加命名空间名称后(mysql-0-svc.kube-public)访问MySQL master:

$ kubectl exec -it gf1-6497d5df45-98g8v -- nslookup mysql-0-svc.kube-public

根据返回的可以看出,通过DNS能够正确的解析代理服务。

3.2.1 DNS是否正常工作

如果通过上述的操作都无法正常解析服务,通过kubectl exec -it ${POD_NAME} — nslookup命令检查一下Kubernetes master是否正常工作:

$ kubectl exec -it gf1-6497d5df45-98g8v -- nslookup kubernetes.default

如果此操作也失败,则需要检查Kubernetes集群中的DNS服务是否正常运行。

3.3 代理服务本身是否正确

如果代理服务也存在,DNS解析也没有问题。则需要检查一下代理服务本身是否有问题:

$ kubectl get service mysql-0-svc -o yaml --namespace=kube-public

例如访问的端口是否正确?targetPort是否指向了正确的Pods端口?这里的端口协议是否与Pod暴露出来的端口协议一致等。

本文转自中文社区-Kubernetes-应用部署问题定位和处理

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
相关文章
|
19天前
|
Kubernetes 网络协议 应用服务中间件
K8S二进制部署实践-1.15.5
K8S二进制部署实践-1.15.5
31 0
|
2月前
|
运维
计算巢如何使用fluxcd在ack部署helm chart
为支持helm服务运维管理功能,现在改用fluxcd的方式进行helm chart部署,这里计算巢对fluxcd进行部署helm chart的过程进行了封装,封装成了ROS公共模块MODULE::ACS::ComputeNest::FluxOciHelmDeploy,下面将主要介绍下怎么使用这个模块在计算巢中进行Helm Chart的部署。
36 3
|
2月前
|
Kubernetes 容器
使用sealer部署k8s记录
使用sealer部署k8s记录
|
2月前
|
存储 Kubernetes 容器
百度搜索:蓝易云【Kubernetes使用helm部署NFS Provisioner】
现在,你已经成功使用Helm部署了NFS Provisioner,并且可以在Kubernetes中创建使用NFS存储的PersistentVolumeClaim。
42 10
|
2月前
|
存储 Kubernetes 网络协议
使用 K8S 部署 RSS 全套自托管解决方案 - RssHub + Tiny Tiny Rss
使用 K8S 部署 RSS 全套自托管解决方案 - RssHub + Tiny Tiny Rss
|
21天前
|
Kubernetes 流计算 Perl
在Rancher K8s上部署Flink时,TaskManager连接不上并不断重启可能是由多种原因导致的
在Rancher K8s上部署Flink时,TaskManager连接不上并不断重启可能是由多种原因导致的
30 7
|
4天前
|
Kubernetes 监控 Cloud Native
构建高效云原生应用:基于Kubernetes的微服务治理实践
【4月更文挑战第13天】 在当今数字化转型的浪潮中,企业纷纷将目光投向了云原生技术以支持其业务敏捷性和可扩展性。本文深入探讨了利用Kubernetes作为容器编排平台,实现微服务架构的有效治理,旨在为开发者和运维团队提供一套优化策略,以确保云原生应用的高性能和稳定性。通过分析微服务设计原则、Kubernetes的核心组件以及实际案例,本文揭示了在多变的业务需求下,如何确保系统的高可用性、弹性和安全性。
11 4
|
5天前
|
JSON Kubernetes Go
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
15 0
无缝集成:在IntelliJ IDEA中利用Kubernetes插件轻松管理容器化应用
|
3天前
|
Kubernetes 搜索推荐 Docker
使用 kubeadm 部署 Kubernetes 集群(二)k8s环境安装
使用 kubeadm 部署 Kubernetes 集群(二)k8s环境安装
35 17
|
16天前
|
Kubernetes Ubuntu 应用服务中间件
Ubuntu 22.04 利用kubeadm方式部署Kubernetes(v1.28.2版本)
Ubuntu 22.04 利用kubeadm方式部署Kubernetes(v1.28.2版本)
69 0