一、管理资源
kubectl语法
kubectl [command] [Type] [NAME] [flags]
- command: 子命令,用于操作kubernetes集群资源对象的命令,例如:create, delete, describe, get, apply等等
- TYPE: 资源对象的类型,区分大小写,能以单数,复数或者简写形式表示。例如以下3中TYPE是等价的。
kubectl get pod pod1kubectl get pods pod1kubectl get po pod1
- NAME:资源对象的名称,区分大小写。如果不指定名称,系统则将返回属于TYPE的全部对象的列表,例如:kubectl get pods 将返回所有pod的列表
- flags: kubectl 子命令的可选参数,例如使用 -s 指定api server的url地址而不用默认值。
kubectl可操作的资源对象类型以及缩写:
可操作资源列表
- Pods (Pod):Pod 是 Kubernetes 中
最小的可部署单元
,通常包含一个或多个容器。Pod 用于组织和管理容器化应用程序的实例。 - Deployments (deploy):Deployment 是一种 Kubernetes 资源,用于
管理 Pod 的部署
。它确保指定数量的 Pod 副本在集群中运行,并支持滚动更新和回滚。 - Services (svc):Service 提供了一种抽象,将一组 Pod 公开为网络服务。它
为 Pod 提供了稳定的网络终结点,并支持负载均衡、服务发现和集群内通信
。 - Volumes (vol):Volume 是 Kubernetes 中用于持久化数据的抽象。它可以附加到 Pod,并
提供持久性存储,以便在 Pod 重新启动或迁移时保留数据
。 - ConfigMaps 和 Secrets (cm, secret):ConfigMaps 和 Secrets
用于将配置信息和敏感数据传递给应用程序
。它们可以作为环境变量、文件或卷挂载的形式注入到 Pod 中
。 - Namespaces (ns):Namespace 用于将 Kubernetes 集群
划分为多个虚拟集群
,以便组织和隔离不同的团队、项目或环境,并提供资源配额和访问控制。 - PersistentVolumes 和 PersistentVolumeClaims (pv, pvc):
pc 是 Kubernetes 中的持久性存储资源
,而pvc 是用户申请存储资源的声明
。它们提供了持久性存储的抽象,使应用程序可以在集群中访问持久性数据。 - ServiceAccounts (sa):ServiceAccount
用于身份验证和授权
,定义了 Pod 访问集群 API 的身份,并授予相应的权限。 - Roles 和 RoleBindings (role, rolebinding):Roles 和 RoleBindings 用于定义
基于 RBAC 的访问策略
,以控制用户和服务账户对集群资源的访问权限。 - Ingress (ing):Ingress
允许外部流量进入集群,并将其路由到相应的后端服务
。它用于公开 HTTP 和 HTTPS 服务,并支持主机名和路径路由
。 - ReplicaSets (rs):ReplicaSet 是 Kubernetes 中用于
维护 Pod 副本数量的控制器
。它确保指定数量的 Pod 副本始终在运行,并在需要时进行自动扩展或收缩。 - Jobs 和 CronJobs (job, cronjob):Job 是 Kubernetes 中用于
运行一次性任务的资源,而 CronJob 则用于按计划运行定期任务
。 - StatefulSets (sts):StatefulSet 是一种用于
管理有状态应用程序的 Kubernetes 资源
。它确保 Pod 的唯一标识和稳定的网络标识符,以便这些 Pod 可以保持状态并持久化数据
。 - Endpoints (ep):Endpoints 提供了对 Service 的后端 Pod 的访问列表。
它将 Service 与 Pod 之间的关联关系暴露出来,用于实现服务发现和负载均衡
。 - LimitRanges (limitrange):
LimitRanges 用于定义命名空间中资源对象的使用限制
,如 CPU、内存和存储等。它可以帮助限制容器使用的资源量,以避免资源过度使用或滥用。 - PodSecurityPolicies (psp):PodSecurityPolicy 用于
定义对 Pod 安全性的策略
,包括容器的权限、网络访问和文件系统访问等方面。 - ResourceQuotas (quota):ResourceQuotas 用于
限制命名空间中的资源使用量
,包括 CPU、内存、存储和对象计数等。 - Certificates (cert):Certificates 资源用于
管理和存储证书
,这些证书可以用于加密通信、安全认证等目的。 - ComponentStatus (cs):ComponentStatus
提供了集群中各个组件的健康状态
,如 kube-apiserver、kube-controller-manager 等
显示和查找资源
Kubectl get
对于刚开始使用命令行工具的开发者,最保险的方法是提出问题(读取操作),而不是发出命令(写入操作),所以从使用 get
命令开始是个不错的选择。
$ kubectl get pods #如下详细信息: $ kubectl get pods -n beta # -n :指定命名空间 $ kubectl get pods --all-namespaces #获取所有命名空间的pod $ kubectl get pods --selector name=redis #按selector名来查找pod $ kubectl get pods -o wide #查看pods所在的运行节点 $ kubectl get pods -o yaml #查看pods定义的详细信息 $ kubectl get nodes –lzone #获取zone的节点 # 列出所有 namespace 中的所有 service $ kubectl get services # 列出所有 namespace 中的所有 pod $ kubectl get pods --all-namespaces # 列出所有 pod 并显示详细信息 $ kubectl get pods -o wide # 列出指定 deployment $ kubectl get deployment my-dep # 列出该 namespace 中的所有 pod 包括未初始化的 $ kubectl get pods --include-uninitialized # 使用详细输出来描述命令 $ kubectl describe nodes my-node $ kubectl describe pods my-pod # List Services Sorted by Name $ kubectl get services --sort-by=.metadata.name # 根据重启次数排序列出 pod $ kubectl get pods --sort-by='.status.containerStatuses[0].restartCount' # 获取所有具有 app=cassandra 的 pod 中的 version 标签 $ kubectl get pods --selector=app=cassandra rc -o \ jsonpath='{.items[*].metadata.labels.version}' # 获取所有节点的 ExternalIP $ kubectl get nodes -o jsonpath='{.items[*].status.addresses[?(@.type=="ExternalIP")].address}' # 列出属于某个 PC 的 Pod 的名字 # “jq”命令用于转换复杂的 jsonpath,参考 https://stedolan.github.io/jq/ $ sel=${$(kubectl get rc my-rc --output=json | jq -j '.spec.selector | to_entries | .[] | "\(.key)=\(.value),"')%?} $ echo $(kubectl get pods --selector=$sel --output=jsonpath={.items..metadata.name}) # 查看哪些节点已就绪 $ JSONPATH='{range .items[*]}{@.metadata.name}:{range @.status.conditions[*]}{@.type}={@.status};{end}{end}' \ && kubectl get nodes -o jsonpath="$JSONPATH" | grep "Ready=True" # 列出当前 Pod 中使用的 Secret $ kubectl get pods -o json | jq '.items[].spec.containers[].env[]?.valueFrom.secretKeyRef.name' | grep -v null | sort | uniq
创建资源
Kubectl create
Kubernetes 的清单文件可以使用 json 或 yaml 格式定义。可以以 .yaml、.yml、或者 .json 为扩展名。
kubectl create -f 文件名.yaml #创建资源
kubectl replace -f 文件名 [–force] #重建资源
# 创建资源 $ kubectl create -f ./my-manifest.yaml # 使用多个文件创建资源 $ kubectl create -f ./my1.yaml -f ./my2.yaml # 使用目录下的所有清单文件来创建资源 $ kubectl create -f ./dir # 使用 url 来创建资源 $ kubectl create -f https://git.io/vPieo # 启动一个 nginx 实例 $ kubectl run nginx --image=nginx # 为 nginx RC 创建服务,启用本地 80 端口连接到容器上的 8000 端口 $ kubectl create service clusterip nginx --tcp=80:8000 # 获取 pod 和 svc 的文档 $ kubectl explain pods,svc # 添加标签 $ kubectl label pods my-pod new-label=awesome # 添加注解 $ kubectl annotate pods my-pod icon-url=http://goo.gl/XXBTWq # 自动扩展 deployment “foo” $ kubectl autoscale deployment foo --min=2 --max=10 # 从 stdin 输入中创建多个 YAML 对象 $ cat <<EOF | kubectl create -f - apiVersion: v1 kind: Pod metadata: name: busybox-sleep spec: containers: - name: busybox image: busybox args: - sleep - "1000000" --- apiVersion: v1 kind: Pod metadata: name: busybox-sleep-less spec: containers: - name: busybox image: busybox args: - sleep - "1000" EOF # 创建包含几个 key 的 Secret $ cat <<EOF | kubectl create -f - apiVersion: v1 kind: Secret metadata: name: mysecret type: Opaque data: password: $(echo "s33msi4" | base64) username: $(echo "jane" | base64) EOF
编辑资源
kubectl edit
用于通过编辑器直接修改 Kubernetes 资源的配置。它允许您在不直接编辑 YAML 文件的情况下,通过交互式编辑器修改资源的配置。 kubectl edit 将会自动将您所做的更改应用到集群中的相应资源上。
kubectl edit <资源类型> <资源名称>
#这将打开指定 Pod 的 YAML 配置文件,允许您编辑 Pod 的配置 kubectl edit pod <pod名称> #这将打开指定 Service 的 YAML 配置文件,允许您编辑服务的配置,如端口、负载均衡器类型等 kubectl edit service <service名称>
删除资源
Kubectl delete
用来删除资源的命令。它允许你通过名称、文件名或者指定资源类型和选择器来删除资源。
需要注意的是,如果不知道资源是否有关联信息,最好不要删除。因为删除后无法恢复,只能重新创建
#通过名称删除一个 Pod $ kubectl delete pod <pod名称> #删除所有符合特定标签的Pod $ kubectl delete pod -l <标签选择器> # 删除 pod.json 文件中定义的类型和名称的 pod $ kubectl delete -f ./pod.json # 删除名为“baz”的 pod 和名为“foo”的 service $ kubectl delete pod,service baz foo # 删除具有 name=myLabel 标签的 pod 和 serivce $ kubectl delete pods,services -l name=myLabel # 删除具有 name=myLabel 标签的 pod 和 service,包括尚未初始化的 $ kubectl delete pods,services -l name=myLabel --include-uninitialized # 删除 my-ns namespace 下的所有 pod 和 serivce包 $ kubectl -n my-ns delete po,svc --all
更新资源
Kubectl apply
用来创建或更新资源的命令。它可以接受一个或多个 YAML 或 JSON 格式的配置文件,并根据这些文件中描述的内容创建或更新相应的资源。
$ kubectl apply -f commands.yaml serviceaccount/tiller created clusterrolebinding.rbac.authorization.k8s.io/tiller created
修补资源
kubectl patch
用于局部更新(patch)已存在的 Kubernetes 资源的配置。它允许你通过提供一个 JSON 或 YAML 格式的部分配置文件来修改资源的某些字段,而不是完全替换整个资源的配置。
# 部分更新节点 $ kubectl patch node k8s-node-1 -p '{"spec":{"unschedulable":true}}' # 更新容器镜像;spec.containers[*].name 是必须的,因为这是合并的关键字 $ kubectl patch pod valid-pod -p '{"spec":{"containers":[{"name":"kubernetes-serve-hostname","image":"new image"}]}}' # 使用具有位置数组的 json 补丁更新容器镜像 $ kubectl patch pod valid-pod --type='json' -p='[{"op": "replace", "path": "/spec/containers/0/image", "value":"new image"}]' # 使用具有位置数组的 json 补丁禁用 deployment 的 livenessProbe $ kubectl patch deployment valid-deployment --type json -p='[{"op": "remove", "path": "/spec/template/spec/containers/0/livenessProbe"}]'
二、故障排除和调试
Kubectl describe
describe
命令可以查看资源的详细信息。比较常见的用法是查看一个 Pod 或节点信息,以检查是否有异常、资源是否耗尽。
#获取特定 Pod 的详细信息 包括 Pod 的状态、容器状态、事件等 $ kubectl describe pod <pod_name> # 获取特定 Service 的详细信息,包括 Service 的类型、端口、目标端口等。 $kubectl describe service <service_name> #获取特定 Deployment 的详细信息,包括副本数、更新策略、滚动更新状态等。 $kubectl describe deployment <deployment_name>
Kubectl logs
虽然 describe 命令可以让你知道 Pod 内部应用程序发生的事,但 logs 命令可以提供 Kubernetes 中 Pod 的更多详细信息。了解这种区别可以帮助开发者更好地对应用程序内部以及 Kubernetes 内部发生的问题,并进行故障排除,这二者往往并不相同。
#查看 Pod 中容器的日志 $ kubectl logs <pod_name> #如果 Pod 中有多个容器,则需要指定容器的名称 $ kubectl logs <pod_name> -c <container_name> #实时日志流 -f 标志来实时跟踪容器的日志输出 $ kubectl logs -f <pod_name> #指定容器的先前日志 -p 标志来指定要检索的先前日志的行数。 $ kubectl logs -p 100 <pod_name> $ kubectl logs cherry-chart-88d49478c-dmcfv -n charts
172.17.0.1 - - [19/Apr/2020:16:01:15 +0000] "GET / HTTP/1.1" 200 612 "-" "kube-probe/1.18" "-" 172.17.0.1 - - [19/Apr/2020:16:01:20 +0000] "GET / HTTP/1.1" 200 612 "-" "kube-probe/1.18" "-" 172.17.0.1 - - [19/Apr/2020:16:01:25 +0000] "GET / HTTP/1.1" 200 612 "-" "kube-probe/1.18" "-"
grep
命令可以过滤无关信息或查看特定事件。例如,下面的 kube-probe
可能是无关信息,用 grep
命令对其进行过滤。
$ kubectl logs cherry-chart-88d49478c-dmcfv -n charts | grep -vie kube-probe 127.0.0.1 - - [10/Apr /2020:23:01:55 +0000] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:75.0) Gecko/20100101 Firefox/75.0" “-”
Kubectl exec
与 docker exec 命令相似,exec 命令也可以在容器中直接对应用程序进行故障排除。尤其当 Pod 的日志无法定位问题时, 它会特别好用。另外要注意的是,使用 exec 命令时,必须要以 Pod 内使用的 shell 作为命令的最后一个参数。
$ kubectl exec -it cherry-chart-88d49478c-dmcfv -n charts -- /bin/bash root@cherry-chart-88d49478c-dmcfv:/#
Kubectl cp
Kubectl cp
命令与 Linux cp
命令类似,用于容器之间复制文件和目录。另外,该命令还能在自动化失败等紧急情况下进行恢复备份。
以下是将本地文件拷贝到容器的示例。命令格式为:kubectl cp <filename> <namespace/podname:/path/tofile>
。
$ kubectl cp commands_copy.txt charts/cherry-chart-88d49478c-dmcfv:commands.txt $ kubectl exec -it cherry-chart-88d49478c-dmcfv -n charts -- /bin/bash root@cherry-chart-88d49478c-dmcfv:/# ls bin boot commands.txt dev etc home lib lib64 media mnt opt proc root run sbin srv sys tmp usr var
下面是将容器内的文件拷贝到本地计算机上的示例。命令格式为:kubectl cp <namespace/podname:/path/tofile>
。
$ kubectl cp charts/cherry-chart-88d49478c-dmcfv:commands.txt commands_copy.txt $ ls commands_copy.txt
三、安全和权限
kubectl auth:
- kubectl auth can-i:用于检查当前用户是否具有执行特定操作的权限。
- kubectl auth reconcile:用于重新计算和同步授权规则。
角色和角色绑定:
- kubectl create role:创建角色,即一组权限,用于授予对特定资源的操作权限。
- kubectl create rolebinding:将角色绑定到用户、组或服务账户,赋予他们相应的权限。
服务账户:
- kubectl create serviceaccount:创建服务账户,用于在 Pod 中访问 Kubernetes API。
- kubectl describe serviceaccount:显示服务账户的详细信息。
凭据和证书:
- ubectl create secret:创建机密对象,用于存储敏感信息,如密码、密钥等。
- kubectl get secret:获取机密对象的列表。
- kubectl describe secret:显示机密对象的详细信息。
网络策略:
- kubectl create networkpolicy:创建网络策略,用于控制 Pod 之间的流量。
- kubectl get networkpolicy:获取网络策略的列表。
- kubectl describe networkpolicy:显示网络策略的详细信息。
RBAC(基于角色的访问控制):
- RBAC 是 Kubernetes 中的一种权限控制机制,用于管理用户、组和服务账户对集群资源的访问权限。
- kubectl create role:用于创建一个角色,即一组权限,用于授予对特定资源的操作权限。
kubectl create role <role_name> --verb=<verb> --resource=<resource>
- kubectl create rolebinding:用于将角色绑定到用户、组或服务账户,从而赋予他们相应的权限。
kubectl create rolebinding <rolebinding_name> --role=<role_name> --user=<user> --namespace=<namespace>
- kubectl create clusterrole:用于创建一个集群角色,即一组权限,适用于整个集群。
kubectl create clusterrole <clusterrole_name> --verb=<verb> --resource=<resource>
- kubectl create clusterrolebinding:用于将集群角色绑定到用户、组或服务账户,从而赋予他们相应的权限。
kubectl create clusterrolebinding <clusterrolebinding_name> --clusterrole=<clusterrole_n
四、扩展和管理
加载配置文件
kubectl apply –f 文件名.yaml kubectl scale 动态伸缩: kubectl scale rc nginx --replicas=5 kubectl scale deployment redis=slave --replicas=5 kubectl scale --replicas-=2 -f redis-slave-deployment.yaml kubectl exec:进入pod启动的容器 kubectl exec -it redis-master-xxxx /bin/bash -n beta #指定命名空间 kubectl label :添加label值 kubectl get node --show-labels #查看节点label kubectl label nodes node1 zone=north #nodes添加标签 kubectl label pod redis-master-xxx role=master #增加label值 [key]=[value] kubectl label pod redis-master-xxx role- #删除label值 kubectl label pod redis-master-xxx role=backend --overwrite #修改label值 kubectl rolling-update:滚动升级 kubectl rolling-update redis-master -f redis-master-controller-v2.yaml #配置文件滚动升级 kubectl rolling-update redis-master --image=redis-master:2.0 #命令升级 kubectl rolling-update redis-master --image=redis-master:1.0 --rollback #pod版本回滚
etcdctl 常用操作
etcdctl cluster-health #检查网络集群健康状态 etcdctl --endpoints=https://192.168.71.221:2379 cluster-health #带有安全认证检查网络集群健康状态 etcdctl member list etcdctl set /k8s/network/config ‘{ “Network”: “10.1.0.0/16” }’ etcdctl get /k8s/network/config
五、Kubernetes 100个常用命令
这里列出了 100 个 Kubectl 命令,这些命令对于诊断 Kubernetes 集群中的问题非常有用。这些问题包括但不限于:
- 集群信息
- Pod 诊断
- 服务诊断
- 部署诊断
- 网络诊断
- 持久卷和持久卷声明诊断
- 资源使用情况
- 安全和授权
- 节点故障排除
- 其他诊断命令:文章还提到了许多其他命令,如资源扩展和自动扩展、作业和定时作业诊断、Pod 亲和性和反亲和性规则、RBAC 和安全、服务账号诊断、节点排空和取消排空、资源清理等。
集群信息
- 显示 Kubernetes 版本:
kubectl version
- 显示集群信息:
kubectl cluster-info
- 列出集群中的所有节点:
kubectl get nodes
- 查看一个具体的节点详情:
kubectl describe node <node-name>
- 列出所有命名空间:
kubectl get namespaces
- 列出所有命名空间中的所有 pod:
kubectl get pods --all-namespaces
Pod 诊断
- 列出特定命名空间中的 pod:
kubectl get pods -n <namespace>
- 查看一个 Pod 详情:
kubectl describe pod <pod-name> -n <namespace>
- 查看 Pod 日志:
kubectl logs <pod-name> -n <namespace>
- 尾部 Pod 日志:
kubectl logs -f <pod-name> -n <namespace>
- 在 pod 中执行命令:
kubectl exec -it <pod-name> -n <namespace> -- <command>
Pod 健康检查
- 检查 Pod 准备情况:
kubectl get pods <pod-name> -n <namespace> -o jsonpath='{.status.conditions[?(@.type=="Ready")].status}'
- 检查 Pod 事件:
kubectl get events -n <namespace> --field-selector involvedObject.name=<pod-name>
Service诊断
- 列出命名空间中的所有服务:
kubectl get svc -n <namespace>
- 查看一个服务详情:
kubectl describe svc <service-name> -n <namespace>
Deployment诊断
- 列出命名空间中的所有Deployment:
kubectl get deployments -n <namespace>
- 查看一个Deployment详情:
kubectl describe deployment <deployment-name> -n <namespace>
- 查看滚动发布状态:
kubectl rollout status deployment/<deployment-name> -n <namespace>
- 查看滚动发布历史记录:
kubectl rollout history deployment/<deployment-name> -n <namespace>
StatefulSet诊断
- 列出命名空间中的所有 StatefulSet:
kubectl get statefulsets -n <namespace>
- 查看一个 StatefulSet详情:
kubectl describe statefulset <statefulset-name> -n <namespace>
ConfigMap 和Secret诊断
- 列出命名空间中的 ConfigMap:
kubectl get configmaps -n <namespace>
- 查看一个ConfigMap详情:
kubectl describe configmap <configmap-name> -n <namespace>
- 列出命名空间中的 Secret:
kubectl get secrets -n <namespace>
- 查看一个Secret详情:
kubectl describe secret <secret-name> -n <namespace>
命名空间诊断
- 查看一个命名空间详情:
kubectl describe namespace <namespace-name>
资源使用情况
- 检查 pod 的资源使用情况:
kubectl top pod <pod-name> -n <namespace>
- 检查节点资源使用情况:
kubectl top nodes
网络诊断
- 显示命名空间中 Pod 的 IP 地址:
kubectl get pods -n <namespace> -o custom-columns=POD:metadata.name,IP:status.podIP --no-headers
- 列出命名空间中的所有网络策略:
kubectl get networkpolicies -n <namespace>
- 查看一个网络策略详情:
kubectl describe networkpolicy <network-policy-name> -n <namespace>
持久卷 (PV) 和持久卷声明 (PVC) 诊断
- 列出PV:
kubectl get pv
- 查看一个PV详情:
kubectl describe pv <pv-name>
- 列出命名空间中的 PVC:
kubectl get pvc -n <namespace>
- 查看PVC详情:
kubectl describe pvc <pvc-name> -n <namespace>
节点诊断
- 获取特定节点上运行的 Pod 列表:
kubectl get pods --field-selector spec.nodeName=<node-name> -n <namespace>
资源配额和限制
- 列出命名空间中的资源配额:
kubectl get resourcequotas -n <namespace>
- 查看一个资源配额详情:
kubectl describe resourcequota <resource-quota-name> -n <namespace>
自定义资源定义 (CRD) 诊断
- 列出命名空间中的自定义资源:
kubectl get <custom-resource-name> -n <namespace>
- 查看自定义资源详情:
kubectl describe <custom-resource-name> <custom-resource-instance-name> -n <namespace>
使用这些命令时,请记住将, , , , , , , , , , , , , , 和替换为你的特定值。
这些命令应该可以帮助你诊断 Kubernetes 集群以及在其中运行的应用程序。
资源伸缩和自动伸缩
- Deployment伸缩:
kubectl scale deployment <deployment-name> --replicas=<replica-count> -n <namespace>
- 设置Deployment的自动伸缩:kubectl autoscale deployment <deployment-name> --min=<min-pods> --max=<max-pods> --cpu-percent=<cpu-percent> -n <namespace>
- 检查水平伸缩器状态:
kubectl get hpa -n <namespace>
作业和 CronJob 诊断
- 列出命名空间中的所有作业:
kubectl get jobs -n <namespace>
- 查看一份工作详情:
kubectl describe job <job-name> -n <namespace>
- 列出命名空间中的所有 cron 作业:
kubectl get cronjobs -n <namespace>
- 查看一个 cron 作业详情:
kubectl describe cronjob <cronjob-name> -n <namespace>
容量诊断
- 列出按容量排序的持久卷 (PV):
kubectl get pv --sort-by=.spec.capacity.storage
- 查看PV回收策略:
kubectl get pv <pv-name> -o=jsonpath='{.spec.persistentVolumeReclaimPolicy}'
- 列出所有存储类别:
kubectl get storageclasses
Ingress和服务网格诊断
- 列出命名空间中的所有Ingress:
kubectl get ingress -n <namespace>
- 查看一个Ingress详情:
kubectl describe ingress <ingress-name> -n <namespace>
- 列出命名空间中的所有 VirtualServices (Istio):
kubectl get virtualservices -n <namespace>
- 查看一个 VirtualService (Istio)详情:
kubectl describe virtualservice <virtualservice-name> -n <namespace>
Pod 网络故障排除
- 运行网络诊断 Pod(例如 busybox)进行调试:
kubectl run -it --rm --restart=Never --image=busybox net-debug-pod -- /bin/sh
- 测试从 Pod 到特定端点的连接:
kubectl exec -it <pod-name> -n <namespace> -- curl <endpoint-url>
- 跟踪从一个 Pod 到另一个 Pod 的网络路径:
kubectl exec -it <source-pod-name> -n <namespace> -- traceroute <destination-pod-ip>
- 检查 Pod 的 DNS 解析:
kubectl exec -it <pod-name> -n <namespace> -- nslookup <domain-name>
配置和资源验证
- 验证 Kubernetes YAML 文件而不应用它:
kubectl apply --dry-run=client -f <yaml-file>
- 验证 pod 的安全上下文和功能:
kubectl auth can-i list pods --as=system:serviceaccount:<namespace>:<serviceaccount-name>
RBAC 和安全性
- 列出命名空间中的角色和角色绑定:
kubectl get roles,rolebindings -n <namespace>
- 查看角色或角色绑定详情:
kubectl describe role <role-name> -n <namespace>
服务帐户诊断
- 列出命名空间中的服务帐户:
kubectl get serviceaccounts -n <namespace>
- 查看一个服务帐户详情:
kubectl describe serviceaccount <serviceaccount-name> -n <namespace>
清空节点和解除封锁
- 清空节点以进行维护:
kubectl drain <node-name> --ignore-daemonsets
- 解除对节点的封锁:
kubectl uncordon <node-name>
资源清理
- 强制删除 pod(不推荐):
kubectl delete pod <pod-name> -n <namespace> --grace-period=0 --force
Pod 亲和性和反亲和性
- 列出 pod 的 pod 亲和性规则:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity}'
- 列出 pod 的 pod 反亲和性规则:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.affinity.podAntiAffinity}'
Pod 安全策略 (PSP)
- 列出所有 Pod 安全策略(如果启用):
kubectl get psp
事件
- 查看最近的集群事件:
kubectl get events --sort-by=.metadata.creationTimestamp
- 按特定命名空间过滤事件:
kubectl get events -n <namespace>
节点故障排除
- 检查节点情况:
kubectl describe node <node-name> | grep Conditions -A5
- 列出节点容量和可分配资源:
kubectl describe node <node-name> | grep -E "Capacity|Allocatable"
临时容器(Kubernetes 1.18+)
- 运行临时调试容器:
kubectl debug -it <pod-name> -n <namespace> --image=<debug-image> -- /bin/sh
资源指标(需要指标服务器)
- 获取 Pod 的 CPU 和内存使用情况:
kubectl top pod -n <namespace>
kuelet诊断
- 查看节点上的kubelet日志:
kubectl logs -n kube-system kubelet-<node-name>
使用Telepresence 进行高级调试
- 使用 Telepresence 调试 pod:
telepresence --namespace <namespace> --swap-deployment <pod-name>
Kubeconfig 和上下文
- 列出可用的上下文:
kubectl config get-contexts
- 切换到不同的上下文:
kubectl config use-context <context-name>
Pod 安全标准(PodSecurity 准入控制器)
- 列出 PodSecurityPolicy (PSP) 违规行为:
kubectl get psp -A | grep -vE 'NAME|REVIEWED'
Pod 中断预算 (PDB) 诊断
- 列出命名空间中的所有 PDB:
kubectl get pdb -n <namespace>
- 查看一个PDB详情:
kubectl describe pdb <pdb-name> -n <namespace>
资源锁诊断(如果使用资源锁)
- 列出命名空间中的资源锁:
kubectl get resourcelocks -n <namespace>
服务端点和 DNS
- 列出服务的服务端点:
kubectl get endpoints <service-name> -n <namespace>
- 检查 Pod 中的 DNS 配置:
kubectl exec -it <pod-name> -n <namespace> -- cat /etc/resolv.conf
自定义指标(Prometheus、Grafana)
- 查询Prometheus指标:用于
kubectl port-forward
访问Prometheus和Grafana服务来查询自定义指标。
Pod 优先级和抢占
- 列出优先级:
kubectl get priorityclasses
Pod 开销(Kubernetes 1.18+)
- 列出 pod 中的开销:
kubectl get pod <pod-name> -n <namespace> -o=jsonpath='{.spec.overhead}'
存储卷快照诊断(如果使用存储卷快照)
- 列出存储卷快照:
kubectl get volumesnapshot -n <namespace>
- 查看存储卷快照详情:
kubectl describe volumesnapshot <snapshot-name> -n <namespace>
资源反序列化诊断
- 反序列化并打印 Kubernetes 资源:
kubectl get <resource-type> <resource-name> -n <namespace> -o=json
节点污点
- 列出节点污点:
kubectl describe node <node-name> | grep Taints
更改和验证 Webhook 配置
- 列出变异 webhook 配置:
kubectl get mutatingwebhookconfigurations
- 列出验证 Webhook 配置:
kubectl get validatingwebhookconfigurations
Pod 网络策略
- 列出命名空间中的 pod 网络策略:
kubectl get networkpolicies -n <namespace>
节点条件(Kubernetes 1.17+)
自定义查询输出:kubectl get nodes -o custom-columns=NODE:.metadata.name,READY:.status.conditions[?(@.type=="Ready")].status -l 'node-role.kubernetes.io/worker='
审核日志
- 检索审核日志(如果启用):检查 Kubernetes 审核日志配置以了解审核日志的位置。
节点操作系统详细信息
- 获取节点的操作系统信息:
kubectl get node <node-name> -o jsonpath='{.status.nodeInfo.osImage}'
这些命令应该涵盖 Kubernetes 中的各种诊断场景。确保将、、等占位符替换为你的集群和用例的实际值。