容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

1. 镜像仓库被设置为公有,导致镜像泄露风险:   

   错误现象:
  公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。
   解决方法:
   镜像仓库的命名空间一定要设置为私有,准确设置绑定云效中docker 镜像账号,通过云效发布应用;
   严格设定容器镜像仓库的维护权限;

2. 镜像拉取失败:

   错误现象:

## 查看 pod 部署日志   
kubectl logs {pod}     
## 错误信息
Failed to pull image "registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}:20190823150817": 
rpc error: code = Unknown desc = Error response from daemon: 
pull access denied for registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}, repository does not exist or may require 'docker login'

  错误原因:   

  • 当前 tag 的镜像不存在、镜像地址错误、镜像网络不通,没法访问;        
       解决方法:

   只需修改正确地址或者打通网络即可;   

  • Deployment 或者 Statefulset 的imagePullSecrets 没有设置或者设置错误 
      解决方法:

  控制台或者使用命令建立保密字典,然后使用 imagePullSecrets 引入,或者自己建立 Secret:       

## deplyment yaml 设置: 
imagePullSecrets:            
    - name: acr-credential-be5ac8be6a88c42ac1d831b85135a585            

3. SLB被容器服务清除,导致故障,需要重建和安全配置:

   错误现象:
与容器服务关联配置的负载均衡(SLB)被清除;
   错误原因:
   因为有状态副本或者 Deployment集部署删除,存在级联删除 Service 情况,开发和运维人员使用重建方式修改自己配置的时候,导致 service 级联相应 SLB 被删除,导致故障,需要紧急重建 SLB 并多方增加访问控制等配置。
   Service 配置任意修改或者删除,比如将 SLB 模式修改为 NodePort 或者 Cluster 模式,导致 SLB 负载均衡配置被清除。
   解决与防止方法:
   kubernetes 使用 NodePort,再通过手动建立负载均衡(SLB)与 NodePort 关联,解耦 Service 与 SLB 级联关系。
   使用 Ingress 暴露服务,Service 使用虚拟集群 IP,与 Ingress 关联。

使用此种方式需要注意 SLB 到后端服务的负载均衡,具体参考负载均衡 中负载均衡请求部分。

4. ECS 添加到集群失败:

   错误现象:
  集群增加已有节点或者扩容失败。
错误日志例如下:

2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Wait k8s node i-9dpfd2n6ijvdd5tb642r join cluster timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to check instance i-9dpfd2n6ijvdd5tb642r healthy : Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to init instance i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to attach node i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  

   错误原因:

  • 单个集群内节点数量配额达到阈值,导致 ECS 几点没法加入;
  • 虚拟网络 VPC中路由表的路由条目达到阈值,导致新增节点没法添加路由条目;
  • kubernetes apiserver 的 SLB 负载均衡设置有访问控制,导致添加的 ECS 没法访问 ApiServer;
  • 添加的 ECS 节点自身安全组限制或者底层网络故障,导致没法访问 apiserver;

   解决方法:

  • 联系阿里云同学增加集群或者路由表阈值;
  • 配置 SLB 访问控制,增加白名单;
  • 配置安全组,增加白名单,或者重建 ECS,释放故障 ECS;

5. 集群中,个别 POD 网络访问不通:

   错误现象:
   个别应用产生一定比例的访问超时错误报告,经过监控系统 sunfire 配置发现特定的A 应用 pod 与另外一个应用B pod 网络不通;
网络测试:

  • A pod 访问不通 B pod;
  • B pod 能访问通 A pod;
  • A pod 宿主机 ECS 能访问通 B pod宿主机 ECS;
  • B pod 宿主机 ECS 能访问通 A pod宿主机 ECS;
  • A pod 访问通 B pod宿主机 ECS;
  • B pod 访问通 A pod宿主机 ECS;
    抓包并与阿里云同学网络排查发现, 云上 VPC 的 NC 网络控制模块没有正确下发路由信息,导致网络故障。

   解决方法:

联系阿里云 vpc 同学,排查 vpc 中 NC 路由下发问题。

6. 部分 ECS 网络故障,Master 访问Node 的 kube-proxy 端口访问不通: 

   错误现象:
新添加一批 ECS 节点,个别 ECS 总是添加失败,报告超时,排除 SLB 访问控制等原因;
监控 kubelet-TelnetStatus.Value 报警;

【阿里云监控】应用分组-k8s-cbf861623f10144c488813375a8a0d489-worker-1个实例发生报警, 触发规则:kubelet-TelnetStatus.Value   
14:16 可用性监控[kubelet dingtalk-a-prod-node-X06/172.16.6.9] ,状态码(631>400 ),持续时间1天3分钟

   错误原因:
经过观察和多次测试,失败的 ECS 网络很不稳定,经常网络不通;
该故障排查错层较长,一直没怀疑机器问题;
ECS 宿主机基础设施有问题,排除释放此宿主机上的 ECS。
   解决方法:
新建 ECS, 释放故障 ECS,重新加入 kubernetes 集群。

相关实践学习
通过容器镜像仓库与容器服务快速部署spring-hello应用
本教程主要讲述如何将本地Java代码程序上传并在云端以容器化的构建、传输和运行。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。   相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
20天前
|
Kubernetes 负载均衡 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第27天】Kubernetes(简称K8s)是云原生应用的核心容器编排平台,提供自动化、扩展和管理容器化应用的能力。本文介绍Kubernetes的基本概念、安装配置、核心组件(如Pod和Deployment)、服务发现与负载均衡、网络配置及安全性挑战,帮助读者理解和实践Kubernetes在容器编排中的应用。
58 4
|
21天前
|
Kubernetes 监控 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第26天】随着云计算技术的发展,容器化成为现代应用部署的核心趋势。Kubernetes(K8s)作为容器编排领域的佼佼者,以其强大的可扩展性和自动化能力,为开发者提供了高效管理和部署容器化应用的平台。本文将详细介绍Kubernetes的基本概念、核心组件、实践过程及面临的挑战,帮助读者更好地理解和应用这一技术。
56 3
|
1月前
|
Kubernetes API 调度
中间层 k8s(Kubernetes) 到底是什么,架构是怎么样的?
中间层 k8s(Kubernetes) 到底是什么,架构是怎么样的?
51 3
|
1月前
|
Kubernetes 应用服务中间件 nginx
k8s学习--kubernetes服务自动伸缩之水平收缩(pod副本收缩)VPA策略应用案例
k8s学习--kubernetes服务自动伸缩之水平收缩(pod副本收缩)VPA策略应用案例
|
1月前
|
运维 Kubernetes Cloud Native
云原生时代的容器编排:Kubernetes入门与实践
【10月更文挑战第4天】在云计算的浪潮中,云原生技术以其敏捷、可扩展和高效的特点引领着软件开发的新趋势。作为云原生生态中的关键组件,Kubernetes(通常被称为K8s)已成为容器编排的事实标准。本文将深入浅出地介绍Kubernetes的基本概念,并通过实际案例引导读者理解如何利用Kubernetes进行高效的容器管理和服务部署。无论你是初学者还是有一定经验的开发者,本文都将为你打开云原生世界的大门,并助你一臂之力在云原生时代乘风破浪。
|
1月前
|
Kubernetes Cloud Native 流计算
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
76 3
|
1月前
|
Kubernetes 网络协议 安全
[kubernetes]二进制方式部署单机k8s-v1.30.5
[kubernetes]二进制方式部署单机k8s-v1.30.5
|
Kubernetes Java 应用服务中间件
采集kubernetes的容器日志
原文:https://www.zeusro.tech/2018/12/08/log-to-kubernetes/ 推送到ElasticSearch
2761 0
|
监控 Kubernetes Shell
使用阿里云日志服务采集查询kubernetes容器日志
使用阿里云日志收集查询kubernetes容器日志
2916 0
|
6天前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
27 1

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版
  • 下一篇
    无影云桌面