容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

1. 镜像仓库被设置为公有,导致镜像泄露风险:   

   错误现象:
  公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。
   解决方法:
   镜像仓库的命名空间一定要设置为私有,准确设置绑定云效中docker 镜像账号,通过云效发布应用;
   严格设定容器镜像仓库的维护权限;

2. 镜像拉取失败:

   错误现象:

## 查看 pod 部署日志   
kubectl logs {pod}     
## 错误信息
Failed to pull image "registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}:20190823150817": 
rpc error: code = Unknown desc = Error response from daemon: 
pull access denied for registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}, repository does not exist or may require 'docker login'

  错误原因:   

  • 当前 tag 的镜像不存在、镜像地址错误、镜像网络不通,没法访问;        
       解决方法:

   只需修改正确地址或者打通网络即可;   

  • Deployment 或者 Statefulset 的imagePullSecrets 没有设置或者设置错误 
      解决方法:

  控制台或者使用命令建立保密字典,然后使用 imagePullSecrets 引入,或者自己建立 Secret:       

## deplyment yaml 设置: 
imagePullSecrets:            
    - name: acr-credential-be5ac8be6a88c42ac1d831b85135a585            

3. SLB被容器服务清除,导致故障,需要重建和安全配置:

   错误现象:
与容器服务关联配置的负载均衡(SLB)被清除;
   错误原因:
   因为有状态副本或者 Deployment集部署删除,存在级联删除 Service 情况,开发和运维人员使用重建方式修改自己配置的时候,导致 service 级联相应 SLB 被删除,导致故障,需要紧急重建 SLB 并多方增加访问控制等配置。
   Service 配置任意修改或者删除,比如将 SLB 模式修改为 NodePort 或者 Cluster 模式,导致 SLB 负载均衡配置被清除。
   解决与防止方法:
   kubernetes 使用 NodePort,再通过手动建立负载均衡(SLB)与 NodePort 关联,解耦 Service 与 SLB 级联关系。
   使用 Ingress 暴露服务,Service 使用虚拟集群 IP,与 Ingress 关联。

使用此种方式需要注意 SLB 到后端服务的负载均衡,具体参考负载均衡 中负载均衡请求部分。

4. ECS 添加到集群失败:

   错误现象:
  集群增加已有节点或者扩容失败。
错误日志例如下:

2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Wait k8s node i-9dpfd2n6ijvdd5tb642r join cluster timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to check instance i-9dpfd2n6ijvdd5tb642r healthy : Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to init instance i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to attach node i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  

   错误原因:

  • 单个集群内节点数量配额达到阈值,导致 ECS 几点没法加入;
  • 虚拟网络 VPC中路由表的路由条目达到阈值,导致新增节点没法添加路由条目;
  • kubernetes apiserver 的 SLB 负载均衡设置有访问控制,导致添加的 ECS 没法访问 ApiServer;
  • 添加的 ECS 节点自身安全组限制或者底层网络故障,导致没法访问 apiserver;

   解决方法:

  • 联系阿里云同学增加集群或者路由表阈值;
  • 配置 SLB 访问控制,增加白名单;
  • 配置安全组,增加白名单,或者重建 ECS,释放故障 ECS;

5. 集群中,个别 POD 网络访问不通:

   错误现象:
   个别应用产生一定比例的访问超时错误报告,经过监控系统 sunfire 配置发现特定的A 应用 pod 与另外一个应用B pod 网络不通;
网络测试:

  • A pod 访问不通 B pod;
  • B pod 能访问通 A pod;
  • A pod 宿主机 ECS 能访问通 B pod宿主机 ECS;
  • B pod 宿主机 ECS 能访问通 A pod宿主机 ECS;
  • A pod 访问通 B pod宿主机 ECS;
  • B pod 访问通 A pod宿主机 ECS;
    抓包并与阿里云同学网络排查发现, 云上 VPC 的 NC 网络控制模块没有正确下发路由信息,导致网络故障。

   解决方法:

联系阿里云 vpc 同学,排查 vpc 中 NC 路由下发问题。

6. 部分 ECS 网络故障,Master 访问Node 的 kube-proxy 端口访问不通: 

   错误现象:
新添加一批 ECS 节点,个别 ECS 总是添加失败,报告超时,排除 SLB 访问控制等原因;
监控 kubelet-TelnetStatus.Value 报警;

【阿里云监控】应用分组-k8s-cbf861623f10144c488813375a8a0d489-worker-1个实例发生报警, 触发规则:kubelet-TelnetStatus.Value   
14:16 可用性监控[kubelet dingtalk-a-prod-node-X06/172.16.6.9] ,状态码(631>400 ),持续时间1天3分钟

   错误原因:
经过观察和多次测试,失败的 ECS 网络很不稳定,经常网络不通;
该故障排查错层较长,一直没怀疑机器问题;
ECS 宿主机基础设施有问题,排除释放此宿主机上的 ECS。
   解决方法:
新建 ECS, 释放故障 ECS,重新加入 kubernetes 集群。

相关实践学习
通过容器镜像仓库与容器服务快速部署spring-hello应用
本教程主要讲述如何将本地Java代码程序上传并在云端以容器化的构建、传输和运行。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。   相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
8天前
|
Kubernetes Cloud Native Docker
云原生时代的容器化实践:Docker和Kubernetes入门
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术成为企业提升敏捷性和效率的关键。本篇文章将引导读者了解如何利用Docker进行容器化打包及部署,以及Kubernetes集群管理的基础操作,帮助初学者快速入门云原生的世界。通过实际案例分析,我们将深入探讨这些技术在现代IT架构中的应用与影响。
33 2
|
18天前
|
Kubernetes 监控 开发者
掌握容器化:Docker与Kubernetes的最佳实践
【10月更文挑战第26天】本文深入探讨了Docker和Kubernetes的最佳实践,涵盖Dockerfile优化、数据卷管理、网络配置、Pod设计、服务发现与负载均衡、声明式更新等内容。同时介绍了容器化现有应用、自动化部署、监控与日志等开发技巧,以及Docker Compose和Helm等实用工具。旨在帮助开发者提高开发效率和系统稳定性,构建现代、高效、可扩展的应用。
|
10天前
|
存储 Kubernetes Docker
【赵渝强老师】Kubernetes中Pod的基础容器
Pod 是 Kubernetes 中的基本单位,代表集群上运行的一个进程。它由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。基础容器负责维护 Pod 的网络空间,对用户透明。文中附有图片和视频讲解,详细介绍了 Pod 的组成结构及其在网络配置中的作用。
【赵渝强老师】Kubernetes中Pod的基础容器
|
10天前
|
运维 Kubernetes Shell
【赵渝强老师】K8s中Pod的临时容器
Pod 是 Kubernetes 中的基本调度单位,由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。临时容器用于故障排查和性能诊断,不适用于构建应用程序。当 Pod 中的容器异常退出或容器镜像不包含调试工具时,临时容器非常有用。文中通过示例展示了如何使用 `kubectl debug` 命令创建临时容器进行调试。
|
10天前
|
Kubernetes 调度 容器
【赵渝强老师】K8s中Pod中的业务容器
Pod 是 Kubernetes 中的基本调度单元,由一个或多个容器组成。除了业务容器,Pod 还包括基础容器、初始化容器和临时容器。本文通过示例介绍如何创建包含业务容器的 Pod,并提供了一个视频讲解。示例中创建了一个名为 "busybox-container" 的业务容器,并使用 `kubectl create -f firstpod.yaml` 命令部署 Pod。
|
10天前
|
Kubernetes 容器 Perl
【赵渝强老师】K8s中Pod中的初始化容器
Kubernetes的Pod包含业务容器、基础容器、初始化容器和临时容器。初始化容器在业务容器前运行,用于执行必要的初始化任务。本文介绍了初始化容器的作用、配置方法及优势,并提供了一个示例。
|
18天前
|
Kubernetes 负载均衡 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第27天】Kubernetes(简称K8s)是云原生应用的核心容器编排平台,提供自动化、扩展和管理容器化应用的能力。本文介绍Kubernetes的基本概念、安装配置、核心组件(如Pod和Deployment)、服务发现与负载均衡、网络配置及安全性挑战,帮助读者理解和实践Kubernetes在容器编排中的应用。
49 4
|
19天前
|
Kubernetes 监控 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第26天】随着云计算技术的发展,容器化成为现代应用部署的核心趋势。Kubernetes(K8s)作为容器编排领域的佼佼者,以其强大的可扩展性和自动化能力,为开发者提供了高效管理和部署容器化应用的平台。本文将详细介绍Kubernetes的基本概念、核心组件、实践过程及面临的挑战,帮助读者更好地理解和应用这一技术。
54 3
|
20天前
|
存储 运维 Kubernetes
云端迁移:备份中心助力企业跨云迁移K8s容器服务平台
本文将简要介绍阿里云容器服务ACK的备份中心,并以某科技公司在其实际的迁移过程中遇到具体挑战为例,阐述如何有效地利用备份中心来助力企业的容器服务平台迁移项目。
|
10天前
|
Kubernetes 监控 Java
如何在Kubernetes中配置镜像和容器的定期垃圾回收
如何在Kubernetes中配置镜像和容器的定期垃圾回收

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版
  • 推荐镜像

    更多