容器服务及相关云环境几次故障和问题排查记录

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: ## 1. 镜像仓库被设置为公有,导致镜像泄露风险:       ** 错误现象: **   公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。

1. 镜像仓库被设置为公有,导致镜像泄露风险:   

   错误现象:
  公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。
   解决方法:
   镜像仓库的命名空间一定要设置为私有,准确设置绑定云效中docker 镜像账号,通过云效发布应用;
   严格设定容器镜像仓库的维护权限;

2. 镜像拉取失败:

   错误现象:

## 查看 pod 部署日志   
kubectl logs {pod}     
## 错误信息
Failed to pull image "registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}:20190823150817": 
rpc error: code = Unknown desc = Error response from daemon: 
pull access denied for registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}, repository does not exist or may require 'docker login'

  错误原因:   

  • 当前 tag 的镜像不存在、镜像地址错误、镜像网络不通,没法访问;        
       解决方法:

   只需修改正确地址或者打通网络即可;   

  • Deployment 或者 Statefulset 的imagePullSecrets 没有设置或者设置错误 
      解决方法:

  控制台或者使用命令建立保密字典,然后使用 imagePullSecrets 引入,或者自己建立 Secret:       

## deplyment yaml 设置: 
imagePullSecrets:            
    - name: acr-credential-be5ac8be6a88c42ac1d831b85135a585            

3. SLB被容器服务清除,导致故障,需要重建和安全配置:

   错误现象:
与容器服务关联配置的负载均衡(SLB)被清除;
   错误原因:
   因为有状态副本或者 Deployment集部署删除,存在级联删除 Service 情况,开发和运维人员使用重建方式修改自己配置的时候,导致 service 级联相应 SLB 被删除,导致故障,需要紧急重建 SLB 并多方增加访问控制等配置。
   Service 配置任意修改或者删除,比如将 SLB 模式修改为 NodePort 或者 Cluster 模式,导致 SLB 负载均衡配置被清除。
   解决与防止方法:
   kubernetes 使用 NodePort,再通过手动建立负载均衡(SLB)与 NodePort 关联,解耦 Service 与 SLB 级联关系。
   使用 Ingress 暴露服务,Service 使用虚拟集群 IP,与 Ingress 关联。

使用此种方式需要注意 SLB 到后端服务的负载均衡,具体参考负载均衡 中负载均衡请求部分。

4. ECS 添加到集群失败:

   错误现象:
  集群增加已有节点或者扩容失败。
错误日志例如下:

2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Wait k8s node i-9dpfd2n6ijvdd5tb642r join cluster timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to check instance i-9dpfd2n6ijvdd5tb642r healthy : Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to init instance i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout
2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to attach node i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout  

   错误原因:

  • 单个集群内节点数量配额达到阈值,导致 ECS 几点没法加入;
  • 虚拟网络 VPC中路由表的路由条目达到阈值,导致新增节点没法添加路由条目;
  • kubernetes apiserver 的 SLB 负载均衡设置有访问控制,导致添加的 ECS 没法访问 ApiServer;
  • 添加的 ECS 节点自身安全组限制或者底层网络故障,导致没法访问 apiserver;

   解决方法:

  • 联系阿里云同学增加集群或者路由表阈值;
  • 配置 SLB 访问控制,增加白名单;
  • 配置安全组,增加白名单,或者重建 ECS,释放故障 ECS;

5. 集群中,个别 POD 网络访问不通:

   错误现象:
   个别应用产生一定比例的访问超时错误报告,经过监控系统 sunfire 配置发现特定的A 应用 pod 与另外一个应用B pod 网络不通;
网络测试:

  • A pod 访问不通 B pod;
  • B pod 能访问通 A pod;
  • A pod 宿主机 ECS 能访问通 B pod宿主机 ECS;
  • B pod 宿主机 ECS 能访问通 A pod宿主机 ECS;
  • A pod 访问通 B pod宿主机 ECS;
  • B pod 访问通 A pod宿主机 ECS;
    抓包并与阿里云同学网络排查发现, 云上 VPC 的 NC 网络控制模块没有正确下发路由信息,导致网络故障。

   解决方法:

联系阿里云 vpc 同学,排查 vpc 中 NC 路由下发问题。

6. 部分 ECS 网络故障,Master 访问Node 的 kube-proxy 端口访问不通: 

   错误现象:
新添加一批 ECS 节点,个别 ECS 总是添加失败,报告超时,排除 SLB 访问控制等原因;
监控 kubelet-TelnetStatus.Value 报警;

【阿里云监控】应用分组-k8s-cbf861623f10144c488813375a8a0d489-worker-1个实例发生报警, 触发规则:kubelet-TelnetStatus.Value   
14:16 可用性监控[kubelet dingtalk-a-prod-node-X06/172.16.6.9] ,状态码(631>400 ),持续时间1天3分钟

   错误原因:
经过观察和多次测试,失败的 ECS 网络很不稳定,经常网络不通;
该故障排查错层较长,一直没怀疑机器问题;
ECS 宿主机基础设施有问题,排除释放此宿主机上的 ECS。
   解决方法:
新建 ECS, 释放故障 ECS,重新加入 kubernetes 集群。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
监控 关系型数据库 MySQL
Docker 容器启动失败日志分析方法,启动sonic容器实例simple时未报错运行一会又停止的问题排查实例演示
Docker 容器启动失败日志分析方法,启动sonic容器实例simple时未报错运行一会又停止的问题排查实例演示
611 0
Docker 容器启动失败日志分析方法,启动sonic容器实例simple时未报错运行一会又停止的问题排查实例演示
|
Kubernetes 监控 Java
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
797 0
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
|
3月前
|
Kubernetes Shell Docker
在K8S中,如果容器没有bash命令,如何进⼊容器排查问题?
在K8S中,如果容器没有bash命令,如何进⼊容器排查问题?
|
3月前
|
Kubernetes 网络协议 网络安全
在K8S中,容器提供一个服务,外部访问慢,到底是容器网络问题?还是容器服务问题?这种怎么排查?
在K8S中,容器提供一个服务,外部访问慢,到底是容器网络问题?还是容器服务问题?这种怎么排查?
|
3月前
|
Kubernetes 监控 Shell
在K8S中,我们公司用户反应pod连接数非常多,希望看一下这些连接都是什么信息?什么状态?怎么排查?容器里面没有集成bash环境、网络工具,怎么处理?
在K8S中,我们公司用户反应pod连接数非常多,希望看一下这些连接都是什么信息?什么状态?怎么排查?容器里面没有集成bash环境、网络工具,怎么处理?
|
6月前
|
存储 Prometheus 监控
【Docker 专栏】Docker 容器内应用的调试与故障排除
【5月更文挑战第8天】本文探讨了Docker容器内应用的调试与故障排除,强调其重要性。方法包括:通过日志排查、进入容器检查、使用监控工具及检查容器配置。常见问题涉及应用启动失败、性能问题、网络连接和数据存储。案例分析展示了实战场景,注意事项提醒避免不必要的容器修改、备份数据和理解应用架构。掌握这些技能能确保Docker应用的稳定运行和性能优化。
233 7
【Docker 专栏】Docker 容器内应用的调试与故障排除
|
6月前
|
存储 监控 Kubernetes
Docker容器的日常维护和故障排除
Docker容器已经成为了现代应用程序开发和部署的核心工具之一。然而,为了确保容器环境的稳定性和可靠性,日常维护和故障排除是必不可少的任务。本文将介绍一些关键的Docker容器维护和故障排除技巧,并提供丰富的示例代码,以帮助大家应对各种常见问题。
|
6月前
|
Kubernetes 容器
按照容器服务ACK向导 配置了 一个应用接入 eBPF,但是没有生效成功,该怎样去排查异常?
按照容器服务ACK向导 配置了 一个应用接入 eBPF,但是没有生效成功,该怎样去排查异常?
65 0
|
存储 运维 Prometheus
用这个开源项目,网络小白也能搞定容器网络问题排查
用这个开源项目,网络小白也能搞定容器网络问题排查
|
Docker 容器
Docker容器占用CPU和内存高排查
Docker容器占用CPU和内存高排查

相关产品

  • 容器计算服务
  • 下一篇
    无影云桌面