《企业运维之弹性计算原理与实践》——第二章 ECS 基础入门——第二章(上):ECS 基础入门(6) https://developer.aliyun.com/article/1231749?groupCode=supportservice
2. ECS 常见问题
下图列举了阿里云在冬奥护航项目中针对ECS最常见的三类问题场景的预案和处理方案。
【场景 1】实例宕机
a) 异常 ECS 节点上业务请求会可能会出现少量超时情况应用重试即可,pod 会在其他节点及时拉起,整体负载会上升,需要提前配置节点弹性伸缩。
处理方案
• 提前通过 ack 容器服务配置节点自动伸缩功能,当节点异常后会按需新增节点(提前预案),https://help.aliyun.com/document_detail/119099.html
• 如 果 没 有配置弹性 伸 缩 功 能,需要 手 动 添 加 节 点到集 群 ,
https://help.aliyun.com/document_detail/86919.html
b) 异常 ECS 上请求可能出现少量超时,SLB 健康检查会自动剔除异常实例,应用集群负载会整体有上升,需要提前配置弹性伸缩策略。
处理方案
• 通过 ESS 配置弹性伸缩策略(提前预案)
https://help.aliyun.com/document_detail/148118.html
• 如无弹性伸缩配置,提前准备脚本调用阿里云 API 利用自定义镜像新购服务器并挂载到 SLB 下。
c) ECS 上业务不可用。
处理方案
• 梳理护航核心业务,去单点架构,确保所有业务都是集群或者分布式部署。
• 通过宕机迁移恢复,影响业务时间为服务器重启时间。
【场景 2】单 ECS 出现 CPU/网络/IO 负载异常
a) 容器服务节点:异常 ECS 节点上业务请求可能出现少量超时情况。
处理方案
• 首先,通过容器服务控制台移除节点,避免流量分发到该异常节点,
https://help.aliyun.com/document_detail/100251.html
• 提前通过 ack 容器服务配罟节点自动伸缩功能,避免移除节点后出现负载瓶颈(提前预案),https://help.aliyun.com/document_detail/119099.html
• 如 果 没 有配置弹性 伸 缩 功 能需要 手 动 添 加 节 点到集 群 ,
https://help.aliyun.com/document_detail/86919.html
【场景 3】大规模 ECS 出现 CPU 负载异常
大规模 ECS 出现 CPU 负载异常导致业务整体不可用。
处理方案
• 提前预案
根据阿里云提供全链路评估报告梳理 ECS 安全组规则,收敛存在安全风险
的策略,如收敛 0.0.0.0/0 规则。
核心业务服务器请安装安骑士,及时修补服务器安全风险及漏洞。
• 恢复预案
登录异常 ECS,通过 TOP 命令看看是否存在陌生进程占用大量 CPU,判断
有可能被暴力破解并部署挖矿程序,需要及时切彻底删除木马程序。
如业务进程占用 CPU 最高,可尝试重启应用优先恢复业务。
通过快照进行恢复到之前的状态。