《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(4) https://developer.aliyun.com/article/1231687?groupCode=supportservice
五、 ECS 系统事件
1. 概述
系统事件由阿里云定义,用于记录和通知云资源的信息,例如运维任务执行情况,资源是否出现异常、资源状态变化。
ECS 系统事件主要有以下几类:
• 计划内事件:主动预测并规避底层宿主机的软硬件故障风险、提升底层宿主机的安全性而主动升级宿主机软件。
• 非预期事件:突发软硬件故障,或者实例发生 OOM(Out-Of-Memory 内存溢出)、内核错误(kernel panic)等情况时,导致实例突发重启、宕机等异常。
当出现非预期的宕机情况,底层会快速执行宕机迁移,帮助尽快恢复 ECS
资源可用性。
当发生内核错误的时候,可使用 Linux 内核功能 kdump 创建核心转储。
• 架构升级迁移:阿里云在升级和改造物理基础设施时,可能需要 ECS 执行迁移动作。
• 安全事件:实例遭遇 DDoS 攻击或进入黑洞,导致实例的安全受到威胁。
DDoS 攻击:将多台计算机联合起来作为攻击平台,通过远程连接利用恶
意程序,对一个或多个目标发起 DDoS 攻击,消耗目标服务器性能或网络
带宽,从而造成服务器无法正常地提供服务。
当阿里云公网 IP 资产遭受大流量 DDoS 攻击,且攻击流量的峰值带宽
(bps)超过了资产的 DDoS 防御能力时,资产 IP 会进入黑洞状态,暂时
屏蔽资产 IP 的所有入方向互联网流量(使该 IP 从互联网离线)。
• 费用预警:实例到期、账号欠费,导致实例即将被停止或释放。
• 实例状态变化:实例的生命周期变化,例如手动开关机;实例运行状态变化、抢占式实例中断、快照创建完成。
2. 事件状态
事件状态主要有两种属性:稳定状态和中间状态。
• 稳定状态
Executed:运维任务已经执行完成。
Avoided:用户在用户操作窗口期内自行迁移了实例,规避了系统事件的
影响。
Canceled:系统取消了运维任务。
• 中间状态
Inquiring:问询中,等待您授权,授权后会进入 Executing 状态。
Scheduled:计划执行运维任务,但尚未开始执行,开始执行后会进入
Executing 状态。
Executing:运维任务正在执行中。
下图列举了三种典型的事件状态变化:初始状态分别为 Inquiring 问询中、
Scheduled 定时操作、Executing 执行中,其中蓝色代表需要用户操作的部分,红色代表系统操作(无需客户响应)。
典型的事件状态变化示意图
《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(6) https://developer.aliyun.com/article/1231684?groupCode=supportservice