《企业运维之弹性计算原理与实践》——ECS 进阶概念-运维——第三章(上):ECS 进阶概念-运维(5) https://developer.aliyun.com/article/1231686?groupCode=supportservice
3. 应用场景
1) 通知风险和异常
• 阿里云会将系统事件推送至 ECS 控制台展示,部分高危事件还会发送短信、邮件、站内信通知,并支持在 ECS 控制台或者通过 OpenAPI 响应。
• 用户可以在云监控控制台创建系统事件报警,设置报警规则和报警方式(见下图),选择所需订阅的报警事件类型、等级和名称、报警联系人和通知方式,当事件发生时系统会及时自动报警。
主要参数说明:
• 事件类型:需要订阅的事件类型,可选项有状态通知、异常、维护。
• 事件等级:需要订阅的事件等级。可选项有严重(CRITICAL)、警告(WARN)和信息(INFO)。
• 事件名称:需要消费的事件名称,可多选。
• 消息服务队列、函数计算、GET 或 POST URL 回调、日志服务是消息处理中间件,用户可以配置这些操作实现自动化处理事件程序。
• 通道沉默周期:发送报警通知的间隔时间,即:报警发生后未恢复正常,间隔多久重复发送一次报警通知。
2) 实现自动化运维
系统事件产生时及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。
4. 事件处理
1) 控制台操作
在 ECS 控制台的事件页面,可以查询所有实例相关的系统事件。(见下图)
在控制台中,显示数字的分类代表有待处理的系统事件。不同系统事件会推荐相应的响应方式,例如实例到期事件推荐续费、本地盘损坏事件推荐修复磁盘等。用户可以按控制台的操作指引自行完成操作,或者等待系统自动执行。
2) OpenAPI 操作
• 对问询中(Inquiring)状态的系统事件,调用 AcceptInquiredSystemEvent 授权阿里云执行,或者忽略该通知,不授权执行。
• 对计划重新部署实例的系统事件,自行调用 RedeployInstance 重新部署实
例,或者等待系统自动执行。
六、 问题排查(详见实验部分)
【本章回顾】