-
运维架构
- 硬件标准化(服务器、内存、系统版本)
- 软件标准化(应用版本)
- 运维自动化(监控、发布、CMDB)
- 监控报警(系统数据,应用指标的监控和出错时及时报警)
- 发布系统(代码发布,发布后的检查,代码的回滚,灰度发布)
- 服务器标准化(cobbler装机加puppet,做到硬件、软件标准化)
- CMDB(配置管理数据库,存储了所有运维相关数据,包括服务器硬件信息、域名和服务器关系、IDC容量等)
-
监控系统的角色
- 监控数据收集及可视化
- 监控系统能够自定义监控的内容,可以自己写脚本来收集需要的数据
- 数据保存在数据库,可用于分析计算
- 能够方便快速将监控加入到服务器
- 数据可视化要直观好用
- 异常数据报警
- 可以定义复杂的报警逻辑,可以做到item之间关联报警
- 报警需要被确认,让运维知道多少报警已经有人认领并开始处理
- 报警方式能够自定义,发邮件和短信
- 报警内容可设置,邮件中加入简单分析
- 报警后可以自动跑一些命令。这些命令可以获取需要的信息,也可以自动修复
- 和其他系统协同工作
- 有强大的API可以使用,让其他系统调用
- 监控数据开放,数据库中数据结构不要太复杂
- 监控可视化的图方便引用,而不是一大串javascript
- 监控数据收集及可视化