5. 工具推荐
1) 阿里云相关工具
从基础设施可靠性、数据可靠性到应用可观测性、APM、自助诊断、弹性容错能力等服务可靠性,阿里云都提供了完备的产品解决方案。用户可以利用这一系列能力,提升自身服务的可靠性。
• 全球化超级数据中心
阿里云基础设施目前已面向全球四大洲,开服运营25个公共云地域、80个可用区,此外还拥有4个金融云、政务云专属地域,并且致力于持续的新地域规划和建设。通过全球化的布局、超级规模的数据中心、持续的投入与深入布局来保障阿里云基础设施坚实、可靠。
• 快照与自定义镜像
从块存储技术角度,阿里云的块存储设备在具备高性能和低时延的优势下,同时提供了极高SLA保障了数据的可靠性,其中云盘采用分布式三副本机制,为ECS实例提供99.9999999%的数据可靠性保证。
从数据备份与容灾恢复角度,阿里云提供了快照2.0技术,提供了更高的快照额度、更灵活的自动任务策略,并进一步降低了对业务I/O的影响,同时增量快照能力可以以更快的快照制作速度和更小的空间占用,帮助用户提升效率并降低成本。
用户可以通过自定义快照策略实现快照自动化备份,以极低的成本完成数据备份,在故障场景,用户可以通过控制台或者OpenAPI来手动或着自动化完成快照回滚、数据恢复。同样的原理适用于自定义镜像,用户可以通过镜像的制作、复制、恢复来完成数据备份、中转、恢复。
• 自助问题排查
阿里云的基础云产品服务比如ECS、RDS、虚拟网络均提供了云资源侧的自助诊断能力,以ECS和DAS诊断为例简单介绍。
。 ECS自助问题排查:ECS自助问题排查提供的实例健康诊断、操作异常诊断、安全组规则检测、以及网络连通性诊断,可以全方位帮助用户诊断实例的操作系统配置、磁盘状态、网络配置、网络状态等配置异常,同时给予修复建议方案,帮助用户及时处理潜在风险。
。 数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。
• 云监控CMS
云监控服务可用于收集获取阿里云资源的监控指标或用户自定义的监控指标,探测服务可用性以及针对指标设置警报。使您全面了解阿里云上的资源使用情况、业务的运行状况和健康度,并及时收到异常报警做出反应,保证应用程序顺畅运行。
• 基础监控:云上云下统一的主机监控解决方案及百余款云产品监控。
• 网络监控:基于私网和公网的网络可用性监控。
• 业务监控:过日志监控、自定义监控把业务数据归集到云上进行统一监控和管理。
• 日志服务SLS
日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。作为云原生观测分析平台。
。 数据采集:支持Log/Metric/Trace统一采集,支持服务器/应用/移动设备/网页/IoT等数据源接入,支持阿里云产品/开源系统/云间/云下日志数据接入。
。 数据加工:通过灵活语法,在不编写代码情况下支持各种复杂数据提取、解析、富化、分发等需求,支持结构化分析。
。 查询分析:提供关键词、SQL92、AIOps函数等多种方式,支持面向文本+结构化数据实时查询分析,异常巡检与智能分析。
。 监控告警:具备丰富的可视化组件,可创建所见即所得的交互式分析大盘。同时支持实时可编排的告警功能,可随时随地掌握业务动向。
。 日志审计:账户下实时自动化、中心化采集云产品日志并进行审计,支持升级所需合规存储、查询及信息汇总报表。
。 投递与消费:与各种实时计算及服务实时对接,并可以实现自定义消费。支持数据投递至存储类服务,支持压缩、自定义Partition以及行列等各种存储格式。
《CloudOps云上自动化运维 白皮书2.0》—— 六、可靠性能力Reliabilty——5.工具推荐(下):https://developer.aliyun.com/article/1222464?groupCode=ecs