开发者社区云原生云原生可观测正文

如何设计好的可观测体验？

展开

收起

游客lmkkns5ck6auu 2022-08-24 11:05:23 211 版权

阿里云 AI 助理回答

设计好的可观测体验，需要围绕以下几个核心方面进行：

监控指标：确保系统能够收集并展示关键运行状况指标，如CPU使用率、内存使用率、网络流量等。利用工具如Prometheus、Grafana、Zabbix或阿里云的云监控服务，实现定期数据采集、可视化展示，并配置异常时的警报机制。
链路追踪：实施分布式跟踪以快速定位问题，通过在请求中添加跟踪标识符，并利用Jaeger、Zipkin、Skywalking、CAT或阿里云ARMS来记录和分析组件间的交互行为。
日志记录与管理：不仅要全面记录系统事件和故障信息，还需对日志进行有效管理和分析，包括过滤、归档，以便于故障排查和优化存储资源。
监控看板与可视化：建立直观的仪表盘和图表，如使用Grafana、Kibana，将监测指标和跟踪信息可视化，便于实时理解系统状态和性能。
事件告警与安全监控：设置高效的安全事件监测和实时警报系统，覆盖未经授权访问、恶意攻击等，确保系统的安全性。
变更设计原则：
- 可灰度：建立灰度发布机制，支持按用户、区域、渠道等方式分批发布，设定合理的灰度间隔时间，确保观测指标明确，以便及时判断发布效果。
- 可回滚：确保每次变更都易于回滚，推荐多版本小更新策略，降低因版本跨度大导致的回滚难度。
- 可观测性：变更过程中强化业务、链路、资源的可观测性，密切关注业务及应用指标变化，确保变更影响的即时发现与处理。
应急响应机制：建立快速响应流程，参考阿里巴巴的“应急响应1-5-10”原则，即1分钟内发现故障，5分钟内初步排查，10分钟内开始恢复工作，确保有标准的操作流程应对突发事件。