目录
可观察性是DevOps团队的重要组成部分,它可以帮助组织从系统的输出信息,推断系统内部状态。它是一个持续的过程,从你的CI/CD流水线开始,并贯穿于应用程序的整个生命周期。
可观察的CI/CD流水线,使你能够主动监视问题并跟踪CI/CD构建期间发生的错误。如果没有对流水线的可见性,在系统出现异常时,很难追溯到其根本原因。
在这篇文章中,我们将讨论提高系统可观察性的四种技术。
1. 生产环境的可观察性
有些错误仅在应用程序部署到生产环境后才会发生,因此很难在本地复现,有些还只是间歇性地发生。
当涉及到这些问题时,传统的测试和监控是不够的,因为它们主要用于检查和监控已知错误或问题。但是,如果你能确保你的生产系统是可观察的,那么你可以在故障发生时尽快找到原因或解决问题,从而避免代价高昂的停机时间。
应用程序还依赖于许多关键组件,例如存储、队列等。 生产环境的可观察性,还使你可以监视应用程序所依赖的三方组件的持续正常运行的时间。
生产环境的可观察性有两个关键部分——警报和被动监控。
警报
监控系统,不断检测重要的系统事件并向组织发送警报信息。大多数警报系统都是可配置的,允许你在应用程序的行为方式超出预定义阈值时发送警报。
警报可以通过短信、电子邮件甚至Slack消息发送——因此开发人员和利益相关者都知道系统什么时候发生问题。此类警报系统可确保开发人员在应用程序未按预期运行时收到通知。
被动监控
被动监控,对于全面了解应用程序性能和用户使用习惯至关重要,允许软件团队使用真实数据直接跟踪用户体验质量。
它不会将测试数据注入网络以模仿用户行为。相反,它从各个网络位置收集用户实际数据。
2. 优化日志记录
日志记录,一般包含有关软件系统发生事件的信息。在对软件进行故障排除时,日志可让你深入了解系统最初出现故障的时间和原因。
毫无疑问,日志数据为DevOps团队提供了对被监控应用程序或系统的更高级别的可见性。这使他们能够识别错误原因,以及应用程序中特定问题发生的频率。
但是,如果不对日志进行格式优化和集中处理,日志数据可能会膨胀,直到变得难以使用,尤其是在分布式架构中。当你收集大量业务无关和非结构化数据时,日志分析的挑战会增加。
良好的日志记录,会优先记录对应用程序性能至关重要的指标,并确保日志消息结构化、描述性强并包含有用的信息。该信息应包括:
- 时间戳
- 唯一用户ID
- 会话ID
- 资源使用信息
日志也应该在一个集中的、可访问的位置进行管理。这样,你可以轻松关联不同的日志,将它们与特定会话或用户联系起来,以便于更快地进行故障排除并了解整个基础架构中发生的情况。
3.DevOps文化
仅收集日志或监控生产环境的应用程序是不够的。为了在跨职能团队中实现系统全面的可观察性,你还需要围绕共同目标调整人员和团队协作流程。尽管看似无形,但至关重要。如果团队成员不支持该DevOps文化,组织可能无法实施战略计划。因此,DevOps文化转型,是构建高度可观察的应用程序的基础。
创建DevOps环境的最简单方法是将运维团队和开发团队结合起来,这样他们就必须进行更多的沟通和协作。要真正实现由可观察性驱动的DevOps文化,你需要:
- 营造协作环境
- 对端到端负责
- 持续改进
- 关注客户的需求
- 接受故障并从中学习
- 自动化
从软件开发开始到结束,软件团队应该始终编写可调试的代码。该代码还应包含适当的KPI、指标和日志记录。这提高了应用程序的整体可观察性,并为运维团队提供了更多数据指标来检测故障并预测未来可能发生的故障。
实现可观察性不仅仅是软件工程师和开发人员的工作,这应该是跨职能团队的共同责任。可观察性驱动的DevOps文化改变了组织对其开发过程的看法,并将运维思维方式注入到他们的日常实践中。最终,这会提高云应用程序的性能和可用性,同时提高团队的生产力和满意度——反过来也简化了工作流程和协作。
4. 部署前的可观察性
很多组织,都关注在生产系统中实现可观察性,但较少强调从开发阶段就使应用程序具备可观察的能力。
部署前的可观察性在许多日常活动中发挥着重要作用,包括决定构建什么或如何发布新功能、优化关键代码以及应用程序的架构调整。部署前的可观察性使DevOps团队能够主动提前修复,在其代码投入生产环境时可能出现的问题。
远程调试
远程调试工具提供了另一种安全感,这些工具允许开发人员调试--在本地环境之外运行的应用程序,而不会干扰应用程序的正常运行、还可以筛选大量日志文件或在本地复制生产环境。通过远程调试,开发人员可以使用不间断断点轻松调试任何环境中的错误,包括云原生开发环境等。
如果操作恰当,远程调试可以为开发团队节省大量金钱和时间,对于依赖云平台、服务和基础设施的组织尤其有用。
总结
虽然这四种最佳实践都是有益的,但部署前的可观察性是提高可观察性的最经济的方法。它允许软件开发人员及时检测和修复代码中的问题,同时修复成本最低,不会影响用户。
生产环境的可观察性也很重要,在生产环境中任何事情都可能发生,许多不可预测的因素可能会破坏你的应用程序或使其不可用,但它成本高昂。应用程序日志记录也很重要,但日志管理成本也高且难以分析——尤其是在分布式系统中尝试追踪问题的根本原因时。最后,任何想要实现完全可观察性的企业都应该接受DevOps文化,但这个过程需要时间和整个组织的支持。
译文链接: https://thenewstack.io/improve-your-ci-cd-observability-with-these-4-best-practices/