如何为DevOps和SRE选择监控工具

简介: 在开发可靠性或实施弹性DevOps实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。

在开发可靠性或实施弹性DevOps实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。

尽管尝试完全监视系统中的所有内容可能很诱人,但更集中的监视将更易于实现,并为您提供更多可操作的数据。当基于对客户影响的度量标准时,SLO之类的SRE实践最为有用。确定什么以及如何进行监视是一个重要的决定。在这篇博客文章中,我们将带您了解基础知识。我们还将建议一些流行的监视工具供您考虑。

在哪里实施监控

确定在系统体系结构中的哪个位置实施监视非常重要。这将使您能够围绕监视工具开发体系结构,而不必改造现有代码。根据实现的位置,监视工具将能够观察不同类型的数据。以下是最常见的监视实现类型的分类,以及提供该监视类型的工具示例:

资源监视:也称为服务器监视或基础结构监视,它通过收集有关服务器运行方式的数据来进行操作。资源监视工具报告RAM使用率,CPU负载和剩余磁盘空间。在具有物理服务器的体系结构中,有关硬件运行状况的信息(例如CPU温度和组件正常运行时间)也有助于避免服务器故障。在基于云的环境中,虚拟服务器系统的聚合更为有用。

网络监视:这将查看传入和传出计算机网络的数据。您的监视工具可捕获所有组件(如交换机,防火墙,服务器等)中的所有传入请求和传出响应。从网络监视收集的数据可以与来回的数据总量一样简单,也可以与特定请求的频率一样细微。

应用程序性能监视:APM解决方案收集有关整体服务执行情况的数据。这些工具会将自己的请求发送到服务,并跟踪指标,例如响应的速度和完整性。目的是推动对应用程序性能问题的检测和诊断,以确保服务以预期的水平运行。

第三方组件监视:这涉及监视体系结构中第三方组件的运行状况和可用性。在这个微服务时代,您的服务可能取决于外部服务(从云托管到广告服务器)的正常运行。像应用程序性能监视一样,工具可以根据自己的请求检查这些服务的状态。

您可能需要在整体解决方案中包括每种监视类型中的某些监视。优先考虑使用健壮的冗余监视工具,以确保不会遗漏潜在问题。同时,指标和警报应与服务绑定,以确保与业务影响相关。

您需要从数据中得到什么

拥有可操作的数据不仅与数据本身有关。为了正确响应监视工具报告的内容,您需要以最有用的方式显示数据。监视工具可以为您做一些事情:

当指标超过特定阈值时触发警报
创建事件日志,根据参数突出显示
创建一段时间内的指标图
一目了然地提供关键服务运行状况组件的仪表板
创建可以查询的日志数据库
在制定开发决策或对事件做出响应时,请养成自问的习惯:“为了做出最佳选择,我现在需要考虑什么?” 可视化将包含哪些数据以及重要的指标。

开源与购买

要考虑的另一个重要点是,您将在哪里找到监视工具以及谁来维护它们。开源和可购买的工具各有优缺点。

开源监控工具

这些工具是免费的,这对于工具预算有限的公司来说是一个优势。它们也是完全可定制的,允许您将它们集成到自己的体系结构中。但是,这种定制将需要专门的开发时间,也许还需要专门的知识。此外,没有SLA保证可用性,安全性,更新频率等。您的团队将承担这些责任。

购买的监​​控工具

这些工具成本高昂,但具有开源工具无法提供的强大功能。服务提供商将负责保持工具的功能和最新状态。该提供商可能会提供客户服务,培训,文档和其他资源,以帮助您将工具与堆栈集成。在可靠性时代,值得考虑的是进行投资以确保监视的眼睛始终保持打开状态。

监控工具比较

以下是针对您的系统考虑的10种最流行的SRE和DevOps监视工具。

AppDynamics 是专注于APM的监视平台。他们提供的其他功能包括基于AI的见解,用于模拟客户旅程的最终用户监控以及具有集成收益分析的业务监控。您可以注册免费试用。
DataDog是一个针对云规模服务的监视平台。它在可视化,警报以及数据合并和分析方面具有强大的功能。它们使性能指标与业务影响相关联。DataDog提供免费试用。
Prometheus 是一种流行的开源监视工具,提供警报,查询,可视化和许多其他有用的功能。专门的开发社区提供了大量文档和说明,以帮助您快速入门。
New Relic 是一个监视平台,提供了几个也可以独立使用的组件:New Relic APM(应用程序性能监视),New Relic Browser和New Relic Infrastructure。他们提供适用于iOS和Android的应用程序,为您提供更多监视选项。
Nagios 提供开源( Nagios Core)和可购买的选件(Nagios XI)。它们提供了高度可定制的界面,并可以监视整个IT网络。它们还通过配置向导来突出其易用性,以引导用户设置新的监视服务。
Dynatrace 允许与其监视平台进行跨团队协作,从而提供一个共享的监视数据单一存储库。它们还包括自主云功能以及将监视功能引入部署的物联网层的能力。他们还提供免费试用。
Solarwinds 提供了几种产品,每种产品专门用于监视的不同领域:网络管理,系统管理,数据库管理,IT安全性,IT服务管理,应用程序管理和托管服务提供商。每个都可以免费试用。
Site24x7 专门从事网站监视,提供诸如状态页和Web服务(例如AWS和Azure)运行状况诊断的工具。它们还提供综合Web事务监视,使您可以模拟使用情况并收集指标。他们根据所需的服务提供几种定价计划。
SignalFx 提供了广泛的微服务集成,使您可以看到服务运行状况的完整图片。如果您的服务包含许多第三方组件,则这一点很重要。他们的重点是帮助您从单一模型到微服务模型构建您的体系结构。
PRTG Network Monitor 是一项完整的监视服务,可以集成到架构的许多阶段和位置。它们在网络,单个服务器,特定应用程序以及介于两者之间的所有内容上提供监视。该提供程序还提供免费版本。

目录
相关文章
|
6月前
|
监控 Devops 持续交付
构建高效可靠的云基础设施:DevOps和SRE的最佳实践
【5月更文挑战第30天】在数字化转型的浪潮中,企业对云基础设施的依赖日益增加。本文探讨了如何通过结合DevOps和Site Reliability Engineering(SRE)的最佳实践来构建一个高效、可靠且灵活的云环境。文章首先概述了DevOps和SRE的核心原则,接着提出了一系列策略来优化云资源的管理、自动化流程、以及提高系统的弹性。最后,文中将分享一些成功的案例分析,以帮助读者理解这些原则在实际场景中的应用。
|
6月前
|
监控 Devops 机器人
必须了解的DevOps和SRE工具合集!
随着DevOps和SRE的不断发展,出现了新一代工具。本文将详细研究2024年最具潜力的工具,它们正在改善持续集成和交付、监控与可观察性、基础设施/应用程序平台方面的未来。
|
运维 Devops 测试技术
[译]SRE 简介,和 DevOps 的关系和异同
在组织结构中引入网站可靠性工程(SRE)团队,在IT行业和DevOps领域越来越受欢迎。让我们在本文中探讨SRE流行的原因以及DevOps和SRE之间的区别和共同点。
253 0
[译]SRE 简介,和 DevOps 的关系和异同
|
Kubernetes Cloud Native Devops
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第8篇
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第8篇
277 0
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第8篇
|
Cloud Native Devops Go
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(二)
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(二)
219 0
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(二)
|
Cloud Native Devops 关系型数据库
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(一)
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(一)
249 0
云原生项目实践DevOps(GitOps)+K8S+BPF+SRE,从0到1使用Golang开发生产级麻将游戏服务器—第1篇(一)
|
运维 监控 Linux
活动报名 | DevOps&SRE 超越传统运维之道(北京站)
五月,优维科技与数人云的两位老王以及腾讯大梁相约深圳,做了一场关于DevOps&SRE落地实践的深度分享。带着大家的期待,我们将《DevOps&SRE超越传统运维之道》话题在北京继续。
2822 0
|
运维 监控 架构师
DevOps&SRE 超越传统运维之道 (上海站) 火热开启!
匡云竹@优维科技、张保珠@数人云、于绮@京东、周炎@东方财富网 四位业界大牛齐聚, 结合传统运维现状及实践案例,讲述DevOps&SRE的超越之道。
2872 0