开发者社区> shaonbean> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

如何为DevOps和SRE选择监控工具

简介: 在开发可靠性或实施弹性DevOps实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。
+关注继续查看

在开发可靠性或实施弹性DevOps实践时,决策的核心是数据。如果不仔细监控正常运行时间,网络负载和资源使用情况等关键指标,您将无视在哪里花精力进行开发或完善操作实践。幸运的是,可以使用各种各样的监视工具来帮助您收集和查看此数据。

尽管尝试完全监视系统中的所有内容可能很诱人,但更集中的监视将更易于实现,并为您提供更多可操作的数据。当基于对客户影响的度量标准时,SLO之类的SRE实践最为有用。确定什么以及如何进行监视是一个重要的决定。在这篇博客文章中,我们将带您了解基础知识。我们还将建议一些流行的监视工具供您考虑。

在哪里实施监控

确定在系统体系结构中的哪个位置实施监视非常重要。这将使您能够围绕监视工具开发体系结构,而不必改造现有代码。根据实现的位置,监视工具将能够观察不同类型的数据。以下是最常见的监视实现类型的分类,以及提供该监视类型的工具示例:

资源监视:也称为服务器监视或基础结构监视,它通过收集有关服务器运行方式的数据来进行操作。资源监视工具报告RAM使用率,CPU负载和剩余磁盘空间。在具有物理服务器的体系结构中,有关硬件运行状况的信息(例如CPU温度和组件正常运行时间)也有助于避免服务器故障。在基于云的环境中,虚拟服务器系统的聚合更为有用。

网络监视:这将查看传入和传出计算机网络的数据。您的监视工具可捕获所有组件(如交换机,防火墙,服务器等)中的所有传入请求和传出响应。从网络监视收集的数据可以与来回的数据总量一样简单,也可以与特定请求的频率一样细微。

应用程序性能监视:APM解决方案收集有关整体服务执行情况的数据。这些工具会将自己的请求发送到服务,并跟踪指标,例如响应的速度和完整性。目的是推动对应用程序性能问题的检测和诊断,以确保服务以预期的水平运行。

第三方组件监视:这涉及监视体系结构中第三方组件的运行状况和可用性。在这个微服务时代,您的服务可能取决于外部服务(从云托管到广告服务器)的正常运行。像应用程序性能监视一样,工具可以根据自己的请求检查这些服务的状态。

您可能需要在整体解决方案中包括每种监视类型中的某些监视。优先考虑使用健壮的冗余监视工具,以确保不会遗漏潜在问题。同时,指标和警报应与服务绑定,以确保与业务影响相关。

您需要从数据中得到什么

拥有可操作的数据不仅与数据本身有关。为了正确响应监视工具报告的内容,您需要以最有用的方式显示数据。监视工具可以为您做一些事情:

当指标超过特定阈值时触发警报
创建事件日志,根据参数突出显示
创建一段时间内的指标图
一目了然地提供关键服务运行状况组件的仪表板
创建可以查询的日志数据库
在制定开发决策或对事件做出响应时,请养成自问的习惯:“为了做出最佳选择,我现在需要考虑什么?” 可视化将包含哪些数据以及重要的指标。

开源与购买

要考虑的另一个重要点是,您将在哪里找到监视工具以及谁来维护它们。开源和可购买的工具各有优缺点。

开源监控工具

这些工具是免费的,这对于工具预算有限的公司来说是一个优势。它们也是完全可定制的,允许您将它们集成到自己的体系结构中。但是,这种定制将需要专门的开发时间,也许还需要专门的知识。此外,没有SLA保证可用性,安全性,更新频率等。您的团队将承担这些责任。

购买的监​​控工具

这些工具成本高昂,但具有开源工具无法提供的强大功能。服务提供商将负责保持工具的功能和最新状态。该提供商可能会提供客户服务,培训,文档和其他资源,以帮助您将工具与堆栈集成。在可靠性时代,值得考虑的是进行投资以确保监视的眼睛始终保持打开状态。

监控工具比较

以下是针对您的系统考虑的10种最流行的SRE和DevOps监视工具。

AppDynamics 是专注于APM的监视平台。他们提供的其他功能包括基于AI的见解,用于模拟客户旅程的最终用户监控以及具有集成收益分析的业务监控。您可以注册免费试用。
DataDog是一个针对云规模服务的监视平台。它在可视化,警报以及数据合并和分析方面具有强大的功能。它们使性能指标与业务影响相关联。DataDog提供免费试用。
Prometheus 是一种流行的开源监视工具,提供警报,查询,可视化和许多其他有用的功能。专门的开发社区提供了大量文档和说明,以帮助您快速入门。
New Relic 是一个监视平台,提供了几个也可以独立使用的组件:New Relic APM(应用程序性能监视),New Relic Browser和New Relic Infrastructure。他们提供适用于iOS和Android的应用程序,为您提供更多监视选项。
Nagios 提供开源( Nagios Core)和可购买的选件(Nagios XI)。它们提供了高度可定制的界面,并可以监视整个IT网络。它们还通过配置向导来突出其易用性,以引导用户设置新的监视服务。
Dynatrace 允许与其监视平台进行跨团队协作,从而提供一个共享的监视数据单一存储库。它们还包括自主云功能以及将监视功能引入部署的物联网层的能力。他们还提供免费试用。
Solarwinds 提供了几种产品,每种产品专门用于监视的不同领域:网络管理,系统管理,数据库管理,IT安全性,IT服务管理,应用程序管理和托管服务提供商。每个都可以免费试用。
Site24x7 专门从事网站监视,提供诸如状态页和Web服务(例如AWS和Azure)运行状况诊断的工具。它们还提供综合Web事务监视,使您可以模拟使用情况并收集指标。他们根据所需的服务提供几种定价计划。
SignalFx 提供了广泛的微服务集成,使您可以看到服务运行状况的完整图片。如果您的服务包含许多第三方组件,则这一点很重要。他们的重点是帮助您从单一模型到微服务模型构建您的体系结构。
PRTG Network Monitor 是一项完整的监视服务,可以集成到架构的许多阶段和位置。它们在网络,单个服务器,特定应用程序以及介于两者之间的所有内容上提供监视。该提供程序还提供免费版本。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
从手写同步工具到了解AQS
计算机的世界中,处理线程间协作,总绕不开线程同步工具,通过自定义实现同步工具,来了解AQS同步框架吧
56 0
工具类—docker-compose使用
1.安装 docker-compose
65 0
监控目前所有连接SQL SERVER的用户信息
原文:监控目前所有连接SQL SERVER的用户信息 if object_id('p_getlinkinfo','P')is not null drop proc p_getlinkinfo go create proc p_getlinkinfo @dbname sysname=nul...
1012 0
MYSQL系列1_MySQL的安装,可视化工具的使用,以及建库建表等
原文:MYSQL系列1_MySQL的安装,可视化工具的使用,以及建库建表等   大家都知道MYSQL是开源的数据库,现在MYSQL在企业中的使用也越来越多,本人之前用过SQL SERVER数据库,因业务需要和自己的兴趣想要学习MYSQL,对于MYSQL,本人还是新手,请大家多多指正。
1348 0
+关注
shaonbean
To grow and to help others grow. To live and to help others live DevOps is everything!
36
文章
8
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载