演进实录|不同阶段的企业如何搭建监控体系?

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
简介: 企业业务发展越来越迅速,对 IT 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。今天我们好好聊一下工具选型与平台搭建思路与实践关键点。来看看阿里云会给出如何的最佳实践!

作者|涯海

审核&校对:白玙

编辑&排版:雯燕


在陪伴众多企业共同经历业务上云与云上原生之后,我们可以看到每个企业的运维监控体系搭建过程都十分艰辛。这是由于企业业务发展迅速,对 IT 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。尽管不同阶段不同规模的企业需要面对各种各样现实问题,但仍然有些最佳实践有迹可循,今天我们好好聊一下工具选型与平台搭建思路与实践关键点。


工具选型与平台搭建必然趋势


要特别说明的是,监控平台不是随便下载一个开源监控工具就可以,它需要根据监控的业务特点进行整合与二次开发,以达到与实际业务情况相吻合。经过大量实践后,我们发现企业普遍存在的监控体系需求与发展方向:


  • 自动识别与采集


云原生带来了跨技术栈与高动态的技术架构。因此面向复杂多变的被监控环境,采集器尽可能做到对环境的自动识别,对指标的自主采集成为一切的开始。数据都无法采集,如何监控?


  • 数据管理能力不断强化


云、容器和微服务的出现使被监控的对象数量增加了几个数量级。当业务飞速发展,面对几亿甚至十亿级别时序数据,我们该如何管理?


  • 数据看板体系成为刚需


随着数据量爆发式增长,传统的线图、直方图、散点图等数据展示方法很难让运维人员找到数据背后的异常或隐藏瓶颈。如何针对不同业务或者不同监控对象,找到更合适的数据看板以及展现形式,成为了每个运维人员的必修课。


  • 中台枢纽作用


随着技术飞速发展,监控系统在整体运维系统的中台枢纽作用越来越明显,运维监控从传统的流程驱动转变为数据驱动。如何更便捷的与其它众多运维子系统对接整合,也是运维团队在监控体系搭建之初需要考虑的问题。


企业监控体系演进历程


结合上述特点,我们讲企业监控体系的演进历程归纳为以下阶段。


推广期:服务器数量 50~100 台之间


这个阶段由于服务器数量较少、业务规模较小,因此,运维团队对监控的需求也相对简单。能够实现基本的通知问题、快速定位与解决问题即可。此时的平台搭建主要是让研发、运维等同学能够逐渐熟悉产品使用,并通过体验和反馈,确认是否满足企业 IT 运维以及业务特征需求,这其中几个关键特点包括:


(1)部署简单,有成熟的文档与服务体系,上手易用;


(2)稳定运行,SLA 保障;


(3)告警体系的通知形式不用太丰富,但确保相对及时、可用;


(4)低成本费用或免费。


基于以上需求,很多初创企业可能会选择 Nagios,Cacti,Zabbix,Ganglia 等开源工具。热门的开源监控产品文档相对完整,可快速上手且有大量企业实践可供参考。但这里存在问题就在于开源产品的性能、使用场景无法满足随着业务场景的发展以及业务量增长,进而出现各种各样的问题。与此同时,高可用成为致命问题,毕竟开源社区不会时刻有志愿者帮我们排查故障。


爆发期:服务器数量 200~1000 台之间


这个阶段由于服务器数量变多、技术架构发生了变化、组件越发丰富,监控需求也开始变得复杂。但面对众多服务模块或运维系统,我们需要分批次有序接入,在保证稳定性的前提下,快速上量、统一技术栈。监控系统主要用于告警通知,发现问题并避免同样问题再次发生。这其中具备几个关键特点:


(1)监控内容汇总与分类


由于监控对象以及信息随着技术架构与业务规模扩大而增多,需要针对软硬件、业务等不同维度的数据实现全覆盖式监控。并针对不同监控用途,需要对监控进行分类汇总,比如系统基础监控数据、网络监控数据和业务监控数据。尽可能多的监控覆盖,尽快发现重要问题,确保业务稳定运行。


(2)多种告警方式,及时无漏报


根据监控对象的重要程度、紧急程度进行分类,并通过邮件、微信、短信、电话等不同级别不同方式进行告警通知,每个监控对应到不同责任人,确保每个告警都有人及时跟进处理。


(3)告警策略优化与信息收敛


由于需要监控的服务越来越多,告警信息数量激增,每天都可能收到上千封报警邮件。过多的告警信息就失去了精准告知的意义。如何对告警策略进行配置和优化,尽量减少不必要的告警邮件,成为策略设置的核心。 


成熟期:服务器数量 1000 台以上


由于业务持续增长,对服务器的需求越来越大,当服务器超过 1000 台以后,意味着核心系统需要全部接入,并构建新的稳定性保障体系,包括监控大盘、告警通知、应急值班等。才能确保整个业务与技术大盘的稳定。这其中,需要关注:


(1)监控延时与告警滞后


当业务规模越老越大,由于组件或服务的耦合关系,很可能由于局部的细小故障导致整个业务系统的瘫痪。因此,及时发现问题成为了一切的大前提。但假如还在选择时开源产品,这时可能就有不小的麻烦。以 Zabbix 举例,当规模达到一定量后,有时候会出现监控数据不能及时显示,告警延时等问题。我们确实可以通过各种优化方式进行调整。但业务出现问题而造成的损失并不能挽回。


(2)监控系统自身的 SLA


当收集运维数据飞速增长,监控系统自身的高可用也成为了重要关注点。毕竟,失去了监控系统意味着对整个技术与业务的运行状态失去了控制。


更具性价比的解决方案:

应用实时监控服务 ARMS


面对上述不同阶段的痛点,ARMS 成为了最佳的解决方案。与此同时,阿里云推出 ARMS 3.0 普惠计划旨在通过更灵活的计费方案,帮助不同类型的用户在不同使用阶段,以更合理的成本获取更高性价比的可观测体验。在 2021 年 10 月即将推出的应用监控基础版(按量计费)模式支持 0 元用:指标免费存储 3 天,调用链基础采样免费存储 1 天,功能与原有基础版保持一致,可按量付费延长存储周期或提高链路采样。详情可参考应用监控基础版功能列表或产品计费说明。 


图片 1.png


根据上述阶段的用户诉求,ARMS 3.0 应用监控推出了配套的灵活计费策略:


(1)试用期:ARMS 提供新用户 15 天免费使用,全面评估 ARMS 产品与业务契合程度。


(2)推广期:ARMS 提供基础版免费额度,应用监控指标免费存储 3 天,调用链基础采样免费存储 1 天。零门槛无限期使用,不用担心推广期间的费用问题。


(3)爆发期:ARMS 基础版支持按流量计费,可以按需调整指定应用的调用链采样率,或延长存储周期。


(4)成熟期:根据业务流量类型自由选择按流量计费或按节点计费。


按流量计费,用多少算多少


随着微服务和 Kubernetes 的普及,微服务拆分越来越细,单个 Pod 流量越来越小。按节点计费模式就显得不够灵活,在业务流量不变的情况下,成本随节点规模快速增长显然不够合理。 


为了解决小流量和弹性流量用户的可观测成本问题,ARMS 3.0 推出了应用监控基础版(按量计费)模式:调用链基础采样免费存储 1 天,付费采样链路按照 0.2 元/(百万条Trace*天) 进行计费,单条 Trace 最多可包含 10 条 Span 调用,超出部分按比例折算。指标数据 3 天内免费,可按需付费延长存储周期,如下表所示。


图片 2(2).png

image.gif

以 ARMS 某基础版用户为例,该用户创建了约 300 个 Pod,原始调用总量约为 54 亿次/天,调用链采样率为 10%,实际存储量约 5400 万 Trace/天。按照原基础版链路存储1天,指标存储 3 天计算,升级为按流量计费后费用可节省 90% 以上。


图片 3.png

image.gif

超大流量,按节点计费更划算


一些 ToC 类型的业务流量非常大,并且对问题可追溯的时间跨度要求高,需要长周期存储。此时,可以选择 ARMS 专家版按节点计费模式,链路存储 30 天,指标存储 90天,一价全包,费用封顶,更适合大流量核心应用接入。专家版还可享受 容器服务 ACK 或 EDAS 用户半价优惠,购买预付费流量包最低可至 1.308 元/(探针*天),详见 ARMS 产品价格说明。


常见问题


Q:新老用户如何升级至应用监控新基础版(按量计费)模式?

A:2021 年 10 月以后,新用户试用期结束后,选择开通基础版,默认进入按量计费模式;存量基础版用户可以在应用监控 -> 应用列表页面上方点击升级至新计费模式。新基础版链路免费采样依赖 Agent 升级至 2.7.1.3 版本,可以在应用监控 -> Agent 列表 -> java版本说明页面选择对应区域进行下载,https://arms.console.aliyun.com/#/tracing/agentList/cn-hangzhou


Q:新基础版(按量计费)默认是免费的吗?免费多久?

A:开通新基础版(按量计费)后,默认是完全免费的,如果不调整存储周期或调用链采样率可以无限期免费使用,非常适合小流量或测试应用接入。


Q:基础版包含哪些功能?与开源和专家版有什么区别?

A:基础版支持调用链、服务监控、JVM/主机监控、告警等基础 APM 功能,与开源能力基本持平。专家版在内存/线程/异常等诊断方面会有大幅增强,按节点计费,调用链存储 30 天,指标存储 90 天,更适合大流量或核心生产应用。


Q:除应用监控外,ARMS 前端监控、云拨测和 Prometheus 监控是否支持按量计费?

A:ARMS 前端监控、云拨测和 Prometheus 监控均支持按量计费,并且可以通过预付费获得优惠折扣,详情请参考 ARMS 产品价格说明。


相关链接:

1)应用监控基础版功能列表:

https://help.aliyun.com/document_detail/65682.html

2)产品计费说明:

https://www.aliyun.com/ntms/price/detail/arms_detail

3) ARMS 产品价格说明

https://www.aliyun.com/ntms/price/detail/arms_detail


点击这里,了解更多双十一优惠!


近期热门

#云原生双十一大促 惊喜活动重磅来袭#


ARMS 以及众多云原生产品超低折扣不容错过,

为数字创新提供全方位支撑,

更有幸运抽奖好礼送不停!


双十一活动 (16).png




了解更多相关信息,请扫描下方二维码或搜索微信号(AlibabaCloud888)添加云原生小助手!获取双十一更多优惠信息!


二维码.png

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
程序员 人工智能 Serverless
通义灵码保姆级教程:官网、安装、使用指南、常见问题、线上活动、官方答疑
通义灵码保姆级教程:官网、安装、使用指南、常见问题、线上活动、官方答疑
21607 1
|
3月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。
|
8月前
|
Cloud Native Java Nacos
springcloud/springboot集成NACOS 做注册和配置中心以及nacos源码分析
通过本文,我们详细介绍了如何在 Spring Cloud 和 Spring Boot 中集成 Nacos 进行服务注册和配置管理,并对 Nacos 的源码进行了初步分析。Nacos 作为一个强大的服务注册和配置管理平台,为微服务架构提供
3038 14
|
SpringCloudAlibaba Java Nacos
SpringCloud Alibaba微服务 -- Nacos使用以及注册中心和配置中心的应用(保姆级)
SpringCloud Alibaba微服务 -- Nacos使用以及注册中心和配置中心的应用(保姆级)
|
存储 运维 Prometheus
全面公测|Grafana服务:一张图表胜过千行指标&日志
Grafana 帮助运维人员轻松处理各类运维过程中遇到的各类数据可视化与分析难题。目前阿里云 Grafana 服务全面免费公测,帮助企业轻松构建运维数据可视化平台,轻松实现数据驱动运维!
2315 105
全面公测|Grafana服务:一张图表胜过千行指标&日志
|
存储 NoSQL 关系型数据库
轻松打卡:使用Spring Boot和Redis Bitmap构建高效签到系统【redis实战 四】
轻松打卡:使用Spring Boot和Redis Bitmap构建高效签到系统【redis实战 四】
786 0
|
存储 监控 安全
插件机制详解:原理、设计与最佳实践
插件机制详解:原理、设计与最佳实践
773 0
|
运维 Devops 持续交付
软件开发常说的CI/CD是什么
软件开发常说的CI/CD是什么
893 0
|
弹性计算 运维 监控
【最佳实践】主机场景下如何使用ilogtail采集超大规模文件
目标读者数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。使用场景客户的某些场景下,业务拆分的比较细,每个业务会定时输出一个日志文件(比如每小时输出一个文件),那么在一台机器上,可能会产生大量的日志文件。由于某些原因,用户不想在业务服务器上安装采集端,因此采用比...
728 0
【最佳实践】主机场景下如何使用ilogtail采集超大规模文件