阿里云上监控知多少(上)

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
云监控,每月短信1000条
简介: 这次我们聊了一下云监控,下次我们再来了解一下应用实时监控。

“可监控、可灰度、可回滚” 据说是阿里集团内部有关系统稳定性的“三板斧”,作为第一步的“可监控”自然是所有业务条线的一项“刚需”,那么到底如何实现“可监控”就让我们从阿里云的现有监控服务产品中来一窥究竟吧。

阿里云目前有两大监控服务体系,一个是偏向于云基础架构侧的“云监控”、一个是偏向于应用侧的“应用实时监控”,这次就让我们先来了解一下云监控。

云监控的监控能力主要覆盖如下方面:

  • 主机监控、用于最普遍的阿里云服务ECS的监控,主要监控CPU、内存、网络和存储IO的各项指标,也能够对系统内的关键进程进行监控,例如对ECS上运行的MySQL进程进行监控。
  • 云产品监控、就像云主机一样,绝大部分的阿里云产品都接入了云监控的体系中,例如SLB监控,能够对负载均衡的并发连接数、后端ECS的异常和健康数量、七层负载均衡的QPS数、各种HTTP状态码的统计等进行监控、再例如RDS的监控能够对RDS服务的各项子服务、网络使用情况、实例的性能和SQL执行信息等进行监控。
  • 站点监控、通过分布在全球各地的阿里云数据中心对目标站点发起模拟的探测访问,探测的对象可以是任意域名和IP地址、探测的内容包括端口的联通性、访问的响应时间等,支持的协议包括HTTP/HTTPS、PING、TCP、UDP、DNS、SMTP、POP3、FTP。
  • 自定义监控、可以通过云监控的上报数据接口将任意业务指标上报至云监控,云监控的上报数据方式包括:通过发送HTTP请求上报、通过Java SDK上报、通过命令行上报。
  • 容器监控、Kubernetes已经成为了云原生的事实标准,因此和ECS一样云监控也将面向Kubernetes的容器监控从其他云服务监控中单列了出来。假如您使用了阿里云的ACK服务则可以使用容器监控对k8s集群、节点、命名空间、应用和容器组的各项指标进行监控。

除了被动对云服务的监控外,云监控还能将监控信息和云服务对接并主动干预云服务的行为,例如对于阿里云的ESS弹性伸缩服务来说,可以通过对接云监控实现对当下负载的感知并自动触发伸缩任务。

当指标异常时,云监控支持通过电话、短信、旺旺、邮件、钉钉机器人、阿里云App等多种方式进行报警信息的推送,例如可以通过设置钉钉机器人来将报警信息发送到群聊,一次性通知多人进行处理。

这次我们聊了一下云监控,下次我们再来了解一下应用实时监控。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
目录
相关文章
|
5月前
|
监控 NoSQL Java
十八张图带你入门实时监控系统HertzBeat
我们经常讲:研发人员有两只眼睛,一只是监控平台,另一只是日志平台。在对性能和高可用讲究的场景里,监控平台的重要性再怎么强调也不过分。 这篇文章,我们聊聊开源实时监控告警系统 HertzBeat 赫兹跳动。
十八张图带你入门实时监控系统HertzBeat
|
存储 JSON 监控
APM监控 · 入门篇 · Android端测监控平台建设(1)
APM 全称 Application Performance Management & Monitoring (应用性能管理/监控) 性能问题是导致 App 用户流失的罪魁祸首之一,如果用户在使用我们 App 的时候遇到诸如页面卡顿、响应速度慢、发热严重、流量电量消耗大等问题的时候,很可能就会卸载掉我们的 App。这也是我们在目前工作中面临的巨大挑战之一,尤其是低端机型。
2703 0
APM监控 · 入门篇 · Android端测监控平台建设(1)
|
存储 数据采集 Prometheus
【云原生监控系列第一篇】一文详解Prometheus普罗米修斯监控系统(山前前后各有风景,有风无风都很自由)(一)
【云原生监控系列第一篇】一文详解Prometheus普罗米修斯监控系统(山前前后各有风景,有风无风都很自由)(一)
1614 0
【云原生监控系列第一篇】一文详解Prometheus普罗米修斯监控系统(山前前后各有风景,有风无风都很自由)(一)
|
运维 Kubernetes Cloud Native
直播预告丨如何用 KubeSkoop 对 K8s 集群进行网络问题诊断
直播预告丨如何用 KubeSkoop 对 K8s 集群进行网络问题诊断
|
存储 消息中间件 监控
|
运维 监控 安全
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
122 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(三)
|
运维 监控 前端开发
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
241 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(一)
|
运维 监控 Linux
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
134 0
传统运维不得不会的zabbix监控(你早起,我早起,我们迟早在一起)(二)
|
人工智能 运维 Prometheus
搞定监控!我全靠这个超牛逼的告警管理平台
你可能也遇到过这样的场景: 在一个惬意的周六夜里,运维郭哥正在梦里神游,正美着呢,然而领导突然一通电话打过来,说服务器崩了,给你5分钟时间马上恢复! 毫无疑问,服务器出问题了,但郭哥没收到告警,错过了黄金抢救时间!还被领导先发现了问题! 于是郭哥背了锅,开始修复问题,时间一点一滴地逝去,领导时不时催一下进度,一个愉快的周末就这样没了! 试想一下,如果郭哥及时收到告警会怎么样?也许可以把故障影响降到最低,甚至可以在故障没发生前把服务器重启一下,神不知鬼不觉,然后悠闲地度过周末!
下一篇
无影云桌面