10秒构建阿里云产品的第一道监控屏障

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介:

前言

  • 作为一个云上运维的新人,面对阿里云上复杂的生态系统,ECS、RDS、负载均衡、各种数据库等等,每一个服务下面都有无数的指标需要了解,那么如此高的学习成本,要花费多少时间才能完成准确建立起基本的云上监控报警体系,避免遗漏重要指标的报警呢?
  • 业务快速迭代的过程中,购买的大量服务器如何快速被现有监控体系覆盖呢?
  • 面对云监控应用分组、报警规则、各种云产品监控等等一系列高级功能,如何在学习过程中先对运维监控快速兜底呢?

如果你有以上烦恼,那么请继续阅读本文。10秒中让您的服务拥有最低成本的基础保护。在业务出问题时,让云监控通知你,而不是让你的老板或者客户通知你。

操作步骤

登录云监控,进入报警服务--一键报警功能,对需要设置报警的云产品开启一键报警按钮,完成设置!
image

点击服务右侧的下拉按钮,可能快速查看<一键告警>给您自动生成的规则,当然这些规则都是我们的运维工程师千锤百炼出来的精华。如图示例ECS:
image
请注意:一键告警提供的规则针对您名下的所有资源生效。也就是说您名下所有的ECS均已开启相应的指标监控,而仅仅只消耗4条报警规则!

当然,这些报警规则您可以进行修改、删除、禁用等操作,以满足您业务中的个性化需求。您也可以在报警服务报警规则列表中检索到这些规则。

一键报警功能详情

当前已接入一键告警的服务,以及默认规则如下所示:

服务名称 指标名称 规则描述
ECS CPUUtilization(CPU使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
vm.DiskUtilization(磁盘使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,短信、邮件通知
vm.MemoryUtilization(内存使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
InternetOutRate_Percent(公网流出带宽使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
RDS CpuUsage(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
DiskUsage(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,短信、邮件通知
IOPSUsage(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUsage(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时, 邮件通知
DataDelay(只读实例延迟) 五分钟内最大值>5,连续五次,沉默时间1小时,邮件通知
SLB DropConnection (监听每秒丢失连接数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
DropTrafficRX(监听每秒丢失入bit数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
DropTrafficTX(监听每秒丢失出bit数 ) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
Redis CpuUsage(CPU使用率 ) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUsage(连接数使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MemoryUsage(内存使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IntranetInRatio(写入带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IntranetOutRatio(读取带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MongoDB(副本集) CPUUtilization(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
DiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MongoDB (分片集群) ShardingCPUUtilization (CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingMemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingDiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingIOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
HBase LoadPerCpu 五分钟内最大值>3,连续三次,沉默时间1小时,邮件通知
cpu_idle 五分钟内最大值<10,连续三次,沉默时间1小时,邮件通知
compactionQueueSize 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知
rs_handlerQueueSize 五分钟内最大值>1000,连续三次,沉默时间1小时,邮件通知
CapacityUsedPercent 五分钟内最大值>0.8,连续三次,沉默时间1小时,邮件通知
zookeeper_tcp_count 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知
ElasticSearch ClusterStatus(集群状态) 一分钟内最大值>2,连续十次,沉默时间1小时,邮件通知
NodeDiskUtilization (节点磁盘使用率 ) 一分钟内最大值>75%,连续十次,沉默时间1小时,邮件通知
NodeHeapMemoryUtilization(节点HeapMemory使用率) 一分钟内最大值>85%,连续十次,沉默时间1小时,邮件通知
Opensearch开放搜索 DocSizeRatiobyApp (存储容量使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知
ComputeResourceRatiobyApp(计算资源使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知

一键报警相关OpenAPI介绍

maven依赖

<dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-cms</artifactId>
    <version>5.2.2</version>
</dependency>
  1. 查询已开启产品列表

查询Action
product:Cms
version: 2017-03-01
action: ListProductOfActiveAlert
返回值

{
  "Datapoints": "mongodb,ecs,slb,rds",
  "Success": true,
  "Code": "200"
}
  1. 查询告警规则列表

查询Action
product:Cms
version: 2017-03-01
action: ListActiveAlertRule

查询参数

字段 类型 是否必须 描述
product string 云服务器ECS(ecs)、HBase(hbase)、云数据库MongoDB(mongodb)、云数据库MongoDB集群版(mongodb_sharding)、云数据库RDS版(rds)、云数据库Redis版(redisa)、负载均衡(slb)、ES(elasticseearch)、OpenSearch(opensearch)。参数为括号内值。

例子:

"product":"mongodb"

返回值

{
  "Datapoints": {
    "Alarm": [
      {
        "Uuid": "",
        "Period": 60,
        "Statistics": "Average",
        "Webhook": "null",
        "RuleName": "",
        "EvaluationCount": 5,
        "Name": "SystemDefault_acs_mongodb_MemoryUtilization",
        "MetricName": "MemoryUtilization",
        "State": "OK",
        "Threshold": "80",
        "Enable": false,
        "SilenceTime": 86400,
        "NotifyType": 0,
        "Namespace": "acs_mongodb",
        "ContactGroups": "["云账号报警联系人"]",
        "EndTime": 24,
        "StartTime": 0,
        "ComparisonOperator": ">"
      }
    ]
  },
  "Success": true,
  "Code": "200"
}
  1. 启用一键报警

查询Action
product:Cms
version: 2017-03-01
action: EnableActiveAlert

查询参数

字段 类型 是否必须 描述
product string 产品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等

例子:

"product":"ecs"

返回值

{
  "Message": "",
  "Success": true,
  "Code": "200"
}

错误码信息

206  PartiallySuccessful    Partially successful。Possible reason: quota limit。    
422     CreateAlarmError        Possible reason: quota limit。    
500  InternalError        The request processing has failed due to some unknown error.

禁用一键报警

查询Action
product:Cms
version: 2017-03-01
action: DisableActiveAlert

查询参数

字段 类型 是否必须 描述
product string 产品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等

例子:

"product":"ecs"

返回值

{
  "Message": "",
  "Success": true,
  "Code": "200"
}

错误码信息

200 成功
400 参数错误或缺失
403 校验失败、限速、没有授权
500 服务内部错误
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
开发工具
通用研发提效问题之确保女娲异常和业务异常的隔离,如何解决
通用研发提效问题之确保女娲异常和业务异常的隔离,如何解决
|
3月前
|
监控 安全 数据挖掘
简析漏洞生命周期管理的价值与关键要求
定期呈递给组织管理层的漏洞管理报告总结了当前的安全状况,突出了需要关注和改进的方面。这类报告确保高层全面了解漏洞威胁情况,并参与安全工作,为决策提供清晰简明的洞察力。这包括突出关键度量指标、列出战略性洞察力以及力求与业务目标相一致。
|
5月前
|
安全 数据可视化 网络安全
微隔离实施五步法,让安全防护转起来
零信任安全模型起始于2010年,其核心原则是“最小权限”,强调预防为主。微隔离是实现零信任的关键实践,经历了从NGFW到SDP,再到CARTA框架的发展,最终NIST将其定义为解决方案,确认IAM、SDP和微隔离为落地实践。美国政府的行政令推动了零信任架构的应用,其中微隔离贯穿安全的各个层面。微隔离技术包括云平台原生、第三方虚拟化防火墙和主机Agent三种实现方式,已进入成熟期。实施微隔离涉及五个步骤:定义资产、梳理业务模型、实施保护、细化安全策略和持续监控。检验微隔离效果需通过攻防演练。企业应结合自身需求制定适合的微隔离建设方案。
|
5月前
|
存储 弹性计算 安全
带你读《从基础到应用云上安全航行指南》——万字干货教你如何保证业务数据全流程安全(3)
带你读《从基础到应用云上安全航行指南》——万字干货教你如何保证业务数据全流程安全(3)
72 1
|
消息中间件 Dubbo Java
深度剖析线上应用节点流量隔离技术
深度剖析线上应用节点流量隔离技术
8580 0
|
监控 算法 Cloud Native
《云原生网络数据面可观测性最佳实践》——五、 典型问题华山论剑——3. 某客户反馈pod偶发性健康检查失败
《云原生网络数据面可观测性最佳实践》——五、 典型问题华山论剑——3. 某客户反馈pod偶发性健康检查失败
|
存储 安全 数据管理
OushuDB 小课堂丨孤立数据迫在眉睫的威胁:废弃文件如何毁掉您的业务
OushuDB 小课堂丨孤立数据迫在眉睫的威胁:废弃文件如何毁掉您的业务
76 0
|
5月前
|
安全 容灾 网络安全
安全防御四部曲-防护实践方案(多产品结合)
本篇内容为防护(Protection),检测(Detection),恢复(Recovery),响应(Response)实践方案四部曲之一,主要介绍如何结合多产品使用在阿里云国际站做好防护(Protection)部分的安全。
452 0
安全防御四部曲-防护实践方案(多产品结合)
|
数据采集 移动开发 监控
两把利器,轻松做好十一期间服务器监控保障
由于服务器需要7×24 小时运行,十一期间,为了切实做好服务器的重点保障,电源监控,必不可少。基于成本的考虑,我们决定自己做。如何多快好省,实现一个这样的平台呢?思路是通过服务器自带的远程管理模块读取redfish接口中电源功耗信息,然后采集到时间序列数据库,再通过grafana基于时间和ip做条件筛选做展示。这里就要用到两把开源利器Grafana和Influxdb。
两把利器,轻松做好十一期间服务器监控保障
|
监控 Kubernetes Cloud Native
面对大规模 K8s 集群,如何先于用户发现问题?
怎样才能在复杂的大规模场景中,做到真正先于用户发现问题呢?下面我会带来我们在管理大规模 ASI 集群过程中对于快速发现问题的一些经验和实践,希望能对大家有所启发。
面对大规模 K8s 集群,如何先于用户发现问题?