10秒构建阿里云产品的第一道监控屏障

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介:

前言

  • 作为一个云上运维的新人,面对阿里云上复杂的生态系统,ECS、RDS、负载均衡、各种数据库等等,每一个服务下面都有无数的指标需要了解,那么如此高的学习成本,要花费多少时间才能完成准确建立起基本的云上监控报警体系,避免遗漏重要指标的报警呢?
  • 业务快速迭代的过程中,购买的大量服务器如何快速被现有监控体系覆盖呢?
  • 面对云监控应用分组、报警规则、各种云产品监控等等一系列高级功能,如何在学习过程中先对运维监控快速兜底呢?

如果你有以上烦恼,那么请继续阅读本文。10秒中让您的服务拥有最低成本的基础保护。在业务出问题时,让云监控通知你,而不是让你的老板或者客户通知你。

操作步骤

登录云监控,进入报警服务--一键报警功能,对需要设置报警的云产品开启一键报警按钮,完成设置!
image

点击服务右侧的下拉按钮,可能快速查看<一键告警>给您自动生成的规则,当然这些规则都是我们的运维工程师千锤百炼出来的精华。如图示例ECS:
image
请注意:一键告警提供的规则针对您名下的所有资源生效。也就是说您名下所有的ECS均已开启相应的指标监控,而仅仅只消耗4条报警规则!

当然,这些报警规则您可以进行修改、删除、禁用等操作,以满足您业务中的个性化需求。您也可以在报警服务报警规则列表中检索到这些规则。

一键报警功能详情

当前已接入一键告警的服务,以及默认规则如下所示:

服务名称 指标名称 规则描述
ECS CPUUtilization(CPU使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
vm.DiskUtilization(磁盘使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,短信、邮件通知
vm.MemoryUtilization(内存使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
InternetOutRate_Percent(公网流出带宽使用率) 一分钟内最大值>90%,连续五次,沉默时间1小时,邮件通知
RDS CpuUsage(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
DiskUsage(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,短信、邮件通知
IOPSUsage(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUsage(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时, 邮件通知
DataDelay(只读实例延迟) 五分钟内最大值>5,连续五次,沉默时间1小时,邮件通知
SLB DropConnection (监听每秒丢失连接数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
DropTrafficRX(监听每秒丢失入bit数) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
DropTrafficTX(监听每秒丢失出bit数 ) 一分钟内最大值>0,连续五次,沉默时间1小时,邮件通知
Redis CpuUsage(CPU使用率 ) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUsage(连接数使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MemoryUsage(内存使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IntranetInRatio(写入带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IntranetOutRatio(读取带宽使用率) 一分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MongoDB(副本集) CPUUtilization(CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
DiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
IOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
MongoDB (分片集群) ShardingCPUUtilization (CPU使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingMemoryUtilization(内存使用百分比) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingDiskUtilization(磁盘使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingIOPSUtilization(IOPS使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
ShardingConnectionUtilization(连接数使用率) 五分钟内最大值>80%,连续五次,沉默时间1小时,邮件通知
HBase LoadPerCpu 五分钟内最大值>3,连续三次,沉默时间1小时,邮件通知
cpu_idle 五分钟内最大值<10,连续三次,沉默时间1小时,邮件通知
compactionQueueSize 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知
rs_handlerQueueSize 五分钟内最大值>1000,连续三次,沉默时间1小时,邮件通知
CapacityUsedPercent 五分钟内最大值>0.8,连续三次,沉默时间1小时,邮件通知
zookeeper_tcp_count 五分钟内最大值>2000,连续三次,沉默时间1小时,邮件通知
ElasticSearch ClusterStatus(集群状态) 一分钟内最大值>2,连续十次,沉默时间1小时,邮件通知
NodeDiskUtilization (节点磁盘使用率 ) 一分钟内最大值>75%,连续十次,沉默时间1小时,邮件通知
NodeHeapMemoryUtilization(节点HeapMemory使用率) 一分钟内最大值>85%,连续十次,沉默时间1小时,邮件通知
Opensearch开放搜索 DocSizeRatiobyApp (存储容量使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知
ComputeResourceRatiobyApp(计算资源使用率) 十分钟内最大值>85%,连续一次,沉默时间1小时,邮件通知

一键报警相关OpenAPI介绍

maven依赖

<dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-cms</artifactId>
    <version>5.2.2</version>
</dependency>
  1. 查询已开启产品列表

查询Action
product:Cms
version: 2017-03-01
action: ListProductOfActiveAlert
返回值

{
  "Datapoints": "mongodb,ecs,slb,rds",
  "Success": true,
  "Code": "200"
}
  1. 查询告警规则列表

查询Action
product:Cms
version: 2017-03-01
action: ListActiveAlertRule

查询参数

字段 类型 是否必须 描述
product string 云服务器ECS(ecs)、HBase(hbase)、云数据库MongoDB(mongodb)、云数据库MongoDB集群版(mongodb_sharding)、云数据库RDS版(rds)、云数据库Redis版(redisa)、负载均衡(slb)、ES(elasticseearch)、OpenSearch(opensearch)。参数为括号内值。

例子:

"product":"mongodb"

返回值

{
  "Datapoints": {
    "Alarm": [
      {
        "Uuid": "",
        "Period": 60,
        "Statistics": "Average",
        "Webhook": "null",
        "RuleName": "",
        "EvaluationCount": 5,
        "Name": "SystemDefault_acs_mongodb_MemoryUtilization",
        "MetricName": "MemoryUtilization",
        "State": "OK",
        "Threshold": "80",
        "Enable": false,
        "SilenceTime": 86400,
        "NotifyType": 0,
        "Namespace": "acs_mongodb",
        "ContactGroups": "["云账号报警联系人"]",
        "EndTime": 24,
        "StartTime": 0,
        "ComparisonOperator": ">"
      }
    ]
  },
  "Success": true,
  "Code": "200"
}
  1. 启用一键报警

查询Action
product:Cms
version: 2017-03-01
action: EnableActiveAlert

查询参数

字段 类型 是否必须 描述
product string 产品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等

例子:

"product":"ecs"

返回值

{
  "Message": "",
  "Success": true,
  "Code": "200"
}

错误码信息

206  PartiallySuccessful    Partially successful。Possible reason: quota limit。    
422     CreateAlarmError        Possible reason: quota limit。    
500  InternalError        The request processing has failed due to some unknown error.

禁用一键报警

查询Action
product:Cms
version: 2017-03-01
action: DisableActiveAlert

查询参数

字段 类型 是否必须 描述
product string 产品名 ecs/slb/mongodb/hbase/mongodb_sharding/rds/redisa等

例子:

"product":"ecs"

返回值

{
  "Message": "",
  "Success": true,
  "Code": "200"
}

错误码信息

200 成功
400 参数错误或缺失
403 校验失败、限速、没有授权
500 服务内部错误
相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
6月前
|
监控 安全 数据挖掘
简析漏洞生命周期管理的价值与关键要求
定期呈递给组织管理层的漏洞管理报告总结了当前的安全状况,突出了需要关注和改进的方面。这类报告确保高层全面了解漏洞威胁情况,并参与安全工作,为决策提供清晰简明的洞察力。这包括突出关键度量指标、列出战略性洞察力以及力求与业务目标相一致。
|
6月前
|
存储 运维 监控
数据安全性能:构建坚固防线,守护信息资产
在数字化时代,数据安全至关重要,影响企业运营稳定、客户信任及法规合规。本文强调数据安全性能的重要性,探讨面临的挑战(内部威胁、外部攻击等),提出关键防护措施(访问控制、数据加密、安全审计等),并介绍最佳实践(制定策略、采用新技术、应急响应等),助力企业构建坚固防线,守护信息资产。
303 0
|
运维 监控 算法
如何建立高效告警体系提升日常运维效|学习笔记
快速学习如何建立高效告警体系提升日常运维效。
如何建立高效告警体系提升日常运维效|学习笔记
|
SQL 运维 安全
最佳实践|数据泄漏事件频发的背后:企业如何才能保障数据安全?
众所周知,当前全球已逐渐进入数字化时代,数据已成为企业的核心生产要素,任何数据数据安全事件都是影响重大的。一旦出现数据安全事件,不仅对用户的使用体验和个人隐私带来威胁,且企业也可能面临重大损失及经营风险。数据安全防护已经日渐成为企业关注的重要诉求之一。 为帮助广大企业客户有效保护数据安全,阿里云数据库团队推出覆盖事前、事中及事后的全链路数据安全防护方案,并已服务了上万企业客户。
776 0
最佳实践|数据泄漏事件频发的背后:企业如何才能保障数据安全?
|
存储 数据采集 运维
看畅捷通如何利用阿里云快速定位异常,降低运维成本
阿里云通过日志服务综合解决方案,帮助畅捷通运维开发团队解决了误报频繁、无法快速发现问题站点、无法快速定位异常的问题,实现了运维效率、运维成本、沟通成本等方面的改善。支撑了畅捷通所有云产品的健康稳定运行,在IT运维开发领域树立了一个标杆。
355 0
看畅捷通如何利用阿里云快速定位异常,降低运维成本
|
监控 前端开发 BI
打造立体化监控体系的最佳实践——分布式调用跟踪和监控实践
本文将从分布式系统调用的复杂现状说起,具体分析调用链的三大使用场景,以及调用链的最佳实践,简述如何将调用链作为排查问题的核心,通过其可以将各类数据关联在一起,提高问题排查能力。
16055 0
|
监控 API 流计算
道旅鬼谷子分享:如何打好业务监控的组合拳
公司由于业务迅速扩展,需要针对业务方面进行定制监控。通过选型最终采用了 ARMS 方案。以下篇幅简单介绍了方案的大致概要以及最终效果,以供读者参考。一套组合拳,在数据分析、实时计算、报警、API、持久化存储等方面给我们节省了不少时间,也提供了更多的可能性。所以,最终我们选择了 ARMS。
2781 0
|
数据采集 云安全 监控
云时代重新定义主机安全:自动化安全闭环是核心
随着越来越多的企业和机构正在逐步上云,主机安全是企业上云首先需要考虑的问题。在当前安全事件频发,且企业还没有具备专业安全运营能力的现状下,只具备检测或防御等单一功能的传统主机安全产品已不再适应这样的场景和需求,产品具备检测、防御为一体的安全闭环能力将成为刚需。
2266 0
|
机器学习/深度学习 人工智能 安全
病毒已死!钱盾构建“全流程屏障”治理黑灰产业
11月8日,在2017国际反病毒大会上,阿里巴巴集团安全部技术副总裁杜跃进博士演讲时表示,“在PC时代,病毒是最大的安全危害;但是进入到互联网时代,病毒本身带来的威胁已经是过去式,当前最大的安全威胁来自于利用病毒等多种技术手段运作的网络黑灰产业。”
1876 0