开发者社区> hayden822> 正文

一分钟了解阿里云产品:云监控

简介:
+关注继续查看

一、             概述

 

阿里云发布的产品种类齐全,今天让我们一起来了解下云监控这款产品吧。

 

什么是云监控呢?

 

云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。

 

 

那么,云监控有什么优势呢?

 

  • 云监控服务无需特意购买和开通,您注册好阿里云账号后,便自动为您开通了云监控服务,方便您在购买和使用阿里云产品后直接到云监控查看产品运行状态并设置报警规则。
  • 云监控为每个监控项都展示了清晰易读的监控图表,您打开相应产品监控页面后,即可一目了然的查看到该产品的所有监控项运行状态。
  • 云监控还为您提供了监控项的报警服务。您在为监控项设置好合理的报警规则和通知方式后,一旦发生异常便会立刻为您发出报警通知。

 

 

可能您会问到,“我处在什么样的应用或服务场景时,可以选择云监控呢?”这里介绍下云监控的常见应用场景。

 

  • 云服务监控:您购买和使用了云监控支持的阿里云服务后,即可方便的在云监控对应的产品页面查看您的产品运行状态、各个指标的使用情况并对监控项设置报警规则。
  • 日常管理场景:您在日常管理阿里云产品时,直接登录云监控控制台,便可方便的查看各个云监控的运行状态。云监控正在接入更多云服务。
  • 及时处理异常场景:云监控会根据您设置的报警规则,在监控数据达到报警阈值时发送报警信息,让您及时获取异常通知,查询异常原因。
  • 及时扩容场景:对带宽、连接数、磁盘使用率等监控项设置报警规则后,可以让您方便的了解云服务现状,在业务量变大后及时收到报警通知进行服务扩容。

 

站点监控服务目前提供8种协议的监控设置,可探测您站点的可用性、相应时间、丢包率。让您全面了解站点的可用性并在异常时及时处理。

 

自定义监控补充了云服务监控的不足,如果云监控服务未能提供您需要的监控项,那么您可以创建新的监控项并采集监控数据上报到云监控,云监控会对新的监控项提供监控图表展示和报警功能。

 

 

云监控典型特性介绍:

https://www.aliyun.com/product/jiankong/?spm=5176.1897332.3.44.l8lgN4

 

 

 

二、             技术点(云监控五大热点技术问题分析)

 

在上一篇文章中,我们为大家介绍云监控的概况,云监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。那在使用过程中,经常遇到的热门技术问题有哪些呢?

 

站点监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Site_Monitor.html?spm=5176.775975120.6.91.udOLEx

 

云服务监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Service_Monitor.html?spm=5176.doccms/User_Manual/User_Manual/Site_Monitor.6.92.omwsfz

 

自定义监控:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Custom_Monitor.html?spm=5176.doccms/User_Manual/User_Manual/Service_Monitor.6.93.HWSht7

 

报警规则:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Alarm_Rule.html?spm=5176.doccms/User_Manual/User_Manual/Custom_Monitor.6.94.Mmu1Rq

 

事件订阅:

https://help.aliyun.com/document_detail/cms/User_Manual/User_Manual/Message_Subscribe.html?spm=5176.doccms/User_Manual/User_Manual/Alarm_Rule.6.96.yXSU1T

 

 

 

希望上面的内容,能够对大家有所帮助。

 

 

 

三、             体验(使用云监控的心得体会)

 

用了一段时间云监控,感觉总体做的非常不错,基本可以满足大部分监控的需求。

 

1 安装监控脚本

 

linux、CentOS、OpenSUS系统: 

a).wget http://update.aegis.aliyun.com/download/quartz_install.sh

b).chmod +x quartz_install.sh  

c).sh quartz_install.sh

 

安装后的代码位置在:

/usr/local/aegis/aegis_quartz/

可能会出现提示sampler.py没权限的情况,需要执行: 

chmod +x /usr/local/aegis/aegis_quartz/libexec/default/sampler.py

 

 

2 常用的监控内容

a) 网站监控,一般就是看网站挂了没有,一般用“站点监控”就行,把自己的站点url写到http监控里面就ok了。

b) 进程监控,主要是看常见的服务挂了没有。用“云服务监控”,

点进去填写进程名就可以了,如

 b91bc9980d1b74fcf4d55d8fdd5cd0578499f899

434fa7d13f6e00a4d27983b7a5fee7cd113f9537

 

 

如果apache的服务就是/usr/sbin/httpd。 具体用ps  aux命令,看最后一列就行。阿里云服务器自己安装apache,访问量大偶尔会挂掉,then最好监控下。在“进程数”那个tab可以看到具体的监控数据。

 

 

对应的添加报警规则,一般是设置最小值=0 报警即可。

 

 

3 自定义监控

 

自定义监控示例(python) 下载地址:

http://imgs-storage.cdn.aliyuncs.com/help/jiankong/demo.py

 

自定义监控示例 下载地址:

http://imgs-storage.cdn.aliyuncs.com/help/jiankong/demo.sh

 

按照这两个例子改,python的没问题,但sh那个好像有问题。python的数据有上报后,sh那个好像才好用。

修改后注意chmod +x 增加执行权限。sh那个可以直接执行,./demo.sh

如果没有问题,会什么都不提示,如果有问题,会提示你具体的错误。

 

修改的时候,注意和web上填写内容的对应关系:如我填写的:

5df8c280f9de376354b6a35b38a58cf20b949bb5

 

对应的上传数据就是:

metrics='[{"dimensions":{"machine_name":"spider_master"},"unit":"Count","metricName":"redis_thread","timestamp":'"$timestamp"',"value":'"$value"'}]'

 

其中:

“监控项名称” 对应“metricName”

"字段信息" 对应 “dimensions”,“machine_name”就是你在页面中填写的 “字段信息” 对应的内容。

“machine_name”对应值是你代码里面自己定义的,在web页面中没有对应的,这个注意下就行,这主要是区分是谁提交的这个数据。

建议在web填写界面上写清楚,具体的对应关系,要不 "字段信息" ===》 “dimensions” 这个对应太费解了。

 

 

将编写好的脚本放到

/usr/local/aegis/aegis_quartz/libexec/user/

 

然后添加即可:

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "AddTask [0 0/1 * * * ?] user/demo.py"

 

查询:

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "GetTask“

 

删除

/usr/local/aegis/aegis_quartz/aegis_quartz  -e "RemoveTask [0 0/1 * * * ?] user/redis_monitor.sh"

 

 

对应的添加报警,一般是设置最小值=0 报警即可。但注意,没有上报数据前,添加报警规则是没用的,那个页面会报错。

 

以上就是我使用云监控的一点心得体会。

 

 

如果你想详细了解云监控,请访问:

https://bbs.aliyun.com/read/164162.html?pos=2

 

 

 

体验(阿里云自定义监控配置体验)

 

阿里云提供自定义监控SDK,这有助于我们定制化的根据自身业务来做监控,下面我就根据业务需求来介绍一个简单的自定义监控配置。

 

 

阿里提供了2个版本的自定义监控接口:

 

自定义监控SDK(python版) :cms_post.py

自定义监控SDK(bash版) :cms_post.sh

 

本文使用shell版本做演示。

 

这里说下我的简单需求,我们需要监控ECS服务器中tomcat的进程是否存在,如果小于1,就说明tomcat进程关闭,然后根据设定的报警规则报警。

 

首先我们需要在阿里云自定义监控页面建立一个自定义监控,如下图:

 

 

1、添加自定义监控

d7c8303a1a1866a6f4182cf93a0fa4885008381a

 

 

2、定制脚本

 

我制作的调用自定义SDK的脚本内容如下:

9f0bbb9ec2eba5b8e27287be9381debf6a10fe5e

 

给予脚本执行权限

chmod +x cms_post.sh tomcat_process_check.sh

 

 

3、配置调度任务

如果是利用阿里云监控自带的调度任务,那么我们需要将脚本放置到制定位置:

e642853e4964dea99407f1216c3597a697191702

 

需要用户注意的一些事情:

 

1)         aegis_quartz 进程请匆停止,系统的监控数据采集是通过 aegis_quartz 完成。

2)         aegis_quartz 程序的调用请使用绝对路径,如 linux 环境下

 

/usr/local/aegis/aegis_quartz/aegis_quartz

3)         aegis_quartz libexec/default 下面的脚本是内置的监控数据采集脚本,请用户匆

 

修改。

 

4)         用户的监控数据程序只能放在 libexec/user 目录下面;上面添加任务与删除任务

 

的示例中,脚本程序的路径写的即是相对路径。因此,用户在命令行中的脚本路径

 

只需要填写成 user/xxx 即可。

 

5)         关于任务的执行频率,是基于标准的 quartz 表达式,用户按照规范填写即可。脚

 

本的监控数据上报频率请与云监控控制台中设置监控项【上报频率】保持一致(控

 

制台支持的频率是 1 分钟,5 分钟,15 分钟),若修改上报频率请保持控制台与

 

脚本一致,否则监控数据处理会不准确。

 

 

4、配置报警

 

然后我们设置报警规则,在报警管理如图:

4ded78a5b4357b66a4a9f841d941710d2eea5195

这里需要注意,字段的值一定要与脚本中字段的值一致,否则即使监控的值触发了你的报警规则,状态依然是正常的。

 

 

下面就是我收到阿里云的短信报警信息,上报频率5分钟:

 

【阿里云】您监控tomcat的f45966d***e60d在11:10发生报警,实例:(server07-tomcat-stop),值为0个,请登录云监控平台查看。

 

【阿里云】您监控tomcat的f45966d***e60d在11:15发生报警,实例:(server07-tomcat-stop),值为0个,请登录云监控平台查看。

 

配置成功。

 

 

如果您想详细了解云监控,请访问:

http://www.tuicool.com/articles/ayYnquU

 

 

数据聚合分组:新一代系统监控的核心功能:

https://bbs.aliyun.com/read/260875.html?spm=5176.bbsl216.0.0.ZLOG3x

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【数据可观测】阿里云的Grafana云监控大盘服务
阿里云发布的grafana托管服务,更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维,可以方便的对接云上云下的各种数据源。
1089 0
小白使用阿里云心得,目标搭建一个云监控系统
0基础,疫情线上教学时间多,尝试用阿里云作为云平台搭建生产线监控系统(简化版,就是监控几个温度湿度之类的),包括数据采集,通信设计和最后web开发。先谈谈阿里云入门的心得
268 0
一分钟了解阿里云产品:对象存储OSS概述
阿里云的产品种类繁多,今天让我们一起来了解下对象存储(Object Storage Service,简称OSS)吧!
1561 0
利用阿里云-云监控对dns解析进行监控
利用阿里云-云监控对dns解析进行监控
738 0
利用阿里云-云监控对服务器端口进行监控
利用阿里云-云监控对服务器端口进行监控
1658 0
利用阿里云-云监控对网站进行监控
利用阿里云-云监控对网站进行监控
664 0
基于阿里云云监控的企业级监控平台构建
随着阿里云云监控产品的日渐完善,基于云计算的IT资产监控越来越方便,结合已经开放的API和外部回调接口等功能,企业级客户的监控系统可以变得更加强大。传统需要在主机上装agent的监控体系,例如zabbix以及类似其他的商业软件都不再适用云IT资产,主要体现在: 除了ECS可以继续安装agent以外,类似云RDS,云Redis,MaxCompute等云产品根本没有提供这种agent数据采集的入口。
1459 0
小微企业阿里云最佳实践系列(四):云监控与 SLS 日志服务
本博文主要为大家介绍阿里云提供的基础云监控、日志服务两大产品,通过云监控与日志服务可以做到每天不需要时刻关注所开发的软件系统、服务器、数据库等健康状况就掌握异常情况,并能及时进行应急响应和处理。
1974 0
阿里云容器Kubernetes监控(三) - 与云监控的集成与使用
简介 监控是运维Kubernetes中非常重要的一环,在kubernetes的生态内,有非常多可选的方案,场景的方案包括内置的Heapster、CNCF的亲儿子Prometheus、Influxdb的采集方案Telegraf等等,当然传统的监控运维工具例如zabbix也对容器的场景进行了适配。
5142 0
72期:一分钟了解阿里云产品,看别人如何靠域名赚亿元
《云周刊》72期:看别人如何靠域名赚亿元。
3069 0
+关注
hayden822
文章
问答
视频
相关电子书
更多
阿里云认证的解析与实战-数据仓库ACP认证
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
相关实验场景
更多