日志服务SLS开放告警接入云监控

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。

背景

阿里云的云监控服务用于监控阿里云资源和互联网应用,包括阈值告警和事件告警两种模式,支持配置多种告警通知渠道。您可以将日志服务开放告警配置为其中一个通知渠道,从而由日志服务告警系统完成告警降噪、静默等处理,并且接入包括短信、电话、微信、钉钉、邮箱在内的10多种通知渠道。

云监控接入SLS

要将云监控的告警消息接入SLS,主要分为两个步骤:在SLS中创建开放告警应用;将SLS开放告警作为Webhook配置到云监控联系人。创建开放告警应用的具体步骤,可以参考文章SLS开放告警简介。下面介绍下如何将云监控的告警消息接入到SLS中。

获取回调地址

在创建开放告警应用之后,通过点击接口按钮,打开如下图所示的回调地址查看窗口。

image.png

接口信息

办议:Zabbix

河源

地域:

局域网/PC,注意需要将(ACCESSKEYID替换为具备权限的密钥ID密钥配置

nheyuanzintanetlogalyuns.omnwM

公网,注意需要将(ACCESSKEY_ID替换为具备权限的密钥ID密钥配置

ch-heyuanlogalyuns.omntw

关闭

回调地址由两部分构成:域名部分和子路径部分。其中域名部分属于SLS的接入地址,和地域相关,每个地域都有各自不同的接入地址;子路径部分包括用于发送消息的Access Key Id和开放告警应用。如下所示为一个完整的SLS回调地址

cn-heyuan-intranet.log.aliyuncs.com/event/webhook/RAMAK_{ACCESS_KEY_ID}/a123_asdad


其中"cn-heyuan-intranet.log.aliyuncs.com"为域名部分,属于SLS通用的接入地址(endpoint);event/webhook/RAMAK_{ACCESS_KEY_ID}/a123_asdad 则为子路径部分。需要注意的是,用户需要将子路径部分中的{ACCESS_KEY_ID}替换为具体阿里云RAM账户的Access Key Id,并且将权限策略AliyunLogOpenEventWrite赋予该账户;a123_asdad则为该开放告警应用的id,用于唯一区别不同的开放告警应用。

云监控接入配置

将云监控的告警消息接入SLS开放告警有两种方式:在联系人中配置webhook回调地址,或者在规则中配置回调地址。

配置云监控联系人

在云监控联系人管理界面,点击新建联系人或者已有联系人,修改Webhook(http|https)或钉钉机器人,填入SLS开放告警回调地址,然后单击确认

image.png

配置云监控联系组

在云监控联系人管理界面,点击新建联系组或者已有联系组,将上面配置的告警联系人添加到联系组中。

image.png

报警联系人

新建联系组

报警联系人

组名:

报警联系人

报警联系组

备注:

请输入

新建联系组

0/100

sadtsaf(创建时间:2020年8月2日,修改时间:2021年6月16日)

选择联系人

云账号报营联系人(创建时间:2020年8月10日,修改时间:2020年8月10日)

已选联系人

已有联系人

输入报警联系人姓名

输入报警联系人姓名

slsPubAlert

NotFound

1项

0项

1个联系人

请确保所迅联系人的联系方式(电话,)已经通过验证,否则(电话,邮箱)会收不到股紫通知

K

配置云监控规则

在云监控规则管理界面,点击创建报警规则或者已有报警规则,将上面的联系人组添加到通知对象中。也可以不添加联系人组,配置报警规则下的报警回调配置,填入之前获取的回调地址。

image.png

通知方式

通知对象:

已选组0个

联系人通知组

全选

全选

搜索

sadfsaf

云账号报警联系人

快速创建联系人组

电话+短信+邮件+钉钉机器人(Critical)

短信+邮件+钉钉机器人(Warning)

报警级别:

邮件+钉钉机器人(lnfo)

弹性伸缩(选择伸缩规则后,会将报警发生时触发相应的伸缩规则)

日志服务(选择日志服务后,会将报警信息写入到日志服务)

邮件备注:

非必填

报警回调:

例如:http:/alart.aliyun.com0/calback

映射规则

云监控告警分为阈值告警和事件告警两种,两种消息类型的格式并不相同。

阈值告警映射规则

云监控发送的阈值告警消息为form格式,转为json后,有如下所示的消息示例:

{
"alertName": "连接数",
"alertState": "ALERT",
"curValue": "4.5",
"dimensions": "{instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}",
"expression": "$Average>=1",
"instanceName": "launch-advisor-20210607/11.11.111.111",
"lastTime": "27天19小时47分钟",
"metricName": "Host.tcpconnection",
"metricProject": "acs_ecs",
"namespace": "acs_ecs",
"preTriggerLevel": "WARN",
"productGroupName": "null",
"rawMetricName": "net_tcpconnection",
"regionId": "cn-hangzhou",
"regionName": "华东1(杭州)",
"ruleId": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111",
"signature": "F111111w1111qN1111bw=",
"timestamp": "1625455812126",
"triggerLevel": "WARN",
"userId": "11596111111355"}

会转为如下所示的SLS告警消息:

{
"aliuid": "aliuid1",
"alert_instance_id": "",
"alert_id": "i-bp11111111115111_111111-0703-4811-9113-1c1111111111",
"alert_type": "sls_pub",
"alert_name": "连接数",
"region": "cn-hangzhou",
"project": "sls-alert--",
"project_id": 0,
"next_eval_interval": 0,
"alert_time": 1625455812,
"fire_time": 1625455812,
"fire_results": null,
"fire_results_count": 0,
"resolve_time": 0,
"status": "firing",
"results": null,
"labels": {
"instanceId": "i-bp1d7111111115htda",
"namespace": "acs_ecs",
"regionId": "cn-hangzhou",
"state": "TCP_TOTAL",
"userId": "11596111111355"    },
"annotations": {
"__cloud_monitor_type__": "threshold",
"__config_app__": "sls_pub_alert",
"__pub_alert_app__": "appid1",
"__pub_alert_protocol__": "cloud_monitor",
"__pub_alert_region__": "e",
"__pub_alert_service__": "serverid1",
"curValue": "4.5",
"desc": "Host.tcpconnection $Average>=1 持续: 27天19小时47分钟, 详情: {instanceId=i-bp1d7111111115htda, state=TCP_TOTAL, userId=11596111111355}",
"expression": "$Average\u003e=1",
"instanceName": "launch-advisor-20210607/11.11.1111.1111",
"lastTime": "27天19小时47分钟",
"metricName": "Host.tcpconnection",
"metricProject": "acs_ecs",
"namespace": "acs_ecs",
"preTriggerLevel": "WARN",
"rawMetricName": "net_tcpconnection",
"title": "acs_ecs Host.tcpconnection 当前值: 4.5"    },
"severity": 6,
"policy": {
"alert_policy_id": "",
"action_policy_id": "",
"use_default": false,
"repeat_interval": "0s"    },
"template": null,
"drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/alarmInfo/name=i-bp11111111115111_111111-0703-4811-9113-1c1111111111\u0026searchValue=\u0026searchType=name\u0026searchProduct=/history//"}

具体的转换规则请参考官方文档

事件告警映射规则

云监控发送的事件消息为json格式,如下所示:

{
"traceId": "411112-c49d-4143-a38e-c111159e-0",
"resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda",
"product": "ECS",
"ver": "1.0",
"instanceName": "launch-advisor-20210607",
"level": "INFO",
"userId": "115111111111355",
"content": {
"resourceId": "i-bp1d7411111111g111htda",
"publicIpAddress": "127.0.0.1",
"instanceName": "launch-advisor-20210607",
"state": "Running",
"privateIpAddress": "127.0.0.1",
"resourceType": "ALIYUN::ECS::Instance"    },
"regionId": "cn-hangzhou",
"eventTime": "20210705T113013.398+0800",
"name": "Instance:StateChange",
"id": "26111205-51113-4D118-8119-3111113CB735",
"timeMetrics": {
"ingestion_in_time": 1625455813563,
"ingestion_out_time": 1625455816000,
"notify_in_time": 1625455819578,
"engine_in_time": 1625455816467,
"event_time": 1625455813398,
"engine_out_time": 1625455818000    },
"status": "Normal"}

会转为如下所示的SLS告警消息:

{
"aliuid": "aliuid1",
"alert_instance_id": "26111205-51113-4D118-8119-3111113CB735",
"alert_id": "Instance:StateChange",
"alert_type": "sls_pub",
"alert_name": "Instance:StateChange",
"region": "cn-hangzhou",
"project": "sls-alert--",
"project_id": 0,
"next_eval_interval": 0,
"alert_time": 1625455813,
"fire_time": 1625743445,
"fire_results": null,
"fire_results_count": 0,
"resolve_time": 0,
"status": "firing",
"results": null,
"labels": {
"resourceId": "acs:ecs:cn-hangzhou:115111111111355:instance/i-bp1d71111111x15htda"    },
"annotations": {
"__cloud_monitor_type__": "event",
"__config_app__": "sls_pub_alert",
"__pub_alert_app__": "appid1",
"__pub_alert_protocol__": "cloud_monitor",
"__pub_alert_region__": "e",
"__pub_alert_service__": "serverid1",
"content_instanceName": "launch-advisor-20210607",
"content_privateIpAddress": "127.0.0.1",
"content_publicIpAddress": "127.0.0.1",
"content_resourceId": "i-bp1d7411111111g111htda",
"content_resourceType": "ALIYUN::ECS::Instance",
"content_state": "Running",
"desc": "事件Instance:StateChange触发, 详情: {\"instanceName\":\"launch-advisor-20210607\",\"privateIpAddress\":\"127.0.0.1\",\"publicIpAddress\":\"127.0.0.1\",\"resourceId\":\"i-bp1d7411111111g111htda\",\"resourceType\":\"ALIYUN::ECS::Instance\",\"state\":\"Running\"}",
"instanceName": "launch-advisor-20210607",
"level": "INFO",
"product": "ECS",
"status": "Normal",
"title": "Instance:StateChange: Normal",
"traceId": "411112-c49d-4143-a38e-c111159e-0",
"userId": "115111111111355"    },
"severity": 4,
"policy": {
"alert_policy_id": "",
"action_policy_id": "",
"use_default": false,
"repeat_interval": "0s"    },
"template": null,
"drill_down_query": "https://cloudmonitor.console.aliyun.com/index.htm#/eventmonitoring/events/detail?product=ECS\u0026eventName=Instance:StateChange"}

具体的转换规则请参考官方文档

总结

通过将云监控告警消息接入到SLS,可以充分利用SLS提供的强大的告警功能,从而更为高效的了解以及处理服务出现的问题。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
相关文章
|
3月前
|
运维 Serverless API
Serverless 应用引擎产品使用合集之sls日志告警调用函数计算,出现抛出的结果异常,是什么原因
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
3月前
|
存储 运维 Serverless
函数计算产品使用问题之日志告警不生效,一般是由于什么造成的
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
4月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
199 1
|
4月前
|
JSON Prometheus Cloud Native
Grafana 系列 -Loki- 基于日志实现告警
Grafana 系列 -Loki- 基于日志实现告警
|
10月前
|
监控 数据库
136 日志监控告警系统案例(代码实现)
136 日志监控告警系统案例(代码实现)
100 0
|
10月前
|
监控
135 日志监控告警系统案例(数据模型设计)
135 日志监控告警系统案例(数据模型设计)
126 0
|
4月前
|
机器学习/深度学习 运维 监控
用SLS配置日志关键字告警的N种方法
本文由日志关键词告警出发,介绍了使用SLS进行关键词监控告警配置,并且介绍了几种常见的配置方法,可以覆盖关键词监控的大部分场景。
312 0
用SLS配置日志关键字告警的N种方法
|
4月前
|
存储 运维 监控
使用Terraform玩转SLS告警
本文主要介绍使用Terraform来操作SLS告警监控,告警管理。
88 0
使用Terraform玩转SLS告警
|
4月前
|
运维 监控 安全
SLS相同监控规则太多?试试告警监控模板
本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。
105 0
SLS相同监控规则太多?试试告警监控模板
|
4月前
|
SQL 监控 关系型数据库
基于日志服务实现PolarDB秒级监控告警实践
数据复用场景。SLS统一平台利用一份数据发掘出多个use case,让数据发挥其最大价值。
103 0
基于日志服务实现PolarDB秒级监控告警实践

热门文章

最新文章

相关产品

  • 日志服务