最佳实践:基于SLS实现统一告警

本文涉及的产品
对象存储 OSS,20GB 3个月
可观测监控 Prometheus 版,每月50GB免费额度
对象存储 OSS,恶意文件检测 1000次 1年
简介: 告警对于企业的开发运维,安全运维,业务运维有着至关重要的作用。然而很多企业在告警运维方面存在着重复建设、监控质量差、告警风暴、触达不人性化、无法闭环等问题。

阿里云解决方案最佳实践,是基于众多客户上云的成功案例萃取而成的最优化企业上云指导。每个最佳实践包括使用场景、多产品部署架构及部署手册,帮助客户更好地理解阿里云的产品和解决方案,降低企业上云门槛的同时满足客户自服务的需求。感兴趣的朋友可以访问最佳实践官网了解更多内容 bp.aliyun.com

一、概述

1、 场景描述

  1. 客户现状
    告警对于企业的开发运维,安全运维,业务运维有着至关重要的作用。然而很多企业在告警运维方面存在着重复建设、监控质量差、告警风暴、触达不人性化、无法闭环等问题。
  2. 方案目标
    针对企业在告警管理方面存在的痛点问题,SLS 告警提供了一站式云上告警管理方案,具有弹性易用、稳定可靠、功能持续升级、成本更低、噪音更少等优势。企业可以将现有的监控方案系统无缝接入到 SLS 告警平台,实现在 SLS 上一站式管理告警。

2、统一告警系统架构
基于以上场景,我们创建了统一告警系统架构。通SLS采集日志或数据库信息发送给告警监控,进行分组或评估后发送给告警中心,同时告警系统也支持开源的监控平台,通过开放告警平台,将数据进行过滤和映射,然后推送到告警中心。告警中心将接收到的告警信息进行加工和存储,最终通过云或者短信、邮件等形式,将告警信息推送给企业运维工程师,及时掌握系统告警情况,以确保业务的稳定。
image.png

3、本次实践的系统架构
基于统一告警系统架构,我们设计了本次实践的业务系统架构。
image.png
4、方案优势

  • 易用弹性:一站式、快速开始、易于复制;
  • 稳定可靠:海量数据、服务3个9,存储10个9;
  • 功能持续升级:一体化数据、标准语法、AI全面监控、降噪与通知能力;
  • 更低成本:无订阅费、免运维、渠道收费低;
  • 更少噪音:告警全链路智能降噪与管理;
  • 更快恢复:更快速的排查根因、解决故障;
    5、方案的价值
  • 告警管理是可观测性平台的重要组成部分,内置了对云产品的多种监控告警规则,为用户使用云产品保驾护航;
  • 一站式智能告警运维平台,开箱即用,内置各场景下监控规则(500+);
  • 云原生可观测性平台实时监控告警,免运维,提高开发效率;
  • 开放告警:支持常见的监控系统Zabbix/Promethus/Grafana直接发送告警到SLS,统一进行告警管理;
  • 支持灵活的告警编排,降噪控制,事务管理,通知管理;全面提升IT效率,减少IT成本;

    二、操作实践

    前置条件:为了顺利完成本实践,您需要提前完成以下准备工作:
  • 注册阿里云账号,并完成实名认证;
  • 阿里云账户余额大于100元;

1、资源环境部署
本实践可使用云速搭 CADT 快速部署资源环境。
CADT 使用手册请参见:https://help.aliyun.com/document_detail/186134.html
说明:请根据环境部署须知中的提示,更新相关资源项的配置项,保存应用后部署。

操作步骤

  1. 登录云速搭 CADT 控制台。(https://bpstudio.console.aliyun.com
  2. 选择新建 > 官方模版库新建进入接官方模板库;
  3. 在官方模板库,输入搜索关键字找到SLS 统一日志监控模版,选择基于方案新建
  4. 在架构编辑界面,根据架构部署提示,修改 OSS、SLS 名称(保持唯一);修改4个ECS实例登录密码;
  5. 配置完成后,单击右上角的保存,设定应用名称后并单击确认;
  6. 应用保存成功后,单击部署应用;
  7. 资源校验成功后,单击下一步:价格清单;
  8. 计价完成后,确认各资源价格情况,确认无误,单击下一步:确认订单;
    说明:可以单击查看报告,会实时生成一个应用架构成本分析报告。
  9. 勾选《云速搭服务条款》,单击下一步:支付并创建;
  10. 部署完成后,还可以下载云速搭CADT输出的部署报告。

2、创建告警通知策略
2.1.告警通知策略简介
告警通知策略是 SLS 告警提供的告警管理的核心功能模块,主要包括告警策略和行动策略。

  • 告警策略:主要包括告警合并、静默、抑制等降噪功能;
  • 行动策略:主要是通知渠道的设定、分派,除了支持非常丰富的通知渠道如:短信、语音、邮件、Webhook、企业微信、钉钉、Slack、飞书等,还支持强大的用户组、值班组、轮岗代班等功能;
    2.2.添加用户
  1. 登录SLS控制台(https://sls.console.aliyun.com/lognext/profile),单击用 CADT 创建好的SLS实例:sls-bp235(示例名称);
  2. 单击左侧告警图标,进入告警中心,找到告警管理 > 用户管理
  3. 添加用户test-xiaozhang,test-xiaoqian,test-xiaosun,test-xiaoli分别填入手机号和邮箱;
  4. 添加完成;

2.3.添加用户组

  1. 单击用户管理 > 用户组管理;
  2. 添加电商用户组和社区用户组,分别将之前创建的用户添加到用户组;
  3. 添加完成;

2.4.添加值班组

  1. 单击值班组管理,添加值班组;
  2. 单击创建,在弹出框输入值班组相关信息;
  3. 切换到值班表标签,选择值班轮岗;
  4. 添加值班轮岗;
  5. 切换到最终排班,查看排班效果;
  6. 单击保存;
  7. 保存成功;
    2.5.添加行动策略
  8. 添加行动策略;
  9. 添加行动策略,填入 ID 和名称,然后单击全屏图标;
  10. 单击条件图标,添加条件;
  11. 条件对象选择严重度;
  12. 设置严重度为严重时,发送语音通知给值班组;然后条件单击确认,右侧单击结束图标;
  13. 严重度非严重的情况下,添加行动组;
  14. 添加行动组,增加短信和邮件渠道,分别发送给电商组和社区组,然后单击结束图标;
  15. 配置完成,单击退出全屏;
  16. 单击确认;
  17. 添加策略完成;

3、配置自定义告警
3.1.配置 Nginx 日志告警
3.1.1.采集 Nginx 真实日志

  1. 登录 ECS 控制台(https://ecs.console.aliyun.com/#/server/region/cn-beijing),选择用 CADT 创建好的 ECS 实例:ecs-bp235,进入远程连接;
  2. 在弹出的远程连接页面,单击立即登录;
  3. 在远程登录页面,输入 CADT 上对 ECS 设置的密码,单击确定;
  4. 安装 Nginx 组件并启动 nginx 服务;

    1. 执行以下命令
      yum install yum-utils -y
      touch /etc/yum.repos.d/nginx.repo

    2. 修改 nginx.repo
      vim /etc/yum.repos.d/nginx.repo

    3. 配置内容
      [nginx-stable]
      name=nginx stable repo
      baseurl=http://nginx.org/packages/centos/$releasever/$basearch/
      gpgcheck=1
      enabled=1
      gpgkey=https://nginx.org/keys/nginx_signing.key
      module_hotfixes=true
      [nginx-mainline]
      name=nginx mainline repo
      baseurl=http://nginx.org/packages/mainline/centos/$releasever/$basearch/
      gpgcheck=1
      enabled=0
      gpgkey=https://nginx.org/keys/nginx_signing.key
      module_hotfixes=true

    4. 执行命令
      yum install nginx -y
      systemctl start nginx.service

  5. 用浏览器打开 ECS 的公网 IP,去访问 nginx,产生日志数据;
  6. 登录 SLS 控制台,选择用 CADT 创建好的 SLS 实例:sls-bp235,进入详情页;
  7. 在详情页中,单击接入数据;
  8. 在弹出框的快速数据接入中,选择 NGINX-文本日志;
  9. 进入 Nginx 日志接入页面,按下面的配置,选择用 CADT 创建的 ECS 机器,单击立即执行;
  10. 执行需要等待一定的时间,请耐心等待,直到状态为成功;
  11. 输入名称,创建机器组,单击下一步;
  12. 对机器组进行配置;
  13. 配置 Logtail,部分关键字段配置如下:
    • 配置名称:logconfig
    • 日志路径:/var/log/nginx 和 *.log
    • NGINX 日志配置:
      log_format main
      '$remote_addr - $remote_user [$time_local] "$request" '
      '$request_time $request_length '
      '$status $body_bytes_sent "$http_referer" '
      '"$http_user_agent"';
    • 日是样例
      106.11.31.2 - - [23/Sep/2021:16:15:29 +0800] "GET /nginx-logo.png
      HTTP/1.1" 200 368 "http://123.56.121.18/abc.test" "Mozilla/5.0
      (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko)
      Chrome/87.0.4280.88 Safari/537.36" "-"
  14. 检查日志导入后的数据(可能需要等 1 分钟左右,可单击刷新按钮),单击下一步;
  15. 配置完成,点击查询日志;
  16. 返回到日志首页,检查日志数据;

3.1.2.使用 Nginx 模拟日志

  1. 登录 SLS 控制台,选择用 CADT 创建好的 SLS 实例:sls-bp235,进入详情页;
  2. 打开创建好的日志库实例 logstore-bp235,展开数据接入,单击模拟接入;
  3. 在弹出框的快速数据接入中,选择 NGINX 访问日志,单击“模拟”,进入模拟页面;
    注意:这里要单击“模拟”按钮,不要直接点整个方框。
  4. 进入 Nginx 日志模拟接入页面,直接使用默认的配置,单击开始导入;
  5. 导入过程需要等待一定的时间,请耐心等待进度条;
  6. 导入完成后,单击开始使用;
  7. 可以查看到 SLS 产生了大量的模拟数据;
    3.1.3.对 Nginx 日志进行告警配置
    上两步的操作,我们分别通过安装 nginx 产生真实数据和通过模拟的方式产生了大量的 nginx 日志,接下来我们将对日志进行告警分析处理。
  8. 输入查询分析语句:
    status >= 500 | SELECT count(1) as err_cnt
  9. 单击右上角的另存为告警 > 新版告警;
  10. 填写告警名称和动态告警严重度的配置;
  11. 修改标注描述;
  12. 选择告警策略,选择普通模式,在行动策略下拉框选择之前配置的“测试行动策略”;
  13. 然后单击确定按钮,告警创建成功;

3.1.4.查看 Nginx 告警统计

  1. 在告警中心,选择上述步骤创建的监控规则,单击规则名称;
  2. 查看本规则下,具体的告警统计信息;
  3. 手机和邮箱也会收到相应的告警信息;

3.2.配置 OSS 日志告警
3.2.1.配置 OSS 访问日志
开通 OSS 访问日志,阿里云对象存储(OSS)联合日志服务推出 OSS 访问日志实时查询功能。

  1. 登录 OSS 管理控制台(https://oss.console.aliyun.com/bucket),找到用 CADT 创建的 OSS 实例(本实践是 oss-bp235);
  2. 在 Bucket 列表中,单击目标 Bucket 名称(本实践是 oss-bp235),再单击日志管理 >实时查询;
  3. 单击立即开通。开通后,日志服务立即开始采集日志,并默认为您创建专属 Project、Logstore 以及配置索引;
  4. 登录 SLS 控制台,搜索到资源环境部署中配置的 oss 访问日志 project,单击进入;
  5. 查看告警规则列表;
  6. 找到 OSS 访问 PV 同比昨日变化率过高告警,单击右侧的添加按钮,在弹出框中其他值都保持默认,行动策略修改为之前创建的测试行动策略,最后单击设置并开启;
  7. 在告警中心的状态栏,选择已开启,下面告警规则列表会显示已经开启的告警规则,即为上述步骤开启的告警规则;

3.2.2.使用 OSS 模拟日志

  1. 登录 SLS 控制台,选择用 CADT 创建好的 SLS 实例:sls-bp235,进入详情页;
  2. 打开创建好的日志库实例 logstore-bp235,展开数据接入,单击模拟接入;
  3. 在弹出框的快速数据接入中,选择 OSS 访问日志,单击“模拟”,进入模拟页面;
  4. 配置可以默认,单击开始导入,等待 2 分钟;
  5. 导入完成后,单击开始使用;
  6. 可以查看到 OSS 产生了大量的模拟数据;

3.2.3.查看 OSS 告警统计

  1. 打开 OSS 自动生成的 SLS Project,单击告警,进入告警中心;
  2. 找到“OSS 访问 PV 同比昨日变化率过高告警”,单击进入详情页;
  3. 可以查看告警的统计信息;

3.3.配置 Prometheus 开放告警
日志服务支持通过 Webhook 方式接收外部监控系统中的告警消息(例如 Grafana告警、Prometheus告警)。您可以通过日志服务告警中的告警管理系统管理告警(降噪、事务管理等),然后通过通知管理系统发送告警通知给目标用户。

3.3.1.搭建 Prometheus 环境

  1. 登录 ECS 控制台(https://ecs.console.aliyun.com/#/server/region/cn-beijing),选择用 CADT 创建好的 ECS 实例:ecs-prometheus,进入远程连接;
  2. 在弹出的远程连接页面,单击立即登录;
  3. 在远程登录页面,输入CADT上对ECS设置的密码,单击确定;
  4. 下载并解压二进制安装包;
    下载、解压、创建软链接:
    wget https://code.aliyun.com/best-practice/235/raw/master/prometheus-2.13.0.linux-amd64.tar.gz
    tar -xf prometheus-2.13.0.linux-amd64.tar.gz
    mv prometheus-2.13.0.linux-amd64 /usr/local/
    ln -s /usr/local/prometheus-2.13.0.linux-amd64/ /usr/local/prometheus
  5. 创建 prometheus 的用户及数据存储目录;
    useradd -s /sbin/nologin -M prometheus
    mkdir /data/prometheus -p
    修改目录属主
    chown -R prometheus:prometheus /usr/local/prometheus/
    chown -R prometheus:prometheus /data/prometheus/
  6. 创建 Systemd 服务启动 prometheus;
    vim /etc/systemd/system/prometheus.service
    复制下列代码
    [Unit]
    Description=Prometheus
    Documentation=https://prometheus.io/
    After=network.target
    [Service]
    Type=simple
    User=prometheus
    ExecStart=/usr/local/prometheus/prometheus --
    config.file=/usr/local/prometheus/prometheus.yml -- storage.tsdb.path=/data/prometheus
    Restart=on-failure
    [Install]
    WantedBy=multi-user.target
  7. 启动 prometheus;
    systemctl start prometheus
    systemctl status prometheus
    systemctl enable prometheus
  8. 为ECS安全组配置端口以开放prometheus访问;
    在配置规则中,入方向增加 9090、9100、3000、10050 端口开放;

3.3.2.配置开放告警对外接口

  1. 登录 SLS 控制台,单击 sls-bp235 进入;
  2. 单击开放告警;
  3. 创建开放告警服务;
  4. 创建完告警服务,单击菜单中的应用按钮;
  5. 创建应用;
  6. 填写应用信息及行动策略,单击保存;
  7. 应用创建成功;
  8. 创建 RAM 用户接入告警;
    说明:为保证账号安全,强烈建议您使用 RAM 用户进行告警接入操作,不要直接使用阿里云账号。用于告警接入的 RAM 用户需具备AliyunLogPutOpenEventPolicy权限,具体操作如下:
    1. 创建RAM用户。具体操作,请参见创建RAM用户(https://help.aliyun.com/document_detail/93720.htm);
    2. 授予RAM用户AliyunLogPutOpenEventPolicy权限。具体操作,请参见为RAM用户授权(https://help.aliyun.com/document_detail/116146.htm);
    3. 为RAM用户创建访问密钥(AccessKey ID)。具体操作,请参见为RAM用户创建访问密钥(https://help.aliyun.com/document_detail/116401.htm);
  9. 单击步骤7的接口按钮,弹出接口信息,接口信息中的{ACCESS_KEY_ID}为阿里云访问密钥中的 AccessKey ID,请根据步骤8中的AccessKey ID替换;

3.3.3.接入 Prometheus 告警到 SLS
在Prometheus中,将日志服务开放告警系统配置为一个Alertmanager组件。配置完成后,Prometheus 会将告警消息发送到日志服务告警系统中,由日志服务告警系统完成告警降噪、通知等处理。

  1. 重新登录搭建Prometheus环境中打开的 ECS 控制台(ecs-prometheus);
  2. 修改 Prometheus 配置;
    cd /usr/local/prometheus
    vim prometheus.yml
  3. 在Prometheus配置文件中,替换原有的alertmanagers配置,即配置完成;
    image.png
    说明:
    • path_prefix:配置路径信息,此处配置为您在日志服务中创建开放告警服务和应用后生成的接口信息(子路径部分)。可从3.3.2的步骤9中获取公网地址;
      参考:/event/webhook/RAMAK_LTAI5tH**xvGh4vPbS/test-promethus_test-1
    • targets:告警消息的接收端,此处配置为日志服务的访问域名;
      参考:cn-heyuan.log.aliyuncs.com
      image.png
  4. 配置告警规则;
    cd /usr/local/prometheus
    wget https://code.aliyun.com/best-practice/235/raw/master/linux-rules.yml
    vim prometheus.yml

  5. 重启 Prometheus 服务;
    systemctl restart prometheus

  6. 查看Prometheus的Alerts页面,规则配置完成;
    URL:http://123.56.102.189:9090/alerts(IP 地址为 ecs-prometheus 的公网地址)
    3.3.4.配置增加监控对象
    为了能够体验到真实的告警数据通过Prometheus推送到 SLS 中,我们特定用一台ECS去产生告警的数据,让Prometheus捕获。
  7. 在ECS管理控制台,打开通过CADT创建的被监控ECS(名称为:ecs-monitored)的控制台;
  8. 下载并安装node_exporter服务,接入到prometheus中;
    wget https://code.aliyun.com/best-practice/235/raw/master/node_exporter-1.2.2.linux-amd64.tar.gz
    tar -zxf node_exporter-1.2.2.linux-amd64.tar.gz -C /usr/local/
    cd /usr/local/
    mv node_exporter-1.2.2.linux-amd64/ node_exporter

  9. 创建系统服务并启动;
    touch /usr/lib/systemd/system/node_exporter.service
    vi /usr/lib/systemd/system/node_exporter.service
    文件中加入以下配置信息:
    image.png
    启动 node_exporter 并设置为开启自启动:
    systemctl enable node_exporter.service
    systemctl start node_exporter.service
    systemctl status node_exporter.service

  10. 启动成功,测试node_exporter运行情况。本实例中用ECS(ecs-monitored)的公网IP地址加端口9100访问,即可。
    本实例:http://101.200.74.60:9100/metrics
  11. 将ecs-monitored节点加入到prometheus监控对象中。打开prometheus所在ECS(主机名:ecs-prometheus)的远程控制台;
    vim /usr/local/prometheus/prometheus.yml
    追加以下列代码:
    -job_name: 'CentOS7_VMServer'
    static_configs:
    -targets: ['101.200.74.60:9100']

    其中这里的 IP 地址为 ECS(ecs-monitored)的公网 IP 地址。
    修改完保存,并重启 prometheus 服务
    systemctl restart prometheus.service
    systemctl status prometheus.service

  12. 再登录 prometheus 的 Web 界面可以看到新增的这个 Target;

3.3.5.生产告警数据

  1. 在ECS的管控控制台,打开通过CADT创建的被监控ECS(名称为:ecs-monitored)的控制台。
  2. 安装压测工具将该ECS的CPU使用率提高到 100%;
    yum install -y stress sysstat
  3. 执行压测脚本;
    stress --cpu 1 --timeout 600
    3.3.6.查看 Prometheus 告警
  4. 在 SLS 告警中心打开开放告警中心日志库;
  5. 单击中心日志库,可跳转到开放告警的SLS的Project中查看日志;
  6. 查看Prometheus的告警;
    说明:在日志中可以看到大量的“CPU 使用率过高”的日志数据。
  7. 收到短信和邮件告警信息;

3.4.配置 Zabbix 开放告警
Zabbix作为常用的开源监控系统,提供了丰富的告警规则用于系统监控,同时支持多种告警通知渠道。日志服务告警系统可以设为Zabbix的一个通知渠道,由日志服务告警系统完成告警降噪、通知等处理。本节适用于Zabbix 4.4及以上版本。
3.4.1.搭建 Zabbix 环境

  1. 登录 ECS 控制台(https://ecs.console.aliyun.com/#/server/region/cn-beijing),选择用CADT创建好的ECS实例:ecs-zabbix,进入远程连接;
  2. 在弹出的远程连接页,单击立即登录;
  3. 在远程登录页面,输入 CADT 上对 ECS 设置的密码,单击确定;
  4. 在线安装 zabbix;
    请参见《基于SLS实现统一告警最佳实践》3.4.1章节
  5. 用浏览器打开zabbix控制台(用zabbix的ECS配置的EIP打开):
    http://39.107.226.142/EIP/zabbix
  6. 完成配置进行zabbix管理后台
    http://39.107.226.142/zabbix/index.php,输入管理员用户名 Admin(区分大小写),默认密码 zabbix,单击登入即可;
    3.4.2.配置开放告警对外接口
  7. 登录SLS控制台,单击 sls-bp235 进入;
  8. 单击开放告警;
  9. 创建开放告警服务;
  10. 创建完告警服务,单击菜单中的应用按钮;
  11. 创建应用;
  12. 填写应用信息及行动策略,单击保存;
    image.png

  13. 应用创建成功;

  14. 点击步骤7的接口按钮,弹出接口信息,接口信息中的{ACCESS_KEY_ID}为阿里云访问密钥中的AccessKey ID,请根据实际值的AccessKey ID替换。
    3.4.3.接入 Zabbix 告警
  15. 下载配置文件(zabbix-4.4.xml)
    https://code.aliyun.com/best-practice/235/blob/master/zabbix-4.4.xml
    保存到本地为zabbix-4.4.xml文件;
  16. 添加Alibaba Cloud SLS (Log Service)通知渠道;
    (1)在zabbix控制台导航栏中,选择Administration > Media types;
    (2)在Media types页面的右上角,单击Import;
    (3)在 Import 对话框中,选择您已下载的zabbix-4.4.xml文件,选中 Create new,然后单击 Import;
    (4)在Media types页面中,单击Alibaba Cloud SLS (Log Service);
    (5)在Parameters配置项中,修改hook_url字段的值,然后单击Update;
  1. 为目标用户设置通知渠道;
    (1)在zabbix控制台导航栏中,选择Administration > Users;
    (2)在用户列表中,可以单击Create user,创建一个新用户;
    (3)在Media页签中,创建一个新的Media;
    (4)保存后,单击Update;
  2. 配置触发器;
    (1)在左侧导航栏中,选择Configuration > Actions,Event source选中默认的Trigger类型,单击“Report problems to Zabbix administrators”;
    (2)在Operations页签中,单击Operations区域中的New;
    (3)在Operations details对话框中,选择目标用户或用户组,以及配置 Send only to为Alibaba Cloud SLS (Log Service),最后点击 Update;
    3.4.4.配置 zabbix agent
    为了能够体验到真实的告警数据通过Zabbix推送到SLS中,我们用一台ECS去产生的告警数据,让Zabbix捕获。
  3. 在ECS的管控控制台,打开通过CADT创建的被监控ECS(名称为:ecs-monitored)的控制台;
  4. 安装zabbix agent服务,接入到zabbox server中;
    请参见《基于SLS实现统一告警最佳实践》3.4.4章节
  5. 停止3.3章节中prometheus的监控,以免引起数据的干扰;
    systemctl stop node_exporter
  6. 执行压测脚本;
    stress --cpu 1 --timeout 6000
    3.4.5.配置zabbix服务端
    本小节将在zabbix服务端增加客户端,将安装了zabbix agent的云主机纳入到服务器的监控管控中。
  7. 在Zabbix服务端的面板中依次单击:Configuration——>Hosts——>Create host(即ecs-monitored这台ECS);
    image.png
    image.png
    image.png
    image.png
  8. 添加完后点击Add,稍等一会儿状态变为绿色。至此,客户端主机添加完成!此时如果记录不是绿色,请注意在ECS的安全组中,入口端口10050是否没有添加(步骤 3.3.1 的步骤 8)。
    3.4.6.查看Zabbix告警
  9. 在SLS告警中心打开开放告警中心日志库;
  10. 单击中心日志库,可跳转到开放告警的SLS的Project中查看日志;
  11. 查看zabbix的告警;
    告警内容为:alert_name:"Load average is too high (per CPU load over 1.5 for 5m)"
  12. 收到短信和邮件告警信息。
    附加说明:
    如果您已经完成了本实践,可以通过CADT的资源释放功能,可以一键将本次实践创建的云资源全部释放。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
存储 数据采集 监控
无数据告警最佳实践
在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,监控SLS的存储库中无数据的情况,是保证数据成功上传到SLS的一个重要手段,本文将介绍无数据告警的常见配置方法。
471 0
无数据告警最佳实践
|
存储 运维 监控
SLS智能巡检最佳实践:针对无标签数据
日志服务 SLS 智能异常分析 APP 提供自动化、智能化模型训练能力,可以根据设定的历史数据区间进行监督建模。您可以使用模型训练任务通过监督的方式加强对自身数据的异常学习,来提升未来的异常预警的准确率,模型训练任务主要有以下优势:直接使用SLS的智能巡检功能,准确率不及预期,可以选择使用SLS的模型训练任务,来提升异常检测的准确性智能巡检检测出来的异常和您所认为的异常之间可能存在gap,这种情况
165 0
|
7月前
|
存储 数据采集 监控
【最佳实践】无数据告警配置
背景在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,例如数据采集阶段出现故障Logtail采集异常、数据导入任务异常或者SDK写入数据出错等情况都有可能导致日志库中没有数据。业务系统出现问题例如用户的业务日志中有某个系统模块的日志,在一段时间内,由...
172 0
【最佳实践】无数据告警配置
|
7月前
|
存储 弹性计算 运维
使用日志服务SLS进行日志治理最佳实践
为面临日志管理难题的运维和开发人员提供使用日志服务SLS进行日志治理的最佳实践和核心步骤:规范日志格式、优化存储空间、使用日志服务构建运维平台。
566 0
使用日志服务SLS进行日志治理最佳实践
|
7月前
|
存储 SQL 监控
基于SLS平台与日志审计构建Cloud SIEM方案
安全事件和事件管理(security information and event management,SIEM)通过对来自各种数据源安全事件的收集和分析,来实现威胁检测、安全事件管理和合规性检测。SIEM是在安全信息管理(SIM)——收集、分析并报告日志数据,与安全事件管理(SEM)——实时分析日志和事件数据以提供威胁监视、事件关联和事件响应的基础上发展而来的。本文为您介绍如何基于SLS平台与日志审计构建Cloud SIEM方案。
311 6
基于SLS平台与日志审计构建Cloud SIEM方案
|
存储 监控 索引
SLS告警最佳实践——自定义分析告警历史
在SLS告警评估、触发到通知的整个生命周期过程中,都会有一些日志记录,通过这些日志我们可以借助告警对系统的整体健康状况、稳定性等有一个相对全面的了解。
562 0
|
JSON 监控 应用服务中间件
SLS告警最佳实践——Webhook通知最佳实践
SLS告警通知对接了常用的各种 IM 系统,例如钉钉、企业微信、飞书、Slack。SLS对这些系统的 Webhook 进行了包装,用户无需关心各个通知渠道的具体消息格式,只需要配置希望通知的内容即可。 除此之外,还有其它的一些场景,需要使用通用Webhook(自定义 Webhook),本文主要介绍通用 Webhook 使用过程中常见的一些问题和最佳实践。
744 0
|
存储 运维 Kubernetes
SLS告警最佳实践—— K8s事件中心告警管理
K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。
1206 0
SLS告警最佳实践—— K8s事件中心告警管理
|
存储 SQL 运维
SLS告警的分组评估最佳实践
监控系统一般包括监控目标(监控实体),监控条件,告警通知,自动修复等系模块,SLS作为云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务;SLS也提供了丰富的监控告警功能,可以针对在日志/时序/Trace数据中进行配置异常告警,比如在Nginx日志中500错误过多,主机时序数据中CPU超过90%需要告警,在告警发出时,往往需要对问题发生的原因进行追溯,需要知道哪些实体在出现了异常,比如哪个域名500错误过多,哪台主机CPU过高等。本文将介绍通过SLS告警监控中的分组评估功能找出异常的实体。
550 0
SLS告警的分组评估最佳实践
|
机器学习/深度学习 消息中间件 运维
CloudWatch告警增强-接入SLS开放告警
CloudWatch是AWS提供的可以用来实时监控AWS资源以及运行在AWS上的应用的一个服务,通过收集和跟踪指标数据来评估相关资源和应用程序,通过CloudWatch,用户可以全面直观地了解资源的使用情况已经应用程序的运行性能。通过下图可以看出,CloudWatch在AWS的安全体系中扮演着检测以及自动响应的角色。CloudWatch用来监控的功能是Alarms,创建一个Alarm意味着对某个资源或程序进行监控,如果监控的对象的指标数据处于异常状态,就会触发该Alarm,从而进行相应的行为。
537 0
下一篇
DataWorks