阿里云TAC报警中心功能特点与适用场景

简介: TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。


1 功能特点


1.1 告警汇聚


  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

1.2 报警通道


  • 钉钉、本地化钉钉
  • 短信设备、公共云短信服务
  • 企业邮箱

2 平台体系


TAC_
图1:TAC平台体系


3 架构设计


TAC_
图2:TAC架构设计


4 界面展示


TAC_
图3:TAC界面展示


5 主要功能


5.1 告警中心


  • 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行

5.2 告警工作台


  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
  • 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR

5.3 策略中心


  • 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
  • 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
  • 可以控制告警发送时的状态,发生时、认领时、关闭时
  • 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效

5.4 推送配置


  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
  • 提供钉钉、短信、邮件的外发配置页面

5.5 系统配置


  • 可以在实例管理页面手动创建或导入需要监控的实例列表
  • 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
  • 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
  • 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力

5.6 站点监控配置


  • 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
  • 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发

目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。


云服务器ECS地址:阿里云·云小站

相关文章
|
Prometheus 监控 Cloud Native
夜莺自定义告警模板
夜莺自定义告警模板
|
4月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之如何查看报警配置通常涉及查看报警资源使用情况和设置报警联系人
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
54 2
|
2月前
Nightingale——修改报警中的报警策略报警详情域名
Nightingale——修改报警中的报警策略报警详情域名
35 1
|
Web App开发 存储 监控
日志服务之告警接入与管理
本教程介绍如何使用日志服务接入NGINX模拟数据,并配置告警规则来对NGINX访问错误进行监控。
404 0
|
机器人 定位技术
GrayLog+nxlog采集邮箱登录日志csv文件并实现邮箱异地登录钉钉机器人告警
GrayLog+nxlog采集邮箱登录日志csv文件并实现邮箱异地登录钉钉机器人告警
301 0
GrayLog+nxlog采集邮箱登录日志csv文件并实现邮箱异地登录钉钉机器人告警
|
安全 机器人 BI
使用GrayLog对PrometheusAlert推送的安全告警进行图形报表统计与分析
使用GrayLog对PrometheusAlert推送的安全告警进行图形报表统计与分析
307 0
使用GrayLog对PrometheusAlert推送的安全告警进行图形报表统计与分析
|
消息中间件 存储 运维
平台上配置智能告警
平台上配置智能告警
178 0
|
监控 应用服务中间件 nginx
日志服务之告警接入与管理-3
日志服务之告警接入与管理-3
146 0
|
Web App开发 存储 移动开发
日志服务之告警接入与管理-2
日志服务之告警接入与管理-2
120 0
|
监控 应用服务中间件 nginx
日志服务之告警接入与管理-4
日志服务之告警接入与管理-4
118 0