阿里云TAC报警中心功能特点与适用场景

简介: TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。


1 功能特点


1.1 告警汇聚


  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

1.2 报警通道


  • 钉钉、本地化钉钉
  • 短信设备、公共云短信服务
  • 企业邮箱

2 平台体系


TAC_
图1:TAC平台体系


3 架构设计


TAC_
图2:TAC架构设计


4 界面展示


TAC_
图3:TAC界面展示


5 主要功能


5.1 告警中心


  • 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行

5.2 告警工作台


  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
  • 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR

5.3 策略中心


  • 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
  • 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
  • 可以控制告警发送时的状态,发生时、认领时、关闭时
  • 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效

5.4 推送配置


  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
  • 提供钉钉、短信、邮件的外发配置页面

5.5 系统配置


  • 可以在实例管理页面手动创建或导入需要监控的实例列表
  • 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
  • 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
  • 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力

5.6 站点监控配置


  • 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
  • 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发

目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。


云服务器ECS地址:阿里云·云小站

相关文章
|
编解码 网络协议 Linux
跨平台 scrcpy显示/控制安卓手机方案
• Genymotion、Parallels Desktop 等虚拟机软件 太专业, 需要配置太多软件, 适合开发者. • 国内一批安卓游戏助手都可以一试, 这里我随便下载了一款网易MuMu对字体的显示不太好. 可以尝试一下 傲软投屏(ApowerMirror) • Vysor Pro 收费较贵,免费版广告又多
1001 0
|
JavaScript 程序员 Java
js根据当前时间获取指定范围内的时间段日期
版权声明:本文为博主原创文章,如需转载,请标明出处。 https://blog.csdn.net/alan_liuyue/article/details/78311491 一.
2811 0
|
10月前
|
存储 弹性计算 负载均衡
活动实践 | ALB 实现跨地域负载均衡
本方案通过阿里云的云企业网(CEN)、转发路由器(TR)、专有网络(VPC)、云服务器(ECS)和应用型负载均衡(ALB),实现跨地域的应用负载均衡。它扩展了系统的吞吐能力,提升了可用性和安全性。用户可通过资源编排服务(ROS)一键部署,并进行负载测试验证。清理资源也简便快捷。
|
安全 NoSQL 网络协议
SSRF内网打穿相关姿势
本文详细介绍了服务器端请求伪造(SSRF)漏洞,包括其定义、漏洞场景、常见漏洞函数、URL伪协议及其利用方法。通过具体的靶机示例,展示了如何利用SSRF漏洞进行内网探测、命令执行、SQL注入、命令注入、XXE注入、Tomcat任意文件上传和Redis未授权访问等攻击。文章还提供了相关工具和参考资料,帮助读者更好地理解和应对SSRF漏洞。
980 0
SSRF内网打穿相关姿势
|
8月前
|
人工智能 自然语言处理 供应链
AI直播销售奇迹:00后DeepSeek的3.3亿真相探究
近日,“00后主播借DeepSeek技术直播卖出3.3亿”的新闻引发关注。此次成功不仅得益于主播个人魅力,更离不开“交个朋友”直播间团队对AI技术的深度融合。通过DeepSeek大模型,AI在内容生成、流程优化等方面大幅提升效率,实现了直播话术自动生成、多场景适配及全球化支持。团队还利用AI进行选品、合规审核和数据分析,优化直播策略。多位主播精细分工,结合强大的背景资源,确保高效带货。AI与真人主播互补,提升转化率。尽管存在版权、就业等争议,此次销售奇迹展示了AI技术商业化的潜力,并为行业提供了宝贵案例。
298 0
|
11月前
|
定位技术 数据安全/隐私保护
如何评估HTTP代理IP的性能?
随着互联网技术的发展,使用代理IP的人越来越多。选择HTTP代理IP时,需注意速度和稳定性、用户信息保护、地域性、带宽上限、支持的协议、客户支持、用户评价和信誉、价格和性价比等方面。希望这些建议能帮助大家做出合适的选择。
156 1
|
11月前
|
存储 监控 调度
云服务器成本优化深度解析与实战案例
本文深入探讨了云服务器成本优化的策略与实践,涵盖基本原则、具体策略及案例分析。基本原则包括以实际需求为导向、动态调整资源、成本控制为核心。具体策略涉及选择合适计费模式、优化资源配置、存储与网络配置、实施资源监控与审计、应用性能优化、利用优惠政策及考虑多云策略。文章还通过电商、制造企业和初创团队的实际案例,展示了云服务器成本优化的有效性,最后展望了未来的发展趋势,包括智能化优化、多云管理和绿色节能。
|
API 定位技术
api接口如何对接?(带你了解api接口的相关知识)
API接口是在产品和研发领域广泛应用的专业术语,主要用于公司内部系统衔接及公司间合作。本文将详细讲解API接口的概念、必要性及其核心要素。首先介绍API接口的基本原理与应用场景,随后阐述其重要性,最后解析API接口的核心组成部分,帮助读者深入理解API接口的工作机制。适合产品小白和求职者阅读,提升专业知识。
|
负载均衡 安全 Linux
在Linux中,什么是负载均衡,并且如何在Linux中实现它。
在Linux中,什么是负载均衡,并且如何在Linux中实现它。
|
Web App开发 JavaScript 前端开发
强大的矢量图形库:Raphael JS 中文帮助文档及教程
  Raphael 是一个用于在网页中绘制矢量图形的 Javascript 库。它使用 SVG W3C 推荐标准和 VML 作为创建图形的基础,你可以通过 JavaScript 操作 DOM 来轻松创建出各种复杂的柱状图、饼图、曲线图等各种图表,还可以绘制任意形状的图形,可以进行图表或图像的裁剪和旋转等复杂操作。
3076 0