TAC报警中心: 专有云告警生命周期一站式管理运维平台

简介: TAC报警中心是阿里云SRE混合云团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。

1 功能特点

1.1 告警汇聚

  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

1.2 报警通道

  • 钉钉、本地化钉钉
  • 短信设备、公共云短信服务
  • 企业邮箱

2 平台体系

TAC_
图1:TAC平台体系

3 架构设计

TAC_
图2:TAC架构设计

4 界面展示

TAC_
图3:TAC界面展示

5 主要功能

5.1 告警中心

  • 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行

5.2 告警工作台

  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
  • 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR

5.3 策略中心

  • 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
  • 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
  • 可以控制告警发送时的状态,发生时、认领时、关闭时
  • 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效

5.4 推送配置

  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
  • 提供钉钉、短信、邮件的外发配置页面

5.5 系统配置

  • 可以在实例管理页面手动创建或导入需要监控的实例列表
  • 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
  • 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
  • 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力

5.6 站点监控配置

  • 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
  • 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发

目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。

作者:黄家亮

阿里云智能GTS-SRE团队资深技术支持工程师

7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
_

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
92 3
|
2月前
|
运维 Kubernetes 监控
|
3月前
|
弹性计算 运维 自然语言处理
属于Basis运维的、在Linux平台上运行的大模型测评 OS Copilot智能助手测评
OS Copilot是阿里云为Linux打造的智能操作系统助手,基于大模型,助用户进行自然语言问答、命令执行和系统运维。它简化了Linux操作,适合新手和运维人员。测评者作为IT架构师,发现OS Copilot使非技术背景人员也能操作Linux,接入命令可在官方文档找到。测试显示,通过"co"命令可与OS Copilot交互,实现生产任务融合。该工具提高了工作效率,尤其是对于遗忘具体命令时,非常有帮助。文档清晰,适合生产环境使用,值得进一步探索。
70 0
|
4月前
|
开发框架 运维 前端开发
构建一体化运维平台的八大功能
【6月更文挑战第6天】构建一体化运维平台的关键8个基本功能。
|
4月前
|
设计模式 运维 监控
运维一体化平台的能力要素
【6月更文挑战第7天】一体化运维平台的重要性,旨在建立覆盖运维全生命周期的统一平台,提升效率,保障业务连续性,实现数字化运维管理。
|
5月前
|
弹性计算 运维 监控
【阿里云云原生专栏】自动化运维的艺术:阿里云云原生平台的自动化运维工具集
【5月更文挑战第28天】阿里云云原生平台提供全面的自动化运维工具,涵盖监控告警、资源管理、部署更新、故障自愈、安全管理和数据备份等方面,简化运维工作,增强系统稳定性。通过智能工具集,运维人员能专注于业务优化,实现高效运维,为企业数字化转型提供有力支持。
235 3
|
23天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
21天前
|
机器学习/深度学习 运维 Prometheus
构建高效运维体系:从自动化部署到智能监控的全方位实践
在当今数字化时代,企业对运维效率和稳定性的要求越来越高。本文将探讨如何构建一个高效的运维体系,从自动化部署、持续集成与持续交付(CI/CD)、智能监控、故障管理以及数据驱动决策等方面进行深入分析和实践指导。通过这些方法,企业可以实现更快速、更可靠的软件发布和问题解决,提升整体运营效率。
|
17天前
|
敏捷开发 运维 Prometheus
构建高效运维体系:从基础架构到自动化管理
本文探讨了如何通过优化基础架构、引入自动化工具和流程,以及加强团队协作,构建高效的运维体系。通过案例分析和实践建议,帮助运维人员实现系统的稳定性、可靠性和可维护性。
|
11天前
|
机器学习/深度学习 运维 Cloud Native
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为信息技术的重要支柱,其效率与创新能力直接关系到企业信息系统的稳定性和业务连续性。本文将探讨如何通过技术手段,实现运维从传统手工操作向自动化、智能化的转变,进而构建一个高效、可靠的运维体系。我们将从自动化工具的应用开始,逐步深入到智能运维的实践,最终展望云原生架构下的运维未来趋势。