TAC在专有云项目中的应用实践-阿里云开发者社区

开发者社区> 阿里云SRE技术社区> 正文

TAC在专有云项目中的应用实践

简介: TAC(TAM Alarm Center)是专有云现场运维对监控报警解决方案的最佳实践,为专有云客户提供灵活的、多样化的监控报警解决方案,以此提升专有云平台和产品的故障发现率,保障客户系统的稳定运行。TAC功能丰富、多样且灵活,能够覆盖多种应用场景,满足多样的监控及告警需求,本文选择部分项目的最佳实践和应用进行展示。

1.前言

TAC(TAM Alarm Center)是专有云现场运维对监控报警解决方案的最佳实践,为专有云客户提供灵活的、多样化的监控报警解决方案,以此提升专有云平台和产品的故障发现率,保障客户系统的稳定运行。TAC功能丰富、多样且灵活,能够覆盖多种应用场景,满足多样的监控及告警需求,本文选择部分项目的最佳实践和应用进行展示。

1.基本功能

1.1告警接入

图1:封神榜告警接入方案.png

图1:封神榜告警接入方案

产品团队:研发团队提供监控能力
封神榜:封装产品监控,并调用TAC的API网关接口上报告警
TAC:提供API网关服务,并进行告警的展示和通知

1.2短信告警

场景:某项目现场需要将平台侧P0级告警、现场工具巡检结果通过短信外发给相关人员以及时获取监控告警信息。
方案:使用TAC本身告警汇聚能力汇聚云内多渠道告警,并使用TAC集成的本地化短信服务方式实现告警通知。
图2:短信告警效果展示.png

图2:短信告警效果展示

1.3站点监控

场景:某客户现场有应用监控需求,希望TAC可以定时监控该项目的门户网站和运营管理平台。
方案:使用TAC集成的站点监控HTTPCODE和钉钉方式实现监控告警通知。
图3:站点监控效果展示.png

图3:站点监控效果展示

2.扩展解决方案

2.1 Maxcomput和Datawokrs资源告警

某项目使用Maxcomput和Dataworks两个产品承载主要的业务应用,需要对Maxcomput的资源使用情况和Dataworks的槽位使用情况进行监控并告警,以在第一时间发现问题,并通知运维人员处理。
图4:Maxcomput和Datawokrs资源告警效果展示.png

图4:Maxcomput和Datawokrs资源告警效果展示

2.2告警推送第三方

某项目需要将云平台的告警通过钉钉发送给现场驻场或相关负责人,减少盯屏的人力成本,从而减少问题处理的时间,最终减少对业务的影响时间。
图5:告警推送第三方方案.png

图5:告警推送第三方方案

数据采集:使用TAC实现告警采集

  • 平台核心实例资源使用率告警管理、P0/P1告警统一管理
  • 应用业务可用性监控告警

数据推送:TAC调用api网关接口,将告警数据写入消息中心
数据接收:通过消息中心服务将告警数据推送到钉钉机器人,钉钉群接收消息中心推送的告警数据。
图6:告警通知效果展示.png

图6:告警通知效果展示

作者:黄家亮

阿里云智能GTS-SRE团队资深技术支持工程师

7年IT从业经验超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队,为集团设计和建设了异地多活、大促容量规划、限流降级、开关预案、流量调度、故障演练、资损防控等高可用架构基础设施,深度参与支持了集团历年双11大促的技术保障工作。团队核心技术源于集团双十一最佳实践,形成以PTS、AHAS等商业化产品输出的方式帮助客户一次又一次安全度过大促流量高峰,同时积极参与开源社区高可用能力的建设,团队开源的Sentinel和ChaosBlade已成为极具影响力的领域技术。 通过 SRE技术社区,我们期望:一. 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴,帮助大家更全面、深入地了解阿里云的产品。二. 促进技术上互相交流,取长补短,打造阿里云产品运维人社区论坛,共同促进阿里云产品的不断完善。

官网链接