在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。
它的名字有点儿高大上——Alibaba Global Operations Center,阿里巴巴全球运行指挥中心。而最近,GOC也收获了一份与“身份”特别相衬的荣誉,获得工信部的表彰,因为其在国家级重大活动的保障工作中表现出色,被推选为“优秀集体单位”。需要指出的是,在获得嘉奖的60家单位中,阿里巴巴是唯一的互联网企业。
其实,GOC一直默默地干着牛x的事儿,比如双11,都挺过来了。此时, 保障君只有一句话想送给GOC,“低调是最牛x的炫耀”。
GOC从何而来?
要掰扯一下GOC的诞生历程,还得从“远古”的2012年说起。
在2012年及以前,阿里的各个BU都拥有独立的研发团队、监控系统、监控中心执行标准和流程规范。感觉就像是春秋时期,诸侯各自为政。
各自为政其实也没有什么,但要命的是,当时的监控系统处理能力有限,毕竟,监控项都在百万以下,存储量也不过几十个TB。
这不是个事儿啊!
于是在2012年-2014年,开始转型升级。各个BU开始进行监控体系的整合,包括研发团队合并,监控中心的执行流程也开始统一化、标准化,这些动作都产生了极为明显的催化作用。
整合之后的监控系统的处理能力、分析能力和存储能力都得到了极大的增强,存储数据量从TB级窜升至PB级。自此,运行监控进入大数据时代!
到了2015年,GOC正式成立。其定位管理生产环境所有问题,打通实时监控、发现、通告、快速恢复、事后复盘、落实全生命周期管控,注重监控运营效率与大数据分析,快速定位与恢复能力。
有木有战力爆棚的感觉!
双11检验GOC真实战力
GOC的战力究竟如何?保障君以为, 2015年双11是最好的“验货”方式。唯有在如此极端的情况之下,才能够真正检验GOC的成色。
当然,GOC非常出色地完成了这一“史诗级”的任务,这中间的秘诀是什么?
GOC的第一步就是夯实最基础的能力,即监控系统的处理能力。当前,GOC支持从IDC机房、网络、系统、应用到业务的全方位监控,其业务数据与系统数据可实现秒级采集分析,而且每天可处理以亿计的报警通知量。除此之外,GOC还研发了一套名为AliMonitor的系统,其每分钟可以处理日志量超过百GB,而监控项更是高达千万级,存储量也达到了PB级别!
你以为这就完了?还早呢,GOC的能力远不止如此,它拥有着第二重“神功”——监控自动化。
最能体现GOC自动化特征的就是前文所述的AliMonitor系统,它已经具备了极高的自动化监控能力。比如,自动上下线添加监控、默认监控项自动添加与删除、应用扩容自动化添加、监控模版实现批量化和产品线自动继承监控属性等。
正是因为拥有了自动化的能力,所以,GOC的运行效率得到了非常明显的提升。
但,这还没完!
GOC还拥有第三重功力,也就是异常突发情况的处理能力。众所周知,阿里巴巴旗下业务众多,而在双11这种特殊时刻,GOC面临着的很可能是前所未有的、突发的、异常的情况。为此,GOC也进行了精心的布局与准备。
在硬件层面,GOC指挥室的超大拼接屏可以全链路地、实时地展示基础架构和业务的情况。另外,GOC还具备分钟级的快速接入音、视频电话会议能力,大大缩短了应急反应时间。
在软件层面。GOC的应急响应系统能够涵盖值班盯屏、应急响应、业务巡检、网络信息、信息流转等流程,并将报警信息进行汇总、处理、分析和跟踪。而GOC信息发布中心是将故障处理过程与故障全程信息透明化。GOC全域信息系统汇集则变更、发布、预案执行、演练、活动、舆情等信息,让GOC的信息更全面、更实时为决策提供依据。
通过这些设计,GOC的能力再度提升一个档次。即便生产环境发生故障,GOC也会在第一时间(秒级)得到异常报警,并在几分钟之内将故障的现象及影响通知于相关的处理人和决策者,然后调度相关资源进行协调处理、排查和恢复。
拥有种种能力的GOC在未来还有更多的“进化”,但其最终的目标非常“简单粗暴”,那就是“做问题的终结者”。