阿里巴巴基础设施的前身可以追溯至 2009年,振飞(今阿里巴巴合伙人、高德总裁)作为救火队员奉命组建淘宝技术保障部,那一年是天猫“双 11”的第一个年头,也是阿里云成立的元年。那时候振飞面临的是焦头烂额的稳定性问题,淘宝交易的可用率还不到 3个 9,当时 IOE架构在可扩展性、成本效率、故障颗粒度方面,已难以满足淘宝和支付宝蓬勃发展的需求。在 2010年预算会议上,王坚博士要求在开篇 PPT“2010 年不增加小型机”的基础上,增加一个“再”字,成为“2010 年不再增加小型机”,启动了阿里巴巴去 IOE 的进程,我参与其中并于 2013 年 5 月亲自见证了支付宝最后一台 IBM小型机下线。这标志着阿里巴巴小型机时代的终结和基础设施新时代的开篇。
云计算业务的快速发展,为基础设施带来的挑战越来越大。2011年 9月至 2013年年初,以淘宝技术保障部为基础,分期将阿里云、B2B及支付宝运维团队整合为阿里巴巴技术保障部,为阿里巴巴集团技术基础设施的大统一奠定了基础。2014年1 月,基础设施技术峰会首次召开,主题是“从传统走向未来”,奠定了基础设施技术发展的策略。2014年 7月,阿里巴巴技术保障部更名为AIS(AlibabaInfrastructureService),意味着基础设施的定位已从保障业务稳定性部门升级为技术驱动的商业基础设施服务商,从保障转型为研发和运营,成为云计算的大底座。同年我们启动了全球人才招聘,正式在人才和组织上要向世界一流水平看齐。
“拼命搞技术!”“快来不及了(影响云业务)!我们(基础设施技术发展)最多还有 1 ~2 年时间”,这两句话一直环绕在我的心头,从最开始的张北自建数据中心、自研 AliFlash,AIS人沿着技术研发的道路,从白盒化到架构一体化,经过 5年的努力,无论是在数据中心、服务器、网络方面,还是在计算、存储、互联方面,我们在各个专业领域都有了长足的进步。从底层的机房电力设备到网络通信的硅光模块,到数据中心的网络架构、自研交换机和 OS,到计算芯片、存储控制器,再到运维管控的 3 分钟故障恢复(1 分钟故障发现、1 分钟故障定位、1 分钟故障恢复),再到数据中心的运营大脑(包括供应链等),我们收获了不少的成功,也经历了很多血和泪的教训。
技术基础设施是如此的重要,遗憾的是,因为专业领域众多,一直没有一本跨领域、跨专业的书,因此,我们决定在公司内部材料基础设施白皮书的基础上,编撰一本适用于对外的书。本书也融入了这些年来我们在关键技术决策中的思考和沉淀的经验。期望本书的出版能够给业界带来一块璞玉,以供斧正,同时也鞭策我们自己在未来更进一步。
阿里巴巴集团副总裁基础设施事业部负责人
2019 年 12 月于杭州