1
算力飙升时代更需要绿色战略
各位下午好,非常高兴在泉城跟大家相见。今天我代表蚂蚁集团,在算力大会上分享一下我们在这个问题上的一些思考和实践。
蚂蚁是一家专注于互联网应用的一个科技平台,除了有大家熟悉的支付宝、余额宝、蚂蚁森林等业务,蚂蚁集团还有数字科技产业,在区块链、数据库等非常基础的核心技术领域,我们已经开始服务一些重要的政府以及企业单位。在这个业务和产业背景之下,蚂蚁对算力的需求日益增长,并从软件侧的角度观察到了算力现有的一些效率问题。
算力的飙升和粗放利用会带来大量碳排放和能源消耗,这个消耗不仅对于任何企业来说是巨大的发展成本,同时也是整个社会的发展成本,需要企业主动去思考和解决。如何能够更加可持续地、更加高质量地发展算力,蚂蚁有一些自己的经验摸索以及观点思考,今天我分享的主题,就是“绿色计算”。
蚂蚁集团从创立之初开始,一直秉承着绿色普惠的理念,在上个月,我们又宣布了ESG可持续发展战略,重新升级了整个公司战略。蚂蚁的公司战略一共就4个关键点,绿色低碳、数字普惠、科技创新和开放生态,其中第一条就是绿色低碳。此前在国家宣布了双碳目标后,我们也积极响应并在2021年公布了碳中和的目标,承诺2030年达到净零的排放。大家知道,对于一个科技平台来说,最大的碳排放就来自于数据中心本身。
在这样的业务背景和公司战略基础上,对绿色计算的研发就成为了蚂蚁的一个技术重点。
2
云原生架构升级奠定绿色计算基础
从2018年开始,我们发现蚂蚁集团内部的服务器数量已经呈现翻番式的增长。当时业内的服务器利用水平很低,今天峰会上邬贺铨院士提到,数据中心需要7×24小时工作,但通常并非7×24小时都在计算,非计算状态下也耗能。对这点我非常有共鸣,大量的能源被消耗在维护服务器上,而没有去提供真正的算力,2017年时,蚂蚁的整个服务器利用率只有8%左右,大量的服务器是处于闲置状态。
闲置显然不是我们故意如此,而是由于互联网业务有峰值的特性。比如说早上7点钟大家会集中去蚂蚁森林抢能量,中午吃饭时大家用支付宝来付款,以及早晚高峰坐地铁,甚至是基金的尾盘交易,大家会在同一个时间统一使用服务,意味着我们一定要用峰值时的算力来储备。这就导致在闲时会带来巨大的浪费。
所幸的是当时我们找到了一个契机,就是整个云时代的到来,蚂蚁将自己的架构做了云原生的整体升级,这个升级并不是简单地使用用云计算。蚂蚁有非常复杂的应用系统,在人工智能之外,大量计算还是被应用于常规的事务处理、交易处理,以及音视频的处理等等。所以我们就有了一个机会。借着云原生架构改造的同时,我们把所有应用系统全部按照统一的标准建设,放到了同一个底座上,同时我们制订了一系列的规范以及标准,让蚂蚁的整个集群形成了一个统一的资源池,形成了统一的可调度、可被伸缩的一个大的计算架构的范式。
2020年,国家宣布双碳战略后,蚂蚁集团成立了绿色计算团队,把我们对算力技术的研发统一在绿色计算的体系下,并制定自己的碳中和路线图。到了2021年的双11,大家知道双11这种规模的活动,峰值跟往常比是百倍、千倍的增长,所有的服务包括在线服务、数据库、人工智能等等,都会在那一天有爆发式的增长。我们运用这几年的积累,包括技术架构、核心技术、应用技术等等,在那天首次规模化的应用了全套的绿色计算技术栈,取得了不错的成绩。
根据第三方的审计,一场双11,蚂蚁通过绿色计算减少了394吨碳排放,2021全年则节省了近3万吨。我刚才讲了,2017年时蚂蚁的服务器利用率是8%,到2021年,服务器利用率已经达到了30%。这当中的一些成果,我们已经开始通过开源的方式对外开放,蚂蚁集团今年正式加入了“低碳专利承诺”,目前已经将首批7件“绿色计算”相关专利无偿开放,全球任何个人、企业、机构都可以免费使用这些专利。通过这种方式,我们希望能够推动行业一起更绿色地使用能源,更高效地使用算力。
3
纵深攻关技术难题,多层次提升算力效率
那么蚂蚁在绿色计算上是怎么构思和建设的?首先我们非常同意,算力是重要的。但是从双碳战略角度来说,在谈算力的同时,一定要结合对国家和行业都至关重要的能源安全。我打个比方,在数据中心、IDC层次我国目前已经做了非常好的工作,在包括东数西算、包括各个机架厂商以及各位硬件厂商努力下,我们的PUE可以降到非常低。这好比我们生产了非常多的优质节能灯。
但还有一个问题,LED节能灯买回来,如果长期开着,人不在房间里也不关,那么再节能的灯,对能源也仍然是严重的浪费。对于蚂蚁的绿色计算来说,我们没有涉及到硬件以及IDC的生产、制造,而是在采购绿电、使用绿色的计算中心的前提下,通过蚂蚁本身全套软件栈的自研能力,包括数据库、操作系统、中间件、编译器技术,以及蚂蚁有全套场景去做更多适配,在这基础之上,我们开发了一套聚焦于资源提效的“绿色计算”技术体系。在可信原生技术层面包含三种主要技术,分别是云原生分时调度、AI弹性容量和在离线混合部署技术。
第一个,分时调度技术,简单来说跟潮汐车道类似,早上7点大家在蚂蚁森林抢能量,临时需要非常多的资源机器,但过了7点就不要了,等到中午就餐的时候,又需要很多算力,我们就用云原生的调度能力进行潮汐调度。这项能力对整个基础技术的要求非常高,包括应用的稳定性和启动速度。
第二个,运用AI技术去做弹性的预测。互联网还有一个特点,就是需求不固定,很多时候有突发性的高峰。但是我们通过使用AI,能像预测天气预报一样去预测我们的容量大小。
第三个在离线混合部署技术是我们的关键核心技术。在很多企业比如能源、金融行业,出于安全性或者隔离性、稳定性的考虑,很多公司会把在线和离线应用拆开。但是在蚂蚁,因为我们自己有安全容器技术,在主机侧可以用多个内核做在离线隔离,让我们的整机离线利用率在达到70%、80%的时候,在线有请求来的时候仍然是不抖的。用这个技术就可以把整个在线应用和离线应用混部起来。
今年蚂蚁已经进一步开始向数据库混部,这是业界比较大的一个难点,需要保证在业务高峰来临时,能快速释放离线的计算资源,保障业务访问稳定。蚂蚁对所有数据库产品推进了容器化,让存储和应用的计算资源可以统一调度,结合数据库容量、调度、容器化隔离技术,做到了在混部场景下安全稳定的运行,混部CPU利用率70%的情况下,数据库容量降低在10%以内。
除此之外,面向未来,蚂蚁已经在积极布局一些绿色AI技术。近十年来,AI所需算力呈亿倍的增长,而且这一数字在“大力出奇迹”的业界思路下继续飞速攀升,就像几位专家院士今天讲到的,AI肯定是未来算力的极大需求者,我们需要今天就开始着手攻克这个问题。举个例子,当平台进行每一次推荐的时候,很多的AI模型在很多场景里面是会有大量无效的计算,所以我们认为应该更多关注算力和效果的比较,而不是一味的追求大模型。
从技术上来说,绿色AI的难点在于,一方面需要将AI硬件的算力效率提升到最高,逼近硬件理论算力,另一方面要降低越来越多业务场景“智能化”的算力需求。蚂蚁目前正在从打造智能的在离线计算集群调度优化系统;优化升级检索工程,模型推理,模型训练,推荐工程系列AI工程系统;打造多业务共享的多任务,多模态预训练模型等方向,着手打造一流的绿色AI工程和算法技术栈。
4
以开源、开放助力绿色算力发展
对绿色计算的研发,得益于蚂蚁有自研的全套核心技术栈,我们也希望能够跟业界或者社区来分享我们的技术,推动整个行业走向绿色计算技术的方向,为国家和社会创造更大的效益。前两天,蚂蚁在开放原子基金会全球峰会上宣布了我们的开源战略,就是把蚂蚁的核心基础技术成熟一个开放一个,降低全行业的软件开发成本。我们已经在原生分布式系统上面已经开源了OceanBase、MOSN、Kata Containers等很多核心技术,同时我们最近刚刚开源了可信隐私计算框架“隐语”,助力整个行业在数据隐私安全保护上的发展。
与此同时,我们也非常荣幸能和很多高校展开合作,蚂蚁自身也有一些研究型实习生的项目,旨在搭建一个推动产学研融合的平台,进一步开放蚂蚁的产业场景及技术资源。我们也非常期待,能够有机会跟各位专家进行一些研究计划的合作。
最后我总结一下,从算力基础设施的角度,蚂蚁是一个应用方、一个场景方。我们希望能够用自己的一些基础能力,从软件侧更多地为这个社会带来微小而美好的改变。用更绿色的技术,用绿色计算的技术,我相信我们可以一起携手创造更大的价值。
谢谢大家。