用“绿色计算“技术推动算力可持续发展

简介: 7月30日,2022中国算力大会在济南开幕,大会突出创新、融合、绿色三大理念,多位知名院士专家、行业领军人物围绕“算赋百业 力导未来”主题展开深入研讨,共话算力产业发展。蚂蚁集团基础设施委员会主席、绿色计算负责人何征宇应邀参会并在主论坛发表演讲。

1

算力飙升时代更需要绿色战略

各位下午好,非常高兴在泉城跟大家相见。今天我代表蚂蚁集团,在算力大会上分享一下我们在这个问题上的一些思考和实践。


蚂蚁是一家专注于互联网应用的一个科技平台,除了有大家熟悉的支付宝、余额宝、蚂蚁森林等业务,蚂蚁集团还有数字科技产业,在区块链、数据库等非常基础的核心技术领域,我们已经开始服务一些重要的政府以及企业单位。在这个业务和产业背景之下,蚂蚁对算力的需求日益增长,并软件侧的角度观察到了算力现有的一些效率问题。


算力的飙升和粗放利用会带来大量碳排放和能源消耗,这个消耗不仅对于任何企业来说是巨大的发展成本,同时也是整个社会的发展成本,需要企业主动去思考和解决。如何能够更加可持续地、更加高质量地发展算力,蚂蚁有一些自己的经验摸索以及观点思考,今天分享的主题,就是“绿色计算”。


蚂蚁集团从创立之初开始,一直秉承着绿色普惠的理念,在上个月,我们又宣布了ESG可持续发展战略,重新升级了整个公司战略。蚂蚁的公司战略一共就4个关键点,绿色低碳、数字普惠、科技创新和开放生态,其中第一条就是绿色低碳。此前在国家宣布了双碳目标后,我们也积极响应并在2021年公布了碳中和的目标,承诺2030年达到净零的排放。大家知道,对于一个科技平台来说,最大的碳排放就来自于数据中心本身。


在这样的业务背景和公司战略基础上,对绿色计算的研发就成为了蚂蚁的一个技术重点。


2

云原生架构升级奠定绿色计算基础

从2018年开始,我们发现蚂蚁集团内部的服务器数量已经呈现翻番式的增长。当时业内的服务器利用水平很低,今天峰会上邬贺铨院士提到,数据中心需要7×24小时工作,但通常并非7×24小时都在计算,非计算状态下也耗能。对这点我非常有共鸣,大量的能源被消耗在维护服务器上,而没有去提供真正的算力,2017年时,蚂蚁的整个服务器利用率只有8%左右,大量的服务器是处于闲置状态。


闲置显然不是我们故意如此,而是由于互联网业务有峰值的特性。比如说早上7点钟大家会集中去蚂蚁森林抢能量,中午吃饭时大家用支付宝来付款,以及早晚高峰坐地铁,甚至是基金的尾盘交易,大家会在同一个时间统一使用服务,意味着我们一定要用峰值时的算力来储备。这就导致在闲时会带来巨大的浪费。


所幸的是当时我们找到了一个契机,就是整个云时代的到来,蚂蚁将自己的架构做了云原生的整体升级,这个升级并不是简单地使用用云计算。蚂蚁有非常复杂的应用系统,在人工智能之外,大量计算还是被应用于常规的事务处理、交易处理,以及音视频的处理等等。所以我们就有了一个机会。借着云原生架构改造的同时,我们把所有应用系统全部按照统一的标准建设,放到了同一个底座上,同时我们制订了一系列的规范以及标准,让蚂蚁的整个集群形成了一个统一的资源池,形成了统一的可调度、可被伸缩的一个大的计算架构的范式。


2020年,国家宣布双碳战略后,蚂蚁集团成立了绿色计算团队,把我们对算力技术的研发统一在绿色计算的体系下,并制定自己的碳中和路线图。到了2021年的双11,大家知道双11这种规模的活动,峰值跟往常比是百倍、千倍的增长,所有的服务包括在线服务、数据库、人工智能等等,都会在那一天有爆发式的增长。我们运用这几年的积累,包括技术架构、核心技术、应用技术等等,在那天首次规模化的应用了全套的绿色计算技术栈,取得了不错的成绩。


根据第三方的审计,一场双11,蚂蚁通过绿色计算减少了394吨碳排放,2021全年则节省了近3万吨。我刚才讲了,2017年时蚂蚁的服务器利用率是8%,到2021年,服务器利用率已经达到了30%。这当中的一些成果,我们已经开始通过开源的方式对外开放,蚂蚁集团今年正式加入了“低碳专利承诺”,目前已经将首批7件“绿色计算”相关专利无偿开放,全球任何个人、企业、机构都可以免费使用这些专利。通过这种方式,我们希望能够推动行业一起更绿色地使用能源,更高效地使用算力。


3

纵深攻关技术难题,多层次提升算力效率


那么蚂蚁在绿色计算上是怎么构思和建设的?首先我们非常同意,算力是重要的。但是从双碳战略角度来说,在谈算力的同时,一定要结合对国家和行业都至关重要的能源安全。我打个比方,在数据中心、IDC层次我国目前已经做了非常好的工作,在包括东数西算、包括各个机架厂商以及各位硬件厂商努力下,我们的PUE可以降到非常低。这好比我们生产了非常多的优质节能灯。


但还有一个问题,LED节能灯买回来,如果长期开着,人不在房间里也不关,那么再节能的灯,对能源也仍然是严重的浪费。对于蚂蚁的绿色计算来说,我们没有涉及到硬件以及IDC的生产、制造,而是在采购绿电、使用绿色的计算中心的前提下,通过蚂蚁本身全套软件栈的自研能力,包括数据库、操作系统、中间件、编译器技术,以及蚂蚁有全套场景去做更多适配,在这基础之上,我们开发了一套聚焦于资源提效的“绿色计算”技术体系。在可信原生技术层面包含三种主要技术,分别是云原生分时调度、AI弹性容量和在离线混合部署技术。


第一个,分时调度技术,简单来说跟潮汐车道类似,早上7点大家在蚂蚁森林抢能量,临时需要非常多的资源机器,但过了7点就不要了,等到中午就餐的时候,又需要很多算力,我们就用云原生的调度能力进行潮汐调度。这项能力对整个基础技术的要求非常高,包括应用的稳定性和启动速度。


第二个,运用AI技术去做弹性的预测。互联网还有一个特点,就是需求不固定,很多时候有突发性的高峰。但是我们通过使用AI,能像预测天气预报一样去预测我们的容量大小。


第三个在离线混合部署技术是我们的关键核心技术。在很多企业比如能源、金融行业,出于安全性或者隔离性、稳定性的考虑,很多公司会把在线和离线应用拆开。但是在蚂蚁,因为我们自己有安全容器技术,在主机侧可以用多个内核做在离线隔离,让我们的整机离线利用率在达到70%、80%的时候,在线有请求来的时候仍然是不抖的。用这个技术就可以把整个在线应用和离线应用混部起来。

image.png

今年蚂蚁已经进一步开始向数据库混部,这是业界比较大的一个难点,需要保证在业务高峰来临时,能快速释放离线的计算资源,保障业务访问稳定。蚂蚁对所有数据库产品推进了容器化,让存储和应用的计算资源可以统一调度,结合数据库容量、调度、容器化隔离技术,做到了在混部场景下安全稳定的运行,混部CPU利用率70%的情况下,数据库容量降低在10%以内。


除此之外,面向未来,蚂蚁已经在积极布局一些绿色AI技术。近十年来,AI所需算力呈亿倍的增长,而且这一数字在“大力出奇迹”的业界思路下继续飞速攀升,就像几位专家院士今天讲到的,AI肯定是未来算力的极大需求者,我们需要今天就开始着手攻克这个问题。举个例子,当平台进行每一次推荐的时候,很多的AI模型在很多场景里面是会有大量无效的计算,所以我们认为应该更多关注算力和效果的比较,而不是一味的追求大模型。


从技术上来说,绿色AI的难点在于,一方面需要将AI硬件的算力效率提升到最高,逼近硬件理论算力,另一方面要降低越来越多业务场景“智能化”的算力需求。蚂蚁目前正在从打造智能的在离线计算集群调度优化系统;优化升级检索工程,模型推理,模型训练,推荐工程系列AI工程系统;打造多业务共享的多任务,多模态预训练模型等方向,着手打造一流的绿色AI工程和算法技术栈。


4

以开源、开放助力绿色算力发展


对绿色计算的研发,得益于蚂蚁有自研的全套核心技术栈,我们也希望能够跟业界或者社区来分享我们的技术,推动整个行业走向绿色计算技术的方向,为国家和社会创造更大的效益。前两天,蚂蚁在开放原子基金会全球峰会上宣布了我们的开源战略,就是把蚂蚁的核心基础技术成熟一个开放一个,降低全行业的软件开发成本。我们已经在原生分布式系统上面已经开源了OceanBase、MOSNKata Containers等很多核心技术,同时我们最近刚刚开源了可信隐私计算框架“隐语”,助力整个行业在数据隐私安全保护上的发展。


与此同时,我们也非常荣幸能和很多高校展开合作,蚂蚁自身也有一些研究型实习生的项目,旨在搭建一个推动产学研融合的平台,进一步开放蚂蚁的产业场景及技术资源。我们也非常期待,能够有机会跟各位专家进行一些研究计划的合作。


最后我总结一下,从算力基础设施的角度,蚂蚁是一个应用方、一个场景方。我们希望能够用自己的一些基础能力,从软件侧更多地为这个社会带来微小而美好的改变。用更绿色的技术,用绿色计算的技术,我相信我们可以一起携手创造更大的价值。


谢谢大家。

相关文章
|
6月前
|
存储 运维 数据处理
AIGC浪潮对数据中心基础设施发展的影响
【1月更文挑战第19天】AIGC浪潮对数据中心基础设施发展的影响
166 1
AIGC浪潮对数据中心基础设施发展的影响
|
6月前
全面推进绿色能源发展,构建可持续发展新时代
随着全球能源需求的增长和环境问题的日益突出,绿色能源已经成为当今社会发展的重要方向。本文将探讨绿色能源的定义、意义以及在构建可持续发展新时代中的作用,并提出全面推进绿色能源发展的策略和措施。
74 1
|
机器学习/深度学习 人工智能 区块链
智库观察|算力经济发展趋势分析与展望
东数西算工程标志着算力经济时代正式拉开帷幕。未来,算力将加速普及。市场也在呼唤算力服务标准,确保算力经济健康发展。
247 1
|
机器学习/深度学习 人工智能 自动驾驶
|
存储 人工智能 运维
|
人工智能 架构师 搜索推荐
共建行业能效基准,释放“新基建”可持续发展动能
共建行业能效基准,释放“新基建”可持续发展动能
203 0
共建行业能效基准,释放“新基建”可持续发展动能
|
数据中心 云计算
云计算正推动IT改造 新兴国家更积极
本文讲的是云计算正推动IT改造 新兴国家更积极【IT168 专稿】IDC在数据中心方面的研究表明,目前国内的大量数据中心是在大约7至10年前建成的。这些数据中心的基础设施已经老化,其低下的运行效率已经影响了数据中心的日常运行。
1136 0