双11购物狂欢节从2009年开始至今,每年巨大成交量的背后有数十万台服务器进行复杂的运算,处理着数亿次的交易。作为阿里巴巴集团的基础设施,数据中心、服务器、网络承担了大量的信息处理任务。阿里工程师一直从事着底层技术的研发,来提升数据处理的能力及信息的可靠性,从而使得承载着如此大数据处理能力的数据中心以及服务器持续优化达到性能最优。
为了降低数据中心PUE,节省能耗,提高服务器供电效率,阿里巴巴在服务器内部嵌入锂电池BBU(Battery Backup Unit),并在阿里数据中心进行部署,来支持双十一的业务运行。服务器内部一般有两个PSU(Power Supply Unit)对电压进行转换,重构后的服务器只会保留一个PSU,另一个PSU的位置将会插入一块锂电池BBU,当所有服务器内部均有一块锂电池BBU后,会形成数据中心分布式锂电池BBU系统。
该方案落地后,阿里巴巴将成为国内首家服务器级备电的互联网企业,成为和Google、微软同样拥有该备电技术的企业。
图中左侧为阿里服务器内置锂电池BBU
在电力方面,绝大多数数据中心备用电源系统都是集中式UPS再加上铅酸电池,但这种集中式UPS供电方式在面对快节奏的互联网行业时,暴露出的问题越来越多,导致巨型互联网公司开始转向分布式锂电池BBU,尤以Google、阿里巴巴、微软为代表。
集中式UPS主要有以下四大硬伤:
- 单台UPS设备故障会导致后端数十甚至数千个服务器机架断电,故障影响范围广
- UPS电能转换次数多,供电效率低
- UPS投资运营成本高,系统通常需要按照最大负载配置铜排、配电柜、断路器开关等配电设备,而大部分情况下服务器负载较低,造成基础设施配电线路浪费
- 运维不方便,铅酸电池具有记忆特性,因此每年要人工对UPS做数次充放电测试检查电池老化程度,占用太多时间和人力成本
按照阿里巴巴的设计,外部供电一旦断电,安装在服务器内部的12V锂电池可以立即工作,为服务器提供12V电源支持,效率高达99%,接近理论最优值。对比传统UPS或者240V高压直流还需要做二次电压转换,效率提升8%以上,进而有效降低PUE达10%-15%。所以对于海量计算的数据中心这个省电容量是巨大的。
和UPS集中式部署不同的是,锂电池BBU最大一个好处是可以和服务器一起按需采购和建设,避免了传统UPS空置和利用率低,减少资金成本,能够提升15%数据中心整体交付时间。
在投资运营方面,以10KW级的数据中心为例,此前每年支出的数千万元UPS运营成本、UPS+配电设备的前期投资也将全部节省掉。此外锂电池的使用寿命达10-15年,对比铅酸电池4-6年的寿命,会节约近一半的成本投入。
阿里如何破解电池管理这道世界难题?
在汽车领域,特斯拉电动汽车的电池管理系统被多家汽车评测机构暴力拆解,最终得出的结论是,特斯拉电池管理系统是当前电动汽车行业中最好的。
回到数据中心,如何对数以万计的电池进行统一管理,是运营中的最大难题之一。
阿里巴巴IDC研发事业部高级技术专家刘水旺表示:“电动汽车释放的电能相对稳定并连续性,数据中心锂电池需要在很短的时间内提供特别大的电能,然后等待其它备电系统启动。从高可靠、高安全、长寿命,以及对数以万计的电池进行故障定位等指标看,数据中心面临的电池管理系统难题远大于电动汽车。”
对于电能输出,阿里采用的是直接可以为服务器供电的12V电池,断电瞬间可立即为服务器供电。针对电池故障定位问题,阿里复用了PSU接口协议,锂电池BBU采用了与服务器PSU同样的接口协议,所以数以万计的BBU可以平滑的沿用服务器PSU的管理系统,当BBU出现故障时,可以通过服务器运营平台进行故障定位,进而直接进行BBU的更换,这个过程快速准确。
从2011年发起天蝎计划,推动整机柜服务器在数据中心快速普及,到2017年推出互联网行业全球首个浸没液冷服务器集群,阿里巴巴一直在对数据中心的产品技术进行升级改革,作为发动机承载阿里巴巴电商、金融、制造、云计算、人工智能等业务及新技术发展。此次于业界率先推出的锂电池BBU服务器,或许会再次引领互联网数据中心以及电池行业的新一轮变革,开启一个新的数据中心供电时代。