继浸没液冷后,阿里再推国内首个锂电池服务器

简介:

双11购物狂欢节从2009年开始至今,每年巨大成交量的背后有数十万台服务器进行复杂的运算,处理着数亿次的交易。作为阿里巴巴集团的基础设施,数据中心、服务器、网络承担了大量的信息处理任务。阿里工程师一直从事着底层技术的研发,来提升数据处理的能力及信息的可靠性,从而使得承载着如此大数据处理能力的数据中心以及服务器持续优化达到性能最优。

094d1842c89a9453ecc938028247db4b8604f62b

为了降低数据中心PUE,节省能耗,提高服务器供电效率,阿里巴巴在服务器内部嵌入锂电池BBU(Battery Backup Unit),并在阿里数据中心进行部署,来支持双十一的业务运行。服务器内部一般有两个PSU(Power Supply Unit)对电压进行转换,重构后的服务器只会保留一个PSU,另一个PSU的位置将会插入一块锂电池BBU,当所有服务器内部均有一块锂电池BBU后,会形成数据中心分布式锂电池BBU系统。

该方案落地后,阿里巴巴将成为国内首家服务器级备电的互联网企业,成为和Google、微软同样拥有该备电技术的企业。

              

8be8b446fc2719619ff8ac62776d47bb7da7f3b9

图中左侧为阿里服务器内置锂电池BBU


在电力方面,绝大多数数据中心备用电源系统都是集中式UPS再加上铅酸电池,但这种集中式UPS供电方式在面对快节奏的互联网行业时,暴露出的问题越来越多,导致巨型互联网公司开始转向分布式锂电池BBU,尤以Google、阿里巴巴、微软为代表。

集中式UPS主要有以下四大硬伤:

  • 单台UPS设备故障会导致后端数十甚至数千个服务器机架断电,故障影响范围广
  • UPS电能转换次数多,供电效率低
  • UPS投资运营成本高,系统通常需要按照最大负载配置铜排、配电柜、断路器开关等配电设备,而大部分情况下服务器负载较低,造成基础设施配电线路浪费
  • 运维不方便,铅酸电池具有记忆特性,因此每年要人工对UPS做数次充放电测试检查电池老化程度,占用太多时间和人力成本

按照阿里巴巴的设计,外部供电一旦断电,安装在服务器内部的12V锂电池可以立即工作,为服务器提供12V电源支持,效率高达99%,接近理论最优值。对比传统UPS或者240V高压直流还需要做二次电压转换,效率提升8%以上,进而有效降低PUE达10%-15%。所以对于海量计算的数据中心这个省电容量是巨大的。

和UPS集中式部署不同的是,锂电池BBU最大一个好处是可以和服务器一起按需采购和建设,避免了传统UPS空置和利用率低,减少资金成本,能够提升15%数据中心整体交付时间。

在投资运营方面,以10KW级的数据中心为例,此前每年支出的数千万元UPS运营成本、UPS+配电设备的前期投资也将全部节省掉。此外锂电池的使用寿命达10-15年,对比铅酸电池4-6年的寿命,会节约近一半的成本投入。

阿里如何破解电池管理这道世界难题? 

在汽车领域,特斯拉电动汽车的电池管理系统被多家汽车评测机构暴力拆解,最终得出的结论是,特斯拉电池管理系统是当前电动汽车行业中最好的。

回到数据中心,如何对数以万计的电池进行统一管理,是运营中的最大难题之一。

阿里巴巴IDC研发事业部高级技术专家刘水旺表示:“电动汽车释放的电能相对稳定并连续性,数据中心锂电池需要在很短的时间内提供特别大的电能,然后等待其它备电系统启动。从高可靠、高安全、长寿命,以及对数以万计的电池进行故障定位等指标看,数据中心面临的电池管理系统难题远大于电动汽车。”

对于电能输出,阿里采用的是直接可以为服务器供电的12V电池,断电瞬间可立即为服务器供电。针对电池故障定位问题,阿里复用了PSU接口协议,锂电池BBU采用了与服务器PSU同样的接口协议,所以数以万计的BBU可以平滑的沿用服务器PSU的管理系统,当BBU出现故障时,可以通过服务器运营平台进行故障定位,进而直接进行BBU的更换,这个过程快速准确。

从2011年发起天蝎计划,推动整机柜服务器在数据中心快速普及,到2017年推出互联网行业全球首个浸没液冷服务器集群,阿里巴巴一直在对数据中心的产品技术进行升级改革,作为发动机承载阿里巴巴电商、金融、制造、云计算、人工智能等业务及新技术发展。此次于业界率先推出的锂电池BBU服务器,或许会再次引领互联网数据中心以及电池行业的新一轮变革,开启一个新的数据中心供电时代。


原文发布时间为:2017-11-16
本文作者:永不止步的
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”微信公众号
相关文章
|
8月前
|
Web App开发 算法 安全
什么是阿里云WoSign SSL证书?_沃通SSL技术文档
WoSign品牌SSL证书由阿里云平台SSL证书合作伙伴沃通CA提供,上线阿里云平台以来,成为阿里云平台热销的国产品牌证书产品。
2153 2
|
存储 关系型数据库 数据库
关系型数据库主键的唯一性
【5月更文挑战第15天】
232 1
|
10月前
|
存储 内存技术
【RAID磁盘阵列服务器数据恢复】华为OceanStor Dorado存储系统RAID-TP数据丢失数据恢复案例
客户报告其华为OceanStor Dorado存储系统的RAID-TP出现故障,导致数据丢失。RAID-TP是一种增强型RAID级别,包含数据磁盘、校验磁盘和转换磁盘,可在两个磁盘故障时仍保护数据。通过分析RAID结构与工作原理,我们制定了恢复方案:首先从校验磁盘读取信息并计算出丢失的数据块,接着将恢复的数据写入新磁盘。由于缺乏现成工具,需定制RAID重组程序以恢复数据。华为的动态RAID重构技术保证了重构过程中冗余级别的稳定。
146 1
|
10月前
|
监控 Java 应用服务中间件
分布式链路监控系统问题之Eagleeye的traceId设计的问题如何解决
分布式链路监控系统问题之Eagleeye的traceId设计的问题如何解决
304 1
|
XML Java API
23. 【Android教程】轮播滚动视图:ViewFlipper
23. 【Android教程】轮播滚动视图:ViewFlipper
435 2
|
12月前
|
安全 UED
麒麟的版本 V10 (Lance) V10 (Tercel) 有什么区别
【6月更文挑战第26天】麒麟的版本 V10 (Lance) V10 (Tercel) 有什么区别
7872 2
|
12月前
|
安全 程序员 C++
C++中的类型查询:探索typeid和type_info
C++中的类型查询:探索typeid和type_info
168 1
|
存储 Python
Python中的函数与模块:核心概念与实践
Python中的函数与模块:核心概念与实践
222 4
|
JavaScript 前端开发 API
使用Python和Vue构建多用户协作平台的终极指南
【4月更文挑战第11天】本指南介绍了如何使用Python和Vue.js构建多用户协作平台。首先确保安装Node.js、Python 3.x、pip和git。使用Flask搭建后端,设计RESTful API实现用户注册、登录等功能。前端利用Vue.js创建组件,结合Vuex和Vue Router处理状态管理和页面路由。通过Axios与后端通信,实现用户交互和数据同步。完成后进行测试,用Docker容器化应用并选择云服务部署。随着需求和技术发展,持续迭代和完善平台。
282 0
|
存储 SQL 关系型数据库
MySQL 利用 frm 文件和 ibd 文件恢复表结构和表数据
MySQL 利用 frm 文件和 ibd 文件恢复表结构和表数据
2310 0