【阅读原文】戳:磐久:下一代云计算基础设施
今天,数据中心早已走入云计算时代。面对数字化转型、东数西算、双碳等可持续发展要求,如何定义下一代云计算基础设施?
11月3日下午,2022云栖大会技术主论坛,阿里巴巴集团副总裁、阿里云基础设施负责人周明给出了答案:下一代基础设施是“Cloud Infrastructure As A Computer(云基础设施即计算机)的高性能基础设施”。
图 | 阿里巴巴集团副总裁、阿里云基础设施负责人周明
磐久基础设施小档案
磐久基础设施小档案
定义:Cloud Infrastructure As A Computer 的高性能基础设施
今天,阿里云已在全球四大洲28个国家和地区、85个可用区、超过2800个网络节点,运营超过百万台服务器,如此大的规模深刻改变了IT硬件体系、数据中心、芯片以及整个产业链,推动传统基础设施向下一代云计算基础设施演进,从单机到集群到Data Center,发展为“云基础设施即计算机”,支撑上层云产品向外输出各种应用能力。
特点:
■ 一体化的架构设计:底层是高性能基础设施资源,包括磐久数据中心、磐久服务器、磐久网络、磐久智维;中间层是数据中心、服务器、网络的一体化架构,高可用、低延迟的高性能网络架构PredFabric,结合模块化、标准化的Cube DC数据中心架构以及服务器方升架构形成了一体化数据中心设计,实现数据中心利用率的全局最优。
■ 高性能:从曾经单机单服务器的高性能,到整个集群、整个数据中心都是高性能,这也是为什么磐久基础设施被定义为“高性能的基础设施”。
■ 系统:磐久基础设施不只是一台硬件设备,而是软硬结合的系统。硬件包括自研的磐久服务器、自研交换机、高性能网卡,系统平台包括智慧运维大脑、震旦异构平台等,提供随意弹性的能力和异构算力原生、网络可预期、智能化运营等服务能力。
磐久高性能网络PredFabric
尾时延显著降低90%
面对近年来日益爆发的算力需求,简单粗暴的硬件堆砌已不可持续。虽然市面上许多AI硬件(包括GPU、FPGA等)的计算能力很强大,但当规模增长到一定程度时,网络性能便成了一个显著瓶颈,导致整体算力的下降。
为此,阿里云基础设施推出低延时、高带宽、可线性扩展的“磐久高性能网络PredFabric”,采用自研的Solar-RDMA高速网络协议,使处理器可以通过load/store指令访问其他任意服务器的内存,非常适合深度学习模型内神经网络的交互形态,相比传统模式故障自愈时间和长尾时延均可降低90%。同时,结合网络协议硬件化、芯片化,使整体性能得到极大提升,延时最低可至2微秒,并实现高算力下网络规模的线性扩展。
同时,将云服务器接入带宽提升一倍,达到了1.6Tbps,再配合上层的自研融合通信库ACCL,实现了在AI场景下的通信效率倍增,保障集群算力的线性输出,确保在大流量突发场景甚至部件异常的情况下,整个数据中心仍能保持稳定、高效的运转。
高性能计算能力
异构/池化/加速
磐久基础设施具备计算异构、资源池化和加速引擎三大计算能力。
震旦异构编译技术和vODLA算力原生技术,支持跨多种GPU平滑迁移,动态伸缩自适应多种业务SLA,面向算力编程,降低开发者门槛。异构通讯技术ACCL则结合自研硬件,可对大规模AI集群提供无拥塞、高性能的集群通讯能力,彻底消除网络拥塞,极致化网络通信效率,最大化分布式训练系统的扩展性。
巨大的基础设施体量支撑了云产品资源弹性、网络弹性、流量弹性的能力,而硬核的基础设施能力则提供了池化能力。在资源池化技术上,通过内存扩展、内存共享和内存池化,提升计算和内存利用率。高性能网络方面,超低时延网络承载总线语义,可将硬件资源池规模扩大10倍。
DC级最大的挑战,就是性能,包括处理时间等,阿里云基础设施研发了软硬件结合的加速引擎,从高性能网络加速、到高性能网关、到存储的压缩和加解密、以及图片和视频的编解码技术,从而综合提升基础设施在网络、存储等领域的性能,优化用户体验。
依托磐久高性能网络、磐久基础设施的高性能计算能力,今年8月底,高性能算力系统服务——灵骏智算产品正式亮相,基于阿里内部多年经验的积累,旨在以普惠、高效的计算服务,提高计算、训练效率,加速客户业务迭代。目前,该产品已在自动驾驶、基础科研、生物医药等领域提供服务。8月2日,阿里云和小鹏汽车在乌兰察布合作建成中国最大自动驾驶智算中心“扶摇”,使模型训练提速170倍。
推荐阅读:
此外,磐久智维为基础设施全领域构建了全流程智能化、数字化、全域统一联动的超大规模基础设施运维体系,是磐久基础设施高效、稳定运行的重要保障。
绿色算力
可持续发展
在绿色低碳方面,周明表示阿里云基础设施坚持投入节能技术的研发,自研单相浸没液冷技术,PUE低至1.09。2021年云栖大会发布的磐久服务器采用新型散热、供电架构,单机能耗降低10%,业界领先。同时,优化用能结构,积极推进数据中心使用清洁能源,在“2022中国企业绿电交易排行榜”中蝉联科技行业第一。2022年1~9月,阿里云五大数据中心交易使用清洁能源10.2亿千瓦时,减排二氧化碳77.4万吨,清洁能源使用比50%+。
在绿色运营上,数据中心能源&碳管理平台覆盖全球上百个数据中心,超百万台服务器,累计盘查超千万吨碳排放,为阿里云提供数字化碳足迹,为云上客户提供碳账单。
在2030年全面实现碳中和的承诺背景下,2022年,阿里云五大数据中心都已引入清洁能源。“绿色是检验数据中心的黄金标准。”周明表示,阿里云将持续加强绿色自研技术创新投入,积极开展清洁能源电力交易,推动数据中心减碳增效。
云计算是各行各业走向数字化的重要基础设施,作为云计算的坚实技术底座,下一代的云计算基础设施——磐久基础设施是“Cloud Infrastructure As A Computer的高性能基础设施”。阿里云基础设施将持续推动技术创新,以领先的技术能力为云计算提供绿色、稳定、高性价比的云资源,为了无法计算的价值!
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~