磐久:下一代云计算基础设施

简介: 磐久:下一代云计算基础设施

首图-图标.png


【阅读原文】戳:磐久:下一代云计算基础设施


今天,数据中心早已走入云计算时代。面对数字化转型、东数西算、双碳等可持续发展要求,如何定义下一代云计算基础设施?


11月3日下午,2022云栖大会技术主论坛,阿里巴巴集团副总裁、阿里云基础设施负责人周明给出了答案:下一代基础设施是“Cloud Infrastructure As A Computer(云基础设施即计算机)的高性能基础设施”。


主论坛主图.png

图 | 阿里巴巴集团副总裁、阿里云基础设施负责人周明



磐久基础设施小档案

磐久基础设施小档案

定义:Cloud Infrastructure As A Computer 的高性能基础设施


今天,阿里云已在全球四大洲28个国家和地区、85个可用区、超过2800个网络节点,运营超过百万台服务器,如此大的规模深刻改变了IT硬件体系、数据中心、芯片以及整个产业链,推动传统基础设施向下一代云计算基础设施演进,从单机到集群到Data Center,发展为“云基础设施即计算机”,支撑上层云产品向外输出各种应用能力。


特点:


 一体化的架构设计:底层是高性能基础设施资源,包括磐久数据中心、磐久服务器、磐久网络、磐久智维;中间层是数据中心、服务器、网络的一体化架构,高可用、低延迟的高性能网络架构PredFabric,结合模块化、标准化的Cube DC数据中心架构以及服务器方升架构形成了一体化数据中心设计,实现数据中心利用率的全局最优。


■  高性能:从曾经单机单服务器的高性能,到整个集群、整个数据中心都是高性能,这也是为什么磐久基础设施被定义为“高性能的基础设施”。


■  系统:磐久基础设施不只是一台硬件设备,而是软硬结合的系统。硬件包括自研的磐久服务器、自研交换机、高性能网卡,系统平台包括智慧运维大脑、震旦异构平台等,提供随意弹性的能力和异构算力原生、网络可预期、智能化运营等服务能力。


阿里云基础设施.jpg



磐久高性能网络PredFabric

尾时延显著降低90%


面对近年来日益爆发的算力需求,简单粗暴的硬件堆砌已不可持续。虽然市面上许多AI硬件(包括GPU、FPGA等)的计算能力很强大,但当规模增长到一定程度时,网络性能便成了一个显著瓶颈,导致整体算力的下降。


为此,阿里云基础设施推出低延时、高带宽、可线性扩展的“磐久高性能网络PredFabric”,采用自研的Solar-RDMA高速网络协议,使处理器可以通过load/store指令访问其他任意服务器的内存,非常适合深度学习模型内神经网络的交互形态,相比传统模式故障自愈时间和长尾时延均可降低90%。同时,结合网络协议硬件化、芯片化,使整体性能得到极大提升,延时最低可至2微秒,并实现高算力下网络规模的线性扩展。


同时,将云服务器接入带宽提升一倍,达到了1.6Tbps,再配合上层的自研融合通信库ACCL,实现了在AI场景下的通信效率倍增,保障集群算力的线性输出,确保在大流量突发场景甚至部件异常的情况下,整个数据中心仍能保持稳定、高效的运转。



高性能计算能力

异构/池化/加速


磐久基础设施具备计算异构、资源池化和加速引擎三大计算能力。


震旦异构编译技术和vODLA算力原生技术,支持跨多种GPU平滑迁移,动态伸缩自适应多种业务SLA,面向算力编程,降低开发者门槛。异构通讯技术ACCL则结合自研硬件,可对大规模AI集群提供无拥塞、高性能的集群通讯能力,彻底消除网络拥塞,极致化网络通信效率,最大化分布式训练系统的扩展性。


巨大的基础设施体量支撑了云产品资源弹性、网络弹性、流量弹性的能力,而硬核的基础设施能力则提供了池化能力。在资源池化技术上,通过内存扩展、内存共享和内存池化,提升计算和内存利用率。高性能网络方面,超低时延网络承载总线语义,可将硬件资源池规模扩大10倍。


DC级最大的挑战,就是性能,包括处理时间等,阿里云基础设施研发了软硬件结合的加速引擎,从高性能网络加速、到高性能网关、到存储的压缩和加解密、以及图片和视频的编解码技术,从而综合提升基础设施在网络、存储等领域的性能,优化用户体验。


依托磐久高性能网络、磐久基础设施的高性能计算能力,今年8月底,高性能算力系统服务——灵骏智算产品正式亮相,基于阿里内部多年经验的积累,旨在以普惠、高效的计算服务,提高计算、训练效率,加速客户业务迭代。目前,该产品已在自动驾驶、基础科研、生物医药等领域提供服务。8月2日,阿里云和小鹏汽车在乌兰察布合作建成中国最大自动驾驶智算中心“扶摇”,使模型训练提速170倍。

推荐阅读:

阿里云新一代智能计算:灵骏来了!


此外,磐久智维为基础设施全领域构建了全流程智能化、数字化、全域统一联动的超大规模基础设施运维体系,是磐久基础设施高效、稳定运行的重要保障。



绿色算力  

可持续发展


在绿色低碳方面,周明表示阿里云基础设施坚持投入节能技术的研发,自研单相浸没液冷技术,PUE低至1.09。2021年云栖大会发布的磐久服务器采用新型散热、供电架构,单机能耗降低10%,业界领先。同时,优化用能结构,积极推进数据中心使用清洁能源,在“2022中国企业绿电交易排行榜”中蝉联科技行业第一。2022年1~9月,阿里云五大数据中心交易使用清洁能源10.2亿千瓦时,减排二氧化碳77.4万吨,清洁能源使用比50%+。


在绿色运营上,数据中心能源&碳管理平台覆盖全球上百个数据中心,超百万台服务器,累计盘查超千万吨碳排放,为阿里云提供数字化碳足迹,为云上客户提供碳账单。


4F930E40-A494-42AB-A8EB-C2E2EACFA803.png


在2030年全面实现碳中和的承诺背景下,2022年,阿里云五大数据中心都已引入清洁能源。“绿色是检验数据中心的黄金标准。”周明表示,阿里云将持续加强绿色自研技术创新投入,积极开展清洁能源电力交易,推动数据中心减碳增效。


云计算是各行各业走向数字化的重要基础设施,作为云计算的坚实技术底座,下一代的云计算基础设施——磐久基础设施是“Cloud Infrastructure As A Computer的高性能基础设施”。阿里云基础设施将持续推动技术创新,以领先的技术能力为云计算提供绿色、稳定、高性价比的云资源,为了无法计算的价值!



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。


相关文章
|
7月前
|
存储 安全 开发工具
【计算巢】云计算:如何改变现代企业的IT基础设施
【5月更文挑战第31天】本文探讨了云计算如何重塑现代企业IT基础设施,通过IaaS、PaaS和SaaS三种服务模型提供灵活资源。云计算的优势在于灵活性、成本效益、可扩展性和高可用性。文中以Python和AWS SDK创建EC2实例为例,说明云计算应用,并列举了数据存储、灾难恢复、应用程序部署和企业协作等实际场景,强调云计算正成为企业的重要选择,未来将持续创造价值。
128 0
|
2月前
|
存储 人工智能 弹性计算
阿里云何川:云计算,为数据基础设施的建设提速|数据对话
中国信通院工业互联网与物联网研究所特别策划“数据对话”专题,旨在通过专家的深度分析和独特视角,回答社会关切话题,探讨前沿技术和应用趋势。
|
2月前
|
机器学习/深度学习 边缘计算 人工智能
云计算的未来:重塑技术基础设施
【10月更文挑战第7天】云计算的未来:重塑技术基础设施
|
1月前
|
存储 边缘计算 5G
|
2月前
|
存储 人工智能 弹性计算
阿里云何川:云计算,为数据基础设施的建设提速|数据对话
中国信通院工业互联网与物联网研究所特别策划“数据对话”专题,旨在通过专家的深度分析和独特视角,回答社会关切话题,探讨前沿技术和应用趋势。本期,我们邀请到阿里云弹性计算产品运营与生态合作负责人何川,围绕云计算如何加速数据基础设施建设及其未来发展趋势展开探讨。
|
7月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
1100 0
|
6月前
|
边缘计算 人工智能 安全
云计算在现代企业运营中已经成为不可或缺的基础设施
【6月更文挑战第22天】云计算在现代企业运营中已经成为不可或缺的基础设施
92 6
|
7月前
|
运维 安全 Devops
云计算环境下的网络安全策略与挑战构建高效稳定的云基础设施:DevOps与自动化运维实践
【5月更文挑战第27天】 随着企业数字化转型的加速,云计算已成为支撑现代业务架构的关键基础设施。然而,数据存储和服务交付模式的转变也带来了新的安全风险和挑战。本文探讨了在云计算环境中实现网络和信息安全的策略,并分析了当前面临的主要安全威胁。通过深入剖析云服务模型、加密技术、身份认证机制及合规性要求,我们提出了一系列创新的安全框架和解决方案,旨在为组织提供全面的安全防护,同时促进云计算资源的高效利用。
|
7月前
|
运维 持续交付 云计算
云计算中的基础设施自动化:IaC(基础设施即代码)的崛起与实践
云计算中的基础设施自动化:IaC(基础设施即代码)的崛起与实践
267 0
|
存储 Shell API
「云计算」什么是不可变的基础设施?
「云计算」什么是不可变的基础设施?