“云上超算”的愿景,阿里云高性能、异构计算抢先实现了。

简介: 阿里云新推出E-HPC、构建“云上超算”,实际上是阿里云异构计算在HPC领域的一次全新实践。9月12日,除了发布E-HPC,阿里云还发布了新一代GPU实例GN5i和新一代FPGA计算实例F2。

最初见到“超算平民化”的概念是在2009年《纽约时报》网络版刊登的一篇文章:
当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过云服务的形式来提供计算力的新模式成为可能。在当时看来,“云上超算”并不遥远,其所带来的“超算平民化”亦将带来超算发展的一场新的变革。

在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用——互联网服务、大数据应用、云计算、电子商务、视频服务等等。相比过去,超算这个主要用于科研机构的系统已经在“平民化”上迈进了一大步。

然而,“云上超算”的愿景一直未实现,更未曾进入规模商用。其中一个主要原因在于,云是一个虚拟化环境,很多对计算力、I/O有着苛刻要求的HPC用户对此嗤之以鼻。另一个问题是,到底是应该将HPC云化,还是应当做云化的HPC?亦或者说,“云上超算”这个目标,是该由云计算厂商来实现,还是应该由超算厂商来实现?

还好,现在已经有了答案。
为何是阿里云?

9月12日,阿里云发布了弹性高性能计算平台E-HPC,这是中国首个公共云上的“HPC as a Service”产品。阿里云首先将HPC放到了云上,迈出了“云上超算”规模化商用的第一步。为何?原因有三,其一是需求驱动,其二是本钱足够,其三是基因传承。

先看需求。
在过去,高性能计算用户为了获得HPC集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。这是一个庞大的系统工程,昂贵且周期漫长。

当然,不是所有HPC用户都有自建HPC集群的实力,过去大多数情况是用户租用超算中心的计算资源,但中国对外开放的超算中心着实不多,其中有些已经投入使用多年,计算力不足,任务作业经常需要排队,HPC用户无法获得理想的计算效率和灵活性。

所以,若能以云服务的模式来提供HPC的计算力,无疑能带给更多用户应用HPC的机会,大大拓宽HPC的应用范围,进一步推进HPC的平民化进程。

再看本钱。
在E-HPC发布当天,阿里云还发布了新的异构计算实例家族,涵盖GPU、FPGA在内等6款异构实例,这为“云上超算”的构建打下了雄厚的异构计算基础。此外,阿里云还具备丰富的弹性计算ECS资源、虚拟专用网VPC、高性能高可靠和横向扩展的NAS资源、HPC软件栈等资源。综合来看,对于构建“云上超算”,阿里云已经有了足够的技术和产品资本。

还有基因。
阿里云曾经在多个场合、不止一次的强调“使能”这个词。就如阿里云近年来不断升级ECS家族,其目标是为了“使能”更多的企业客户,让客户和阿里云ECS一同成长壮大。而阿里云推出弹性高性能计算平台E-HPC,其目的是降低HPC应用门槛,让更多的用户能够应用HPC,和阿里云的“使能”基因一脉相承。

对于E-HPC,阿里云资深专家何万青博士做了一个形象的比喻:如果把传统超算中心比作“珠穆朗玛峰”,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,是高性能计算的“青藏高原”。“我们既需要‘珠穆朗玛峰’,也要让更多的人在‘青藏高原’上做创新。”

所以,阿里云在首先推出“云上超算”这件事儿上,可谓万事俱备,东风亦至。

轻轻一点,生成“云上超算”

  据何万青博士介绍,E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。
   E-HPC有着四大特点:便捷、互通、弹性、安全。
在发布会现场,何万青博士现场演示了“云上超算”的搭建过程——只需三步:硬件配置、软件配置、基础配置,即可生成一套用户专属的HPC集群,时间不过几分钟。“你不用了解超级计算机是怎么设计的,只要点几下鼠标,然后得到的就是超级计算机。”

用户从E-HPC不仅能够获得并行计算能力,还能获得常用的开发工具、性能库和常用的HPC应用。如gcc、g++、gfortran等基础软件,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能运行时库,以及计算化学、气候气象、生命科学、材料力学、分子动力学等领域行业软件,用户登录E-HPC直接可用。E-HPC本身作为一个PaaS平台,所有的资源随着阿里云的产品丰富是不断的往上迭代的,E-HPC会随着产品的不断丰富而进化。未来阿里云会联合行业合作伙伴打造行业解决方案交付给用户,让E-HPC实现平台化,不断扩大“云上超算”的应用生态。

在弹性方面,E-HPC用户不仅可以根据需求自动增减节点,还能将本地HPC集群通过虚拟局域网专线接入E-HPC,通过一种混合云的方式来扩充计算能力,这种灵活性是传统HPC集群无法实现的。

而在安全方面,E-HPC采用了多项安全设计来保证安全访问和数据可靠性。例如,E-HPC采用了安全组访问控制,并提供了VPC专有网络,通过管控空间和用户空间分离,保证多租户间数据安全隔离;同时E-HPC的NAS平台提供了10个9的数据可靠性。
10月12日,E-HPC将在全球同步上线,未来整个HPC产业是否会出现新的变局?非常值得期待。

异构计算能力再升级
阿里云新推出E-HPC、构建“云上超算”,实际上是阿里云异构计算在HPC领域的一次全新实践。9月12日,除了发布E-HPC,阿里云还发布了新一代GPU实例GN5i和新一代FPGA计算实例F2。

至此,阿里云异构计算家族已经包括GPU、FPGA在内的6款异构实例,已经能够满足图形渲染、人工智能和高性能计算等领域的复杂计算需求,阿里云异构计算能力再度升级。

阿里云异构计算家族已经全面覆盖GPU和FPGA实例。GPU方面包括AMD和NVIDIA实例,FPGA方面包含Intel和赛灵思实例,6款异构计算实例能够全面覆盖图形图像、机器学习、科学计算等异构计算应用场景。

GA1:今年1月推出,专为图形渲染计算而设计的实例,提供最高4颗AMD S7150 GPU的配置,最高达到15TFLOPS浮点计算能力,其亮点在于兼容OpenGL DirectX等主流图形渲染API,同时支持GPU分片虚拟化,从而达到成本和计算力的平衡。在大部分视觉渲染计算中,GA1能够将成本降低 50%。

GN4:也是在今年1月推出的GPU异构计算实例。单实例最大提供了2颗 NVIDIA M40 GPU,达到14 TFLOPS 单精度浮点运算处理能力。适用于机器学习、流体力学计算、基因组学、地震分析、分子建模、金融计算以及其他需要强大并行浮点计算能力的服务器端业务场景。

GN5:今年6月推出,面向深度学习和高性能计算的实例,具有强大计算力。最高支持8颗NVIDIA P100 GPU,浮点运算最高75TFLOPS。相比上一代的异构实例GN4,GN5的双精度浮点性能提升了94倍(适用于科学计算),单精度浮点性能提升5.4倍(适用于深度学习),兼容TensorFlow、Caffe等主流深度学习框架。

GN5i:阿里云新发布的异构实例,主要适用于深度学习的在线推理(Inference)阶段。配置NVIDIA P4 GPU,INT8 整型计算能⼒达45TFLOPS,可一键部署TensorFlow等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务。人工智能产业用户可通过GN5i搭建微秒级响应的AI服务,在线服务成本减少50%以上。

除了GPU实例,阿里云也将目光投向了不断升温的FPGA。阿里云高级技术专家龙欣表示,GPU本身的数据位宽是固定的,相比GPU,FPGA更适合非标数据位宽的深度学习、金融分析、基因匹配、物联网数据库等领域。FPGA就像专用计算中的多面手,堪称搭建任意数字器件的“云上积木”。

F1:是今年1月阿里云推出的首款FPGA异构计算实例,现已全面升级。采用Intel A10芯片,单块FPGA配有16GB DDR4内存,专用 PCI-Express x8 接口,具有近1518个DSP引擎,近115万个逻辑元素,单精度浮点计算最1.5TFLOPS、INT8整数运算最高4.8TOPS。升级后的F1实例提供了开发组件的全面支持,增强了安全保护机制,并从原来的只能支持RTL的开发升级为支持RLT和openCL的开发。

F2:新发布的FPGA异构计算实例,基于Xilinx(赛灵思)硬件可编程芯片打造,具有145万个逻辑单元,5520个DSP引擎,16GB 4通道内存,单精度浮点计算最高1.5TFLOPS,INT8整数运算最高5.25TOPS。F2实例可在云上实现FPGA加速业务的快速研发、安全分发、一键部署和弹性伸缩,为人工智能产业提供加速服务,在特定场景下的处理效率比CPU高30倍。

相对GPU,FPGA开发有着更高的门槛。为简化用户使用FPGA、分发FPGA、部署FPGA、运维FPGA的业务流程,阿里云还推出了FPGA镜像市场,在云上提供了在线的开发模拟调试的环境,厂商和用户可以在市场上分发、部署定制化加速算法,阿里云的安全能力为镜像保驾护航。目前,已有数十家厂商正在进驻。“这是阿里云构建FPGA生态的重要一环”,龙欣表示。

凭借这六款异构计算实例,阿里云已经能够覆盖大部分的异构计算场景,但对于云上的异构计算服务来说,仅有丰富的实例还不够。阿里云异构计算负责人张献涛表示,要在云上提供异构计算服务,除了异构计算实例外,业务永续、高性能、性价比、弹性,缺一不可。

从去年开始,阿里云整个基础设施层面全面升级,IDC可以达到5个9的可用性,让客户业务永续;为支持客户业务的全球化的部署,阿里云在全球部署了一张高可用的骨干网,通过多线的BGB接入保障网络不中断,同时让客户的业务全球互联互通。在软件服务层,阿里云网络虚拟化也已经升级到第二代,适应了25Gb网络,能够支撑阿里云业务在网络方面获得极高的PPS和带宽。

张献涛表示,阿里云在海外已经部署了多个数据中心,美国、澳洲、德国、新加坡,异构计算服务也随着IDC的全球化部署覆盖到全球;在国内,华为、华南、华东、香港数据中心也做了异构计算服务的部署,阿里云希望从计算服务、引擎、平台、服务、场景解决方案、生态等方面,全方位“使能”用户。

打开未来的大门,异构计算与高性能计算,是打开未来的两把钥匙。

第四次工业革命正在到来,这次革命将以大数据为核心,以人工智能为代表;而在即将到来的智能社会,高性能计算与人类生活的关系也将更加密切,从天气气象、生物制药、基因工程、航空航天等科研领域到新兴的深度学习和人工智能,高性能计算都将扮演关键角色。

不管是人工智能,还是高性能计算,都需要强大的计算力作为支撑,而异构计算则是提升计算力最为可行的途径。不难预见,未来异构计算将覆盖更多的应用和更多的行业,也将有越来越多的用户需要异构计算——这势必将掀起一轮异构计算平民化的新浪潮,而云计算则是成就这次变革的基石。

打造全面的云上异构计算服务、首推“云上超算”E-HPC,阿里云可谓是已经找到了这两把通往未来的钥匙。
来自it圈儿里人的精彩分享。了解更多,可以查看:text

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
块存储
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——技术理念升级
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——技术理念升级自制脑图
184 2
|
块存储
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——性能提升
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——性能提升自制脑图
198 1
|
块存储
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——技术升级和探索
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——技术升级和探索自制脑图
176 1
|
块存储
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——构筑应用-云-边-端一体的智能云网络
阿里云最新产品手册——阿里云核心产品——块存储——飞天洛神3.0——云网络发展历程——云网络3.0时代——构筑应用-云-边-端一体的智能云网络自制脑图
221 1
|
达摩院 运维 5G
云化5G再提速!阿里达摩院研发超轻量核心网,让普惠5G走进中小企业
11月5日,2022杭州云栖大会上,阿里达摩院XG实验室自研超轻量5G核心网设备亮相,升级多项云化能力,向5G云网融合迈出了扎实一步。使用XG核心网设备,可大幅降低5G网络部署及运维压力,整体成本下降70%,功耗低至100w,有望帮助更多中小企业快速用上5G。
683 0
云化5G再提速!阿里达摩院研发超轻量核心网,让普惠5G走进中小企业
|
存储 人工智能 供应链
磐久服务器云栖再创新 高密计算和算力原生已成趋势
2022云栖大会,服务器分论坛精华全分享~
磐久服务器云栖再创新 高密计算和算力原生已成趋势
|
存储 人工智能 运维
智慧算力的基础设施峰会:关注行业趋势、磐久2.0 正式亮相
智慧算力的基础设施峰会:关注行业趋势、磐久2.0 正式亮相
智慧算力的基础设施峰会:关注行业趋势、磐久2.0 正式亮相
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀
|
机器学习/深度学习 弹性计算 人工智能
阿里云弹性计算首席架构师分享云上应用架构演进三大方向
从基础设施和应用层出发,依托云计算构建更可靠、更敏捷和更智能的IT架构,将为企业释放巨大技术红利。
阿里云弹性计算首席架构师分享云上应用架构演进三大方向
|
算法 云计算 数据中心
阿里云丨洛神·云网络 发布业界首本《云计算公网质量白皮书》
阿里云丨洛神·云网络基于用户体验,将云数据中心的公网质量从理论上拆解为多个可量化的维度进行分析,结合具体的实践,发布业界首本《公网质量白皮书》,旨在为国内企业出海提供理论和实践参考。
35730 1
阿里云丨洛神·云网络 发布业界首本《云计算公网质量白皮书》