浪潮POWER 9:英特尔的挑战者

简介: 英特尔在推出至强处理器,进入服务器市场后,依靠其在桌面电脑上建立起来的生态平台和对技术的持续改进,在成本和性能上实现了对 RISC 芯片的超越,几乎垄断了数据中心 CPU 市场。

微信图片_20211130164040.jpg

IBM 的 POWER 与 Intel Xeon、AMD EPYC 是目前服务器市场上的三种主要处理器类型。


英特尔在推出至强处理器,进入服务器市场后,依靠其在桌面电脑上建立起来的生态平台和对技术的持续改进,在成本和性能上实现了对 RISC 芯片的超越,几乎垄断了数据中心 CPU 市场。


然而,到了人工智能时代,英特尔开始遭遇挑战。


单纯以 CPU 为核心的数据中心部署已经不能很好地满足并行灵活计算、多变环境的计算需求。


2013 年,IBM 与 Google、英伟达等共同创立 OpenPOWER 联盟,通过联盟及生态的模式促进 POWER IP 的使用和相关技术开发。四年来,OpenPOWER 不断发展壮大,腾讯、阿里、中移动、中石油等越来越多的中国核心企业也开始加入 OpenPOWER 联盟。


去年 12 月,IBM 发布了最新设计的 POWER9 处理器。POWER9 处理器在新技术上采用了 PCIe4.0、CAPI、NVLink、高主频、更极限的芯片设计。在系统级也采用了面向市场需求的高可用设计,40 层主板的设计,更高效率的散热技术,通过把这些先进技术进行整合,从而给高端客户和行业客户提供了更加差异化的选择。


微信图片_20211130164036.jpg

POWER9 处理器


在纵向扩展(Scale-up)平台、关键应用事务处理云化的过程中,能够提供更高性能、更可靠、更少安全问题的虚拟机。在横向扩展(Scale-Out)领域提供的计算平台面向异构计算,有着更高内存带宽、更多互联等技术特点,使得 POWER 平台在计算层面的竞争上有一定的技术优势。


有观点认为,POWER 9 将会是目前最有机会挑战英特尔的产品。


浪潮商用成立,负责 POWER 服务器业务


去年 9 月,浪潮信息与 IBM 合资成立了浪潮商用机器有限公司(IPS),IBM 将在中国大陆的 POWER 服务器业务完全交由浪潮商用运营。2018 年 5 月初,浪潮商用机器正式运营。


9 月,浪潮商用机器宣布搭载全新 POWER9 处理器的 FP5295G2 服务器正式全面上市。该款服务器搭载 NVIDIA Tesla V100 GPU,嵌入 PCIe 4.0、NVIDIA NVLink 和 OpenCAPI,采用 POWER AI,被称为「首个真正意义上基于 POWER9 芯片专为 AI 而生的基础架构平台」。


10 月,浪潮商用机器正式推出基于 POWER9 处理器的全线新产品及解决方案。


微信图片_20211130164033.jpg

浪潮商用机器发布 POWER9 全线新品


整个产品线涵盖了面向纵向扩展(Scale-up)的系列产品,主要是 K1 Power E980、K1 Power E950 这 2 款企业级服务器搭载全新 Power9 芯片,将以高性能、高稳定性与卓越的定制服务为企业关键应用搭建核心承载平台;以及 K1 Power S914、K1 Power S922、K1 Power S924、K1 Power L922、FP5280G2、FP5290G2、FP5295G2 等 7 款横向扩展(Scale-Out)服务器,面向企业多样的数据密集型业务需求,提供针对数据和认知的基础架构。


「作为 POWER 平台的服务器供应商,如何提供最好的算力是我们的分内职责。」浪潮商用机器有限公司 POWER 服务器产品经理张锋表示。


微信图片_20211130164031.jpg

浪潮商用机器有限公司 POWER 服务器产品经理张锋


他介绍,POWER 服务器以及 POWER 处理器芯片在技术上一直是非常领先的,达到了「教科书级别」,POWER 9 依然保持了技术领先性:


「我们采用 14nm 的工艺生产 CPU,我们整个 CPU 里只有 70 层的芯片结构,单处理器能够最高达到 22 核,单处理器最高能到 3.8GHz,它还分大核小核,大核支持单核八线程,小核支持单核四线程,这些单核线程都远远高过 x86 的单核两线程。POWER 有更多的 L3 缓存 cache。更多的 cache 能够带来更好的指令的 miss,提高它的命中率、提高它性能的 performance。POWER 有 110M 的缓存,而 x86 平台只有 38.5M。」


「POWER 9 是最好的 AI 平台。」浪潮商用机器有限公司解决方案部总经理吴楠曾表示,「我们最为领先的微主机架构带来了四倍于差不多平台的线程数,以及高达 230G 的一个稳定的内存带宽。综合起来,POWER9 的计算能力能够达到 x86 最高端处理器的两倍以上。」


在张锋看来,一个产品要想在市场上获得成功,除了技术优势,还要有生态优势。


他说,不可否认,x86 最近几年在生态合作上取得了非常大的成功,很多的数据中心里都采用 x86 的平台。


但近几年,POWER 也在不断地迁移和变革生态环境。「甚至,面向 AI 领域、AI 时代、大数据时代转型,POWER 会比 x86 更加开放、更加积极」。


POWER 建立了 OpenPOWER 基金会,让客户(如 Google)、合作伙伴(如 NVIDIA、浪潮)统统加入,以完善整个生态系统。在开源软件上,OpenPOWER 基金会也做出了自己的努力:目前现在最热门的 Hapoop、Spark 平台都有 POWER 平台的架构;现在最流行的 Coffe、TensorFlow 计算框架也有 POWER 平台的框架。浪潮还和中国科学院成立共同的实验室,创办浪潮商用机器。


他说,这些举措都是在培养、完善 POWER 在云、在 AI 时代的生态环境。


张锋还表示,「POWER AI 的一些平台可以直接利用我们的开源软件,也就意味着,POWER 是一个非常开放的生态架构。我们希望,一个非常开放的架构能够让我们的客户、ISV、云服务商充分享受到开源生态环境以及 OpenPOWER 基金会这样一个合作生态组织给大家带来的便利性,让我们 POWER 在生态领域有更好的融合。」


人工智能时代给算力提出了新需求,浪潮商用机器如何应对?


人工智能时代给浪潮商用机器带来的,除了机遇,也有挑战。


目前,企业 AI 化的需求不断加深,需要有非常强大的计算平台来有力支撑线上推理和线下训练。这对数据中心的部署提出了更高的需求,包括兼容性完备的 AI 架构、优化的 AI 计算平台以及更加高效的计算架构。


要获得一份调教好的 AI 计算结果,涉及到数据预处理、模型训练、识别推理等阶段。数据预处理,对 I/O 接口要求较高;模型训练阶段,并行计算量很大,且通信也相对密集;推理识别阶段,则需要较高的吞吐处理能力和对单个样本低延时的响应。


在张锋看来,目前,算力还存在三个短板:第一个是 CPU 取数的速度,这是打破数据存储墙的需求;第二个是 CPU 拿到的数据怎么和 GPU 交换,GPU 处理完了以后怎么分发给其他的 GPU 进行交换;第三个是怎么在一个短短的、有限的空间里提升算力。


浪潮商用机器的应对之策是,确立了三个发展方向:第一,在单位空间内提升计算密度;第二,通过计算的可伸缩性,为不同的平台(训练/推理平台)提供算力;第三,通过体系结构的变更,让客户体会到更先进的、计算架构层面的不同。


今年 9 月,浪潮商用机器推出 FP5295 服务器,张锋称之为「面向企业人工智能最佳的一款平台」。


微信图片_20211130164027.jpg

浪潮 POWER FP5295G2 服务器


他总结了这款服务器的三个优势:


一、架构的竞争是首要的竞争,架构的领先将会带来极大的计算力优势。这款服务器采用了 NVLink 全互联架构,能够让 CPU 和 CPU、CPU 和 GPU、GPU 和 GPU 之间实现内存地址一致性,「也就是首次把 CPU 和 GPU 放在同等的算力地位上」。整个服务器的内存空间地址为全体计算单元所共享。


「这能够让我们整个平台的算力得到非常大的提升,同时让我们的用户在编程模型上得到极大的释放。这是浪潮商用服务器的 POWER 服务器在平台架构上相较于 x86 最显著的优势。」


二、这款平台是业界最先进的 CPU 和业界最强悍的 GPU 之间的一个联合实践。FT5295G 服务器采用了 POWER9 处理器,它最大的特点是支持 NVLink 300G/秒的全互联速度,这能够让我们的 GPU 和 CPU 发挥最大的计算效率。它提供单机 4 到 6 个 V100 GPU,支持最新的 32G 缓存的 GPU,单 GPU 的浮点运算能力能达到 15.7 TFLOPS,整机能够提供 500 万的 Tensor 性能,这样能够让训练平台得到充分的计算力的保障。


三、是企业就绪特性。在 POWER 服务器平台上,利用 POWER AI 架构,企业能够轻松地面向 AI 进行转型。因为 POWER AI 的架构里集成了所有业界最先进、最热门的 AI 计算框架,包括 Caffe、TensorFlow 等。企业可以根据自身需求在一个节点上逐渐地把自己的 AI 平台框架搭建起来,并无缝地迁移到成千上百个计算节点上去。

「我们相信,这一款平台能够让企业、让我们的 HPC 用户得到更多的性能体验。」


多元化的合作模式


今年 9 月份,第四范式携手浪潮商用机器在京联合发布了 AI 软硬件一体机产品「Prophet AIO」。同时,双方正式宣布成立 AI 一体机联合实验室,以加速 AI 在用户需求及产品研发的落地进程。


微信图片_20211130164023.jpg


针对双方的合作,第四范式联合创始人兼首席架构师胡时伟如是说:「我们发现,浪潮商用在硬件方面的追求和我们在 AI 软件平台方面的追求惊人的一致,我们都预期给客户提供最先进、并且能够最好地支撑新技术发展的解决方案。


我们在 POWER 身上发现了目前可能地球上最大的总线带宽和最先进的技术。并且,我们需要的是,在一个平台横向拓展、支持尽可能多的应用,采用统一的模式去运行,而 POWER 在虚拟化和可扩展方面也走在了所有技术的前列。所以大家可以说是一拍即合。」


张锋表示:互联网以及互联网的新兴企业的成长性是非常好的。过去十年,浪潮和互联网公司共同成长,总结出了一套 JDM 模式(Joint Design Manufacture,联合开发定制模式)。「互联网客户非常了解自己的需求,而浪潮商用机器公司能够把互联网企业的这些需求、平台构想迅速地落地,实现针对某一种应用场景的最佳的计算平台。」


在 AI 的大潮下,他们坚信,互联网以及 AI 公司有自己独特的、为客户提供价值的平台和路径。「比如第四范式的先知平台,我们可以为它去定制更好的、基于金融反诈骗的平台系统、学习训练系统或者推理系统。」


此外,他们也在和银行、电信等领域的客户做联合定制的开发。


张锋介绍,浪潮正和位于上海的一家金融机构做云平台的整合,向他们提供更好的整机柜型的服务器。也在和电信行业做一些基于 NFE 平台的定制和开发。


「浪潮商用机器有限公司会利用 JDM 模式与我们的客户强强配合,让我们的客户、终端用户体验到浪潮在平台上、POWER 的先进性,以及在平台上迅速地转化成生产力。」张锋说。


还有值得一提的点是,浪潮商业机器的服务器生产已经完全实现了本地化生产。


吴楠曾在一个会议上介绍,他们在济南开辟了一条年产 100 万台服务器的生产线,专供 POWER 服务器的生产。


「这个服务器的生产线是我们最先进的、无人的、全自动的生产线,其中有 370 多个质量检测点,生产的质量和我们以往交付给客户的产品质量是保持如一的。」


所有设备的交期从原来 40 多天缩短到不到一周,还能给客户按需定制产品,「客户的一些独特的需求都可以在我们生产线上得到实现。」


除了本地化生产的落成,也有了本地化服务。


吴楠表示,「我们服务的本地化也会带来服务质量和服务效率的提升。我们的备品备件都会实现本地化的交付,提高维修和响应的速度。」


这就是浪潮商用机器目前的优势。



相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
NoSQL 算法 安全
Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题
Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题
701 0
|
存储 缓存 Linux
Linux内核学习(九):linux内核的特殊文件系统-debugfs、ftrace、sys
Linux内核学习(九):linux内核的特殊文件系统-debugfs、ftrace、sys
513 0
|
缓存 Linux 开发工具
CentOS 7- 配置阿里镜像源
阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助 :2、查看不同版本的系统操作: 下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.
261278 0
|
Linux 数据安全/隐私保护 Perl
CentOS7中升级OpenSSL详细教程
这篇文章提供了在CentOS 7系统中升级OpenSSL到3.2版本的详细步骤,包括备份现有配置、安装依赖、下载安装新版本以及验证安装结果。
3079 3
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
1001 1
|
SQL 关系型数据库 数据库
PostgreSQL性能飙升的秘密:这几个调优技巧让你的数据库查询速度翻倍!
【10月更文挑战第25天】本文介绍了几种有效提升 PostgreSQL 数据库查询效率的方法,包括索引优化、查询优化、配置优化和硬件优化。通过合理设计索引、编写高效 SQL 查询、调整配置参数和选择合适硬件,可以显著提高数据库性能。
2207 2
|
缓存 Linux Docker
【最新版正确姿势】Docker安装教程(简单几步即可完成)
之前的老版本Docker安装教程已经发生了变化,本文分享了Docker最新版安装教程,其他操作系统版本也可以参考官 方的其他安装版本文档。
11275 3
【最新版正确姿势】Docker安装教程(简单几步即可完成)
|
运维 监控 Linux
服务器管理面板大盘点: 8款开源面板助你轻松管理Linux服务器
在数字化时代,服务器作为数据存储和计算的核心设备,其管理效率与安全性直接关系到业务的稳定性和可持续发展。随着技术的不断进步,开源社区涌现出众多服务器管理面板,这些工具以其强大的功能、灵活的配置和友好的用户界面,极大地简化了Linux服务器的管理工作。本文将详细介绍8款开源的服务器管理面板,包括Websoft9、宝塔、cPanel、1Panel等,旨在帮助运维人员更好地选择和使用这些工具,提升服务器管理效率。
|
11月前
|
安全 网络协议 Linux
telnet在windows和linux上的使用方法
Telnet是一个简单且强大的网络工具,广泛用于远程管理和网络诊断。尽管存在安全风险,但在受控环境中,Telnet仍然是一个非常有用的工具。通过本文的介绍,您应该能够在Windows和Linux系统上安装并使用Telnet进行各种网络操作。
1981 18
|
Docker 容器
docker:记录如何在x86架构上构造和使用arm架构的镜像
为了实现国产化适配,需将原x86平台上的Docker镜像转换为适用于ARM平台的镜像。本文介绍了如何配置Docker buildx环境,包括检查Docker版本、安装buildx插件、启用实验性功能及构建多平台镜像的具体步骤。通过这些操作,可以在x86平台上成功构建并运行ARM64镜像,实现跨平台的应用部署。
8835 2