进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」

简介: 在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。

在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。


微信图片_20211202124233.jpg


正在美国丹佛举行的 SC2019 是全球超算领域最重要的高端学术交流活动之一。今年 SC 的主题是「超算已来(HPC is now)」。随着算力的不断提升,以及先进算法的不断落地,超级计算机早已不再是科学研究专用的工具,而是已经成为了我们生活当中不可或缺的基础设施。


Arm 架构服务器的火热当然少不了英伟达的参与。今年 6 月,英伟达就在德国宣布了与 Arm 全面合作的新计划:两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 Arm 架构,这一行动将为深度学习、高性能计算打开了一条全新道路。


在 SC2019 大会上,这一愿景得以实现。


推出基于 GPU 加速器的 Arm 服务器


在大会上,英伟达 CEO 黄仁勋宣布推出最新服务器平台设计,该平台可以使企业能够快速构建基于 GPU 加速器的 Arm 服务器,从而开辟新的高性能计算(HPC)时代,并满足越来越多的科学和工业应用。


微信图片_20211202124308.jpg


英伟达表示,该平台由硬件和软件构建块组成,可以满足 HPC 社区不断增长的需求,从而利用更广泛的 CPU 架构。它能够使超级计算中心、超大规模云运营商和企业将英伟达加速计算平台的优势与最新的基于 Arm 的服务器平台相结合。


为了构建该平台,英伟达与 Arm 及其生态系统合作伙伴(包括 Ampere、Fujitsu 和 Marvell)展开合作,以确保英伟达 GPU 可以与基于 Arm 的处理器实现无缝协作。该平台还得益于与 Cray 和 HPE 两家基于 Arm 的早期服务器提供商的大力合作。此外,许多 HPC 软件公司已使用 NVIDIA CUDA-X 库来构建可在 Arm 服务器上运行的 GPU 赋能的管理和监测工具。


该平台的首次亮相是在英伟达今年早些时候宣布将 CUDA-X 软件平台引入 Arm 之前。为了兑现这一诺言,英伟达将预览其与 Arm 兼容的软件开发套件,其中包括英伟达 CUDA-X 库和用于加速计算的开发工具。


致力于更广泛的 HPC 生态系统合作


除了使自己的软件兼容 Arm 外,英伟达还与 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 应用开发者密切合作,以将 GPU 加速的应用交付给 Arm。英伟达和其 HPC 应用生态系统合作伙伴已经编译了大量的代码,以将 GPU 加速引入到 Arm 平台上它们自己的应用。


此外,为了实现 Arm 生态系统,英伟达与 Canonical、Red Hat, Inc. 和 SUSE 等领先的 Linux 发行商以及业界领先的基础 HPC 工具供应商展开合作。 目前,世界领先的超级计算中心已开始测试基于 GPU 加速的 Arm 计算系统,这其中包括美国橡树岭和桑迪亚国家实验室、英国布里斯托大学和日本理化研究所。


英伟达希望能够成为 Arm 生态的一部分,在 HPC,云计算等领域贡献自己的力量。不过,英伟达的 Arm 生态目前主要专注于大规模计算的应用,在端侧领域,其和高通等公司的合作还不明确。


联合微软推出全球最大「云超算」


还记得英伟达 50 分钟训练 BERT 吗?英伟达和微软正希望把这样的强大算力带给更多人。


微信图片_20211202124338.jpg


除了在架构上的创新之外,英伟达和微软在大会上共同推出了基于 Azure 云服务的可扩展 GPU 加速型超级计算机 NDv2。新的微软 Azure NDv2 可以扩展到数百个用于复杂 AI 和高性能计算(HPC)应用的英伟达 Tensor Core GPU。 被构建用于处理要求最高和高性能的计算应用,Azure NDv2 的部署将使其跻身于世界上最快超级计算机之列,最多可提供 800 个在单个_Mellanox InfiniBand_后端网络上互通的英伟达 V100 Tensor Core GPU。它使客户首次可以按需租用整个 AI 超级计算机,并且其性能抵得上花费数月时间才能部署的大型本地超级计算机。


黄仁勋在会上表示:「现在,你可以启动一台 NDv2 实例,在 container 中抓取一个堆栈,并在 Azure 中启动它。这就是科学,真是太神奇了!


微信图片_20211202124343.jpg

黄仁勋宣布推出可在微软 Azure 云服务上使用的、GPU 赋能的超级计算机 NDv2。他表示:「这使得世界各地的科学家都可以拥有一台超级计算机。


性能优越,成本效益高


英伟达表示,NDv2 非常适合复杂的 AI、机器学习和 HPC 工作负载,并且与传统的基于 CPU 的计算相比,其可以提供显著的性能和成本优势。因此,需要快速解决方案的 AI 研究人员可以在短短几个小时内快速启动多个 NDv2 和训练复杂的对话型 AI 模型。


微软和英伟达的工程师在集群的预发布版本上使用了 64 个 NDv2,在约三个小时内训练了 BERT(目前最流行的 NLP 模型)。这在一定程度上是利用 NCCL 提供的多 GPU 优化的优势,NCCL 是英伟达 CUDA X 库和高速 Mellanox 的连接器。


客户还可以使用多个 NDv2 来运行复杂的 HPC 工作负载。此外,对于特定类型的应用而言,单个 NDv2 即可以在无需 GPU 加速的情况下,比传统 HPC 节点快一个数量级的速度得出结果。对于大规模模拟而言,这种性能可以线性地扩展到 100 个 NDv2 实例。


所有的 NDv2 都可以获益于 GPU 优化的 HPC 应用、机器学习软件以及出自英伟达 NGC 容器注册表和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度学习框架。NGC 容器注册表还提供了 Helm 图表,从而可以轻松地将 AI 软件部署到 Kubernetes 集群中。


NDv2 目前发布的是预览版,搭载 8 块英伟达 Tesla V100 GPU 的 NDv2 可以实现集群化,以实现扩展进而满足各种工作负载需求。


推出 Magnum IO 软件套件,几分钟内实现数据移动


英伟达还在大会上宣布推出 Magnum IO 软件套件,该套件可以帮助数据科学家以及 AI 和高性能计算研究人员在几分钟内实现数据移动,而不再需要几个小时了。


image.png

在全球顶级超级计算机大会 SC19 开幕式上,有近 1400 名研究和技术人员聆听了黄仁勋的主题演讲。


就其性能而言,Magnum IO 进行了大幅度优化以消除存储和输入/输出瓶颈,并且当在大规模数据集上进行复杂的金融分析、气候建模和其他 HPC 工作负载时,Magnum IO 可以使得多服务器和多 GPU 计算节点的数据处理速度提升高度 20 倍。


黄仁勋表示:「这是一个充满创新的领域,我们将投入大量的精力帮助用户高效地实现系统中数据的移入和移出。


Magnum IO 的核心功能是英伟达 GPU Direct Storage,它在 GPU 内存和存储之间提供了一个直接的数据通路,使得数据能够绕过 CPU 并在 GPU、存储和网络设备所提供的的「open highways」上畅通无阻地传输。此外,GPUDirect Storage 还使研究人员在访问存储时可以绕过 CPU,并快速访问数据文件以进行模拟、分析或可视化操作。


微信图片_20211202124505.jpg


GPU Direct 由对等网络和 RDMA 元素组成,并且可以与包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在内的各种通信连接器和 API 兼容。
 除了 GPU Direct Storage 功能之外,英伟达 Magnum IO 软件套件现在可以使用,用户可以进行抢先体验。此外,英伟达计划在 2020 年上半年发布功能更广泛的 GPU Direct Storage。




相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
19天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
2月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
2月前
|
人工智能 安全 大数据
ARM 服务器上安装 OpenEuler (欧拉)
openEuler 是华为于2019年开源的操作系统,支持多种处理器架构,包括X86和鲲鹏。截至2020年底,openEuler 拥有3万社区用户、2万多个拉取请求、2000多名贡献者和7032款软件。openEuler 提供高效、稳定、安全的系统,适用于数据库、大数据、云计算和人工智能等场景。本文介绍了在神州鲲泰 R522 服务器上安装 openEuler 的详细步骤,包括下载镜像、配置 RAID 和 BIOS 设置等。
302 0
ARM 服务器上安装 OpenEuler (欧拉)
|
2月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
4月前
|
机器学习/深度学习 算法 数据库
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
在我们选择阿里云服务器的架构时,选择合适的云服务器架构对于提升业务效率、保障业务稳定至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供参考和选择。
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
|
6月前
|
Windows
win10家庭版安装iis 微软web服务器 windows安装IIS web服务器
win10家庭版安装iis 微软web服务器 windows安装IIS web服务器
78 0
|
7月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
7月前
|
安全 Unix Linux
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
【ARM】在NUC977上搭建基于boa的嵌入式web服务器
189 0
|
7月前
|
存储 缓存 物联网
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
338 0
|
机器学习/深度学习 存储 编解码
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考
ARM计算架构阿里云服务器有计算型c8y、通用型g8y、内存型r8y、ARM 通用型g6r、ARM 计算型c6r等实例规格可选,不同实例规格的租用收费价格是不一样的,本文为大家汇总了目前基于ARM计算架构下的各个实例规格的阿里云服务器收费标准,以供参考。
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考