进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」

简介: 在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。

在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。


微信图片_20211202124233.jpg


正在美国丹佛举行的 SC2019 是全球超算领域最重要的高端学术交流活动之一。今年 SC 的主题是「超算已来(HPC is now)」。随着算力的不断提升,以及先进算法的不断落地,超级计算机早已不再是科学研究专用的工具,而是已经成为了我们生活当中不可或缺的基础设施。


Arm 架构服务器的火热当然少不了英伟达的参与。今年 6 月,英伟达就在德国宣布了与 Arm 全面合作的新计划:两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 Arm 架构,这一行动将为深度学习、高性能计算打开了一条全新道路。


在 SC2019 大会上,这一愿景得以实现。


推出基于 GPU 加速器的 Arm 服务器


在大会上,英伟达 CEO 黄仁勋宣布推出最新服务器平台设计,该平台可以使企业能够快速构建基于 GPU 加速器的 Arm 服务器,从而开辟新的高性能计算(HPC)时代,并满足越来越多的科学和工业应用。


微信图片_20211202124308.jpg


英伟达表示,该平台由硬件和软件构建块组成,可以满足 HPC 社区不断增长的需求,从而利用更广泛的 CPU 架构。它能够使超级计算中心、超大规模云运营商和企业将英伟达加速计算平台的优势与最新的基于 Arm 的服务器平台相结合。


为了构建该平台,英伟达与 Arm 及其生态系统合作伙伴(包括 Ampere、Fujitsu 和 Marvell)展开合作,以确保英伟达 GPU 可以与基于 Arm 的处理器实现无缝协作。该平台还得益于与 Cray 和 HPE 两家基于 Arm 的早期服务器提供商的大力合作。此外,许多 HPC 软件公司已使用 NVIDIA CUDA-X 库来构建可在 Arm 服务器上运行的 GPU 赋能的管理和监测工具。


该平台的首次亮相是在英伟达今年早些时候宣布将 CUDA-X 软件平台引入 Arm 之前。为了兑现这一诺言,英伟达将预览其与 Arm 兼容的软件开发套件,其中包括英伟达 CUDA-X 库和用于加速计算的开发工具。


致力于更广泛的 HPC 生态系统合作


除了使自己的软件兼容 Arm 外,英伟达还与 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 应用开发者密切合作,以将 GPU 加速的应用交付给 Arm。英伟达和其 HPC 应用生态系统合作伙伴已经编译了大量的代码,以将 GPU 加速引入到 Arm 平台上它们自己的应用。


此外,为了实现 Arm 生态系统,英伟达与 Canonical、Red Hat, Inc. 和 SUSE 等领先的 Linux 发行商以及业界领先的基础 HPC 工具供应商展开合作。 目前,世界领先的超级计算中心已开始测试基于 GPU 加速的 Arm 计算系统,这其中包括美国橡树岭和桑迪亚国家实验室、英国布里斯托大学和日本理化研究所。


英伟达希望能够成为 Arm 生态的一部分,在 HPC,云计算等领域贡献自己的力量。不过,英伟达的 Arm 生态目前主要专注于大规模计算的应用,在端侧领域,其和高通等公司的合作还不明确。


联合微软推出全球最大「云超算」


还记得英伟达 50 分钟训练 BERT 吗?英伟达和微软正希望把这样的强大算力带给更多人。


微信图片_20211202124338.jpg


除了在架构上的创新之外,英伟达和微软在大会上共同推出了基于 Azure 云服务的可扩展 GPU 加速型超级计算机 NDv2。新的微软 Azure NDv2 可以扩展到数百个用于复杂 AI 和高性能计算(HPC)应用的英伟达 Tensor Core GPU。 被构建用于处理要求最高和高性能的计算应用,Azure NDv2 的部署将使其跻身于世界上最快超级计算机之列,最多可提供 800 个在单个_Mellanox InfiniBand_后端网络上互通的英伟达 V100 Tensor Core GPU。它使客户首次可以按需租用整个 AI 超级计算机,并且其性能抵得上花费数月时间才能部署的大型本地超级计算机。


黄仁勋在会上表示:「现在,你可以启动一台 NDv2 实例,在 container 中抓取一个堆栈,并在 Azure 中启动它。这就是科学,真是太神奇了!


微信图片_20211202124343.jpg

黄仁勋宣布推出可在微软 Azure 云服务上使用的、GPU 赋能的超级计算机 NDv2。他表示:「这使得世界各地的科学家都可以拥有一台超级计算机。


性能优越,成本效益高


英伟达表示,NDv2 非常适合复杂的 AI、机器学习和 HPC 工作负载,并且与传统的基于 CPU 的计算相比,其可以提供显著的性能和成本优势。因此,需要快速解决方案的 AI 研究人员可以在短短几个小时内快速启动多个 NDv2 和训练复杂的对话型 AI 模型。


微软和英伟达的工程师在集群的预发布版本上使用了 64 个 NDv2,在约三个小时内训练了 BERT(目前最流行的 NLP 模型)。这在一定程度上是利用 NCCL 提供的多 GPU 优化的优势,NCCL 是英伟达 CUDA X 库和高速 Mellanox 的连接器。


客户还可以使用多个 NDv2 来运行复杂的 HPC 工作负载。此外,对于特定类型的应用而言,单个 NDv2 即可以在无需 GPU 加速的情况下,比传统 HPC 节点快一个数量级的速度得出结果。对于大规模模拟而言,这种性能可以线性地扩展到 100 个 NDv2 实例。


所有的 NDv2 都可以获益于 GPU 优化的 HPC 应用、机器学习软件以及出自英伟达 NGC 容器注册表和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度学习框架。NGC 容器注册表还提供了 Helm 图表,从而可以轻松地将 AI 软件部署到 Kubernetes 集群中。


NDv2 目前发布的是预览版,搭载 8 块英伟达 Tesla V100 GPU 的 NDv2 可以实现集群化,以实现扩展进而满足各种工作负载需求。


推出 Magnum IO 软件套件,几分钟内实现数据移动


英伟达还在大会上宣布推出 Magnum IO 软件套件,该套件可以帮助数据科学家以及 AI 和高性能计算研究人员在几分钟内实现数据移动,而不再需要几个小时了。


image.png

在全球顶级超级计算机大会 SC19 开幕式上,有近 1400 名研究和技术人员聆听了黄仁勋的主题演讲。


就其性能而言,Magnum IO 进行了大幅度优化以消除存储和输入/输出瓶颈,并且当在大规模数据集上进行复杂的金融分析、气候建模和其他 HPC 工作负载时,Magnum IO 可以使得多服务器和多 GPU 计算节点的数据处理速度提升高度 20 倍。


黄仁勋表示:「这是一个充满创新的领域,我们将投入大量的精力帮助用户高效地实现系统中数据的移入和移出。


Magnum IO 的核心功能是英伟达 GPU Direct Storage,它在 GPU 内存和存储之间提供了一个直接的数据通路,使得数据能够绕过 CPU 并在 GPU、存储和网络设备所提供的的「open highways」上畅通无阻地传输。此外,GPUDirect Storage 还使研究人员在访问存储时可以绕过 CPU,并快速访问数据文件以进行模拟、分析或可视化操作。


微信图片_20211202124505.jpg


GPU Direct 由对等网络和 RDMA 元素组成,并且可以与包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在内的各种通信连接器和 API 兼容。
 除了 GPU Direct Storage 功能之外,英伟达 Magnum IO 软件套件现在可以使用,用户可以进行抢先体验。此外,英伟达计划在 2020 年上半年发布功能更广泛的 GPU Direct Storage。




相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
存储 机器学习/深度学习 并行计算
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下不同类型的云服务器有何不同,主要特点及适用场景有哪些。
阿里云服务器X86计算、Arm计算、GPU/FPGA/ASIC、高性能计算架构区别
|
2月前
|
存储 缓存 物联网
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
DP读书:鲲鹏处理器 架构与编程(二)服务器与处理器——高性能处理器的并行组织结构、ARM处理器
251 0
|
8月前
|
机器学习/深度学习 存储 编解码
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考
ARM计算架构阿里云服务器有计算型c8y、通用型g8y、内存型r8y、ARM 通用型g6r、ARM 计算型c6r等实例规格可选,不同实例规格的租用收费价格是不一样的,本文为大家汇总了目前基于ARM计算架构下的各个实例规格的阿里云服务器收费标准,以供参考。
阿里云ARM计算架构云服务器最新收费标准与活动价格表参考
|
9月前
|
机器学习/深度学习 存储 弹性计算
阿里云服务器X86计算、ARM计算、GPU/FPGA/ASIC等架构区别及选择参考
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群之分,很多初次接触阿里云服务器的用户并不知道他们之间有何区别,本文来介绍一下阿里云服务器各个架构的特点及适用场景,以供大家了解他们之间的区别,从而对选择哪种架构做一个参考。
1000 1
阿里云服务器X86计算、ARM计算、GPU/FPGA/ASIC等架构区别及选择参考
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构X86、ARM、GPU/FPGA、裸金属、超级计算详解
阿里云服务器架构X86计算_ARM_GPU/FPGA/ASIC_裸金属_超级计算集群
242 0
|
9月前
|
机器学习/深度学习 存储 弹性计算
阿里云服务器ECS架构ARM计算介绍
阿里云服务器ECS架构ARM计算介绍,ARM计算架构特性:ARM计算架构采用阿里云自研倚天710 ARM架构CPU,依托第四代神龙架构,提供稳定可预期的超高性能。同时通过芯片快速路径加速手段,完成存储、网络性能以及计算稳定性的数量级提升。基于ARM架构的实例规格,每一个vCPU都对应一个处理器的物理核心,具有性能稳定且资源独享的特点
270 0
|
9月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器架构ARM计算和X86区别?
阿里云服务器架构ARM计算和X86区别?阿里云服务器架构有什么区别?X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、超级计算集群有什么区别?阿里云服务器网分享云服务器ECS架构详细说明:
536 0
|
30天前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
1月前
|
存储 弹性计算 数据可视化
要将ECS中的文件直接传输到阿里云网盘与相册(
【2月更文挑战第31天】要将ECS中的文件直接传输到阿里云网盘与相册(
417 4
|
1月前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程