进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」

简介: 在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。

在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。


微信图片_20211202124233.jpg


正在美国丹佛举行的 SC2019 是全球超算领域最重要的高端学术交流活动之一。今年 SC 的主题是「超算已来(HPC is now)」。随着算力的不断提升,以及先进算法的不断落地,超级计算机早已不再是科学研究专用的工具,而是已经成为了我们生活当中不可或缺的基础设施。


Arm 架构服务器的火热当然少不了英伟达的参与。今年 6 月,英伟达就在德国宣布了与 Arm 全面合作的新计划:两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 Arm 架构,这一行动将为深度学习、高性能计算打开了一条全新道路。


在 SC2019 大会上,这一愿景得以实现。


推出基于 GPU 加速器的 Arm 服务器


在大会上,英伟达 CEO 黄仁勋宣布推出最新服务器平台设计,该平台可以使企业能够快速构建基于 GPU 加速器的 Arm 服务器,从而开辟新的高性能计算(HPC)时代,并满足越来越多的科学和工业应用。


微信图片_20211202124308.jpg


英伟达表示,该平台由硬件和软件构建块组成,可以满足 HPC 社区不断增长的需求,从而利用更广泛的 CPU 架构。它能够使超级计算中心、超大规模云运营商和企业将英伟达加速计算平台的优势与最新的基于 Arm 的服务器平台相结合。


为了构建该平台,英伟达与 Arm 及其生态系统合作伙伴(包括 Ampere、Fujitsu 和 Marvell)展开合作,以确保英伟达 GPU 可以与基于 Arm 的处理器实现无缝协作。该平台还得益于与 Cray 和 HPE 两家基于 Arm 的早期服务器提供商的大力合作。此外,许多 HPC 软件公司已使用 NVIDIA CUDA-X 库来构建可在 Arm 服务器上运行的 GPU 赋能的管理和监测工具。


该平台的首次亮相是在英伟达今年早些时候宣布将 CUDA-X 软件平台引入 Arm 之前。为了兑现这一诺言,英伟达将预览其与 Arm 兼容的软件开发套件,其中包括英伟达 CUDA-X 库和用于加速计算的开发工具。


致力于更广泛的 HPC 生态系统合作


除了使自己的软件兼容 Arm 外,英伟达还与 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 应用开发者密切合作,以将 GPU 加速的应用交付给 Arm。英伟达和其 HPC 应用生态系统合作伙伴已经编译了大量的代码,以将 GPU 加速引入到 Arm 平台上它们自己的应用。


此外,为了实现 Arm 生态系统,英伟达与 Canonical、Red Hat, Inc. 和 SUSE 等领先的 Linux 发行商以及业界领先的基础 HPC 工具供应商展开合作。 目前,世界领先的超级计算中心已开始测试基于 GPU 加速的 Arm 计算系统,这其中包括美国橡树岭和桑迪亚国家实验室、英国布里斯托大学和日本理化研究所。


英伟达希望能够成为 Arm 生态的一部分,在 HPC,云计算等领域贡献自己的力量。不过,英伟达的 Arm 生态目前主要专注于大规模计算的应用,在端侧领域,其和高通等公司的合作还不明确。


联合微软推出全球最大「云超算」


还记得英伟达 50 分钟训练 BERT 吗?英伟达和微软正希望把这样的强大算力带给更多人。


微信图片_20211202124338.jpg


除了在架构上的创新之外,英伟达和微软在大会上共同推出了基于 Azure 云服务的可扩展 GPU 加速型超级计算机 NDv2。新的微软 Azure NDv2 可以扩展到数百个用于复杂 AI 和高性能计算(HPC)应用的英伟达 Tensor Core GPU。 被构建用于处理要求最高和高性能的计算应用,Azure NDv2 的部署将使其跻身于世界上最快超级计算机之列,最多可提供 800 个在单个_Mellanox InfiniBand_后端网络上互通的英伟达 V100 Tensor Core GPU。它使客户首次可以按需租用整个 AI 超级计算机,并且其性能抵得上花费数月时间才能部署的大型本地超级计算机。


黄仁勋在会上表示:「现在,你可以启动一台 NDv2 实例,在 container 中抓取一个堆栈,并在 Azure 中启动它。这就是科学,真是太神奇了!


微信图片_20211202124343.jpg

黄仁勋宣布推出可在微软 Azure 云服务上使用的、GPU 赋能的超级计算机 NDv2。他表示:「这使得世界各地的科学家都可以拥有一台超级计算机。


性能优越,成本效益高


英伟达表示,NDv2 非常适合复杂的 AI、机器学习和 HPC 工作负载,并且与传统的基于 CPU 的计算相比,其可以提供显著的性能和成本优势。因此,需要快速解决方案的 AI 研究人员可以在短短几个小时内快速启动多个 NDv2 和训练复杂的对话型 AI 模型。


微软和英伟达的工程师在集群的预发布版本上使用了 64 个 NDv2,在约三个小时内训练了 BERT(目前最流行的 NLP 模型)。这在一定程度上是利用 NCCL 提供的多 GPU 优化的优势,NCCL 是英伟达 CUDA X 库和高速 Mellanox 的连接器。


客户还可以使用多个 NDv2 来运行复杂的 HPC 工作负载。此外,对于特定类型的应用而言,单个 NDv2 即可以在无需 GPU 加速的情况下,比传统 HPC 节点快一个数量级的速度得出结果。对于大规模模拟而言,这种性能可以线性地扩展到 100 个 NDv2 实例。


所有的 NDv2 都可以获益于 GPU 优化的 HPC 应用、机器学习软件以及出自英伟达 NGC 容器注册表和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度学习框架。NGC 容器注册表还提供了 Helm 图表,从而可以轻松地将 AI 软件部署到 Kubernetes 集群中。


NDv2 目前发布的是预览版,搭载 8 块英伟达 Tesla V100 GPU 的 NDv2 可以实现集群化,以实现扩展进而满足各种工作负载需求。


推出 Magnum IO 软件套件,几分钟内实现数据移动


英伟达还在大会上宣布推出 Magnum IO 软件套件,该套件可以帮助数据科学家以及 AI 和高性能计算研究人员在几分钟内实现数据移动,而不再需要几个小时了。


image.png

在全球顶级超级计算机大会 SC19 开幕式上,有近 1400 名研究和技术人员聆听了黄仁勋的主题演讲。


就其性能而言,Magnum IO 进行了大幅度优化以消除存储和输入/输出瓶颈,并且当在大规模数据集上进行复杂的金融分析、气候建模和其他 HPC 工作负载时,Magnum IO 可以使得多服务器和多 GPU 计算节点的数据处理速度提升高度 20 倍。


黄仁勋表示:「这是一个充满创新的领域,我们将投入大量的精力帮助用户高效地实现系统中数据的移入和移出。


Magnum IO 的核心功能是英伟达 GPU Direct Storage,它在 GPU 内存和存储之间提供了一个直接的数据通路,使得数据能够绕过 CPU 并在 GPU、存储和网络设备所提供的的「open highways」上畅通无阻地传输。此外,GPUDirect Storage 还使研究人员在访问存储时可以绕过 CPU,并快速访问数据文件以进行模拟、分析或可视化操作。


微信图片_20211202124505.jpg


GPU Direct 由对等网络和 RDMA 元素组成,并且可以与包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在内的各种通信连接器和 API 兼容。
 除了 GPU Direct Storage 功能之外,英伟达 Magnum IO 软件套件现在可以使用,用户可以进行抢先体验。此外,英伟达计划在 2020 年上半年发布功能更广泛的 GPU Direct Storage。




相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1145 61
|
7月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
10月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
1503 10
|
12月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
834 7
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
535 6
|
人工智能 安全 大数据
ARM 服务器上安装 OpenEuler (欧拉)
openEuler 是华为于2019年开源的操作系统,支持多种处理器架构,包括X86和鲲鹏。截至2020年底,openEuler 拥有3万社区用户、2万多个拉取请求、2000多名贡献者和7032款软件。openEuler 提供高效、稳定、安全的系统,适用于数据库、大数据、云计算和人工智能等场景。本文介绍了在神州鲲泰 R522 服务器上安装 openEuler 的详细步骤,包括下载镜像、配置 RAID 和 BIOS 设置等。
1432 0
ARM 服务器上安装 OpenEuler (欧拉)
|
机器学习/深度学习 算法 数据库
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
在我们选择阿里云服务器的架构时,选择合适的云服务器架构对于提升业务效率、保障业务稳定至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供参考和选择。
阿里云服务器架构区别解析:从X86计算、Arm计算到高性能计算架构的区别参考
|
Windows
win10家庭版安装iis 微软web服务器 windows安装IIS web服务器
win10家庭版安装iis 微软web服务器 windows安装IIS web服务器
298 0

热门文章

最新文章