进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」-阿里云开发者社区

开发者社区> 超努力的写代码> 正文

进军Arm服务器,携手微软开启云超算,这是英伟达黄仁勋的「超算已来」

简介: 在刚刚正式开幕的国际超级计算机大会(SC2019)上,英伟达 CEO 黄仁勋宣布了三项重大的产品信息:基于 GPU 加速器的 Arm 服务器、可在微软 Azure 云服务上使用的 GPU 加速型超级计算机 NDv2 以及几分钟即可实现数据移动的 Magnum IO 软件套件。
+关注继续查看

微信图片_20211202091342.jpg

正在美国丹佛举行的 SC2019 是全球超算领域最重要的高端学术交流活动之一。今年 SC 的主题是「超算已来(HPC is now)」。随着算力的不断提升,以及先进算法的不断落地,超级计算机早已不再是科学研究专用的工具,而是已经成为了我们生活当中不可或缺的基础设施。


Arm 架构服务器的火热当然少不了英伟达的参与。今年 6 月,英伟达就在德国宣布了与 Arm 全面合作的新计划:两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 Arm 架构,这一行动将为深度学习、高性能计算打开了一条全新道路。


在 SC2019 大会上,这一愿景得以实现。


推出基于 GPU 加速器的 Arm 服务器


在大会上,英伟达 CEO 黄仁勋宣布推出最新服务器平台设计,该平台可以使企业能够快速构建基于 GPU 加速器的 Arm 服务器,从而开辟新的高性能计算(HPC)时代,并满足越来越多的科学和工业应用。


微信图片_20211202092247.jpg


英伟达表示,该平台由硬件和软件构建块组成,可以满足 HPC 社区不断增长的需求,从而利用更广泛的 CPU 架构。它能够使超级计算中心、超大规模云运营商和企业将英伟达加速计算平台的优势与最新的基于 Arm 的服务器平台相结合。


为了构建该平台,英伟达与 Arm 及其生态系统合作伙伴(包括 Ampere、Fujitsu 和 Marvell)展开合作,以确保英伟达 GPU 可以与基于 Arm 的处理器实现无缝协作。该平台还得益于与 Cray 和 HPE 两家基于 Arm 的早期服务器提供商的大力合作。此外,许多 HPC 软件公司已使用 NVIDIA CUDA-X 库来构建可在 Arm 服务器上运行的 GPU 赋能的管理和监测工具。


该平台的首次亮相是在英伟达今年早些时候宣布将 CUDA-X 软件平台引入 Arm 之前。为了兑现这一诺言,英伟达将预览其与 Arm 兼容的软件开发套件,其中包括英伟达 CUDA-X 库和用于加速计算的开发工具。


致力于更广泛的 HPC 生态系统合作


除了使自己的软件兼容 Arm 外,英伟达还与 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 应用开发者密切合作,以将 GPU 加速的应用交付给 Arm。英伟达和其 HPC 应用生态系统合作伙伴已经编译了大量的代码,以将 GPU 加速引入到 Arm 平台上它们自己的应用。


此外,为了实现 Arm 生态系统,英伟达与 Canonical、Red Hat, Inc. 和 SUSE 等领先的 Linux 发行商以及业界领先的基础 HPC 工具供应商展开合作。 目前,世界领先的超级计算中心已开始测试基于 GPU 加速的 Arm 计算系统,这其中包括美国橡树岭和桑迪亚国家实验室、英国布里斯托大学和日本理化研究所。


英伟达希望能够成为 Arm 生态的一部分,在 HPC,云计算等领域贡献自己的力量。不过,英伟达的 Arm 生态目前主要专注于大规模计算的应用,在端侧领域,其和高通等公司的合作还不明确。


联合微软推出全球最大「云超算」


还记得英伟达 50 分钟训练 BERT 吗?英伟达和微软正希望把这样的强大算力带给更多人。


微信图片_20211202092322.jpg


除了在架构上的创新之外,英伟达和微软在大会上共同推出了基于 Azure 云服务的可扩展 GPU 加速型超级计算机 NDv2。新的微软 Azure NDv2 可以扩展到数百个用于复杂 AI 和高性能计算(HPC)应用的英伟达 Tensor Core GPU。


 被构建用于处理要求最高和高性能的计算应用,Azure NDv2 的部署将使其跻身于世界上最快超级计算机之列,最多可提供 800 个在单个_Mellanox InfiniBand_后端网络上互通的英伟达 V100 Tensor Core GPU。它使客户首次可以按需租用整个 AI 超级计算机,并且其性能抵得上花费数月时间才能部署的大型本地超级计算机。


黄仁勋在会上表示:「现在,你可以启动一台 NDv2 实例,在 container 中抓取一个堆栈,并在 Azure 中启动它。这就是科学,真是太神奇了!


微信图片_20211202092354.jpg

黄仁勋宣布推出可在微软 Azure 云服务上使用的、GPU 赋能的超级计算机 NDv2。他表示:「这使得世界各地的科学家都可以拥有一台超级计算机。


性能优越,成本效益高 


英伟达表示,NDv2 非常适合复杂的 AI、机器学习和 HPC 工作负载,并且与传统的基于 CPU 的计算相比,其可以提供显著的性能和成本优势。因此,需要快速解决方案的 AI 研究人员可以在短短几个小时内快速启动多个 NDv2 和训练复杂的对话型 AI 模型。


微软和英伟达的工程师在集群的预发布版本上使用了 64 个 NDv2,在约三个小时内训练了 BERT(目前最流行的 NLP 模型)。这在一定程度上是利用 NCCL 提供的多 GPU 优化的优势,NCCL 是英伟达 CUDA X 库和高速 Mellanox 的连接器。


客户还可以使用多个 NDv2 来运行复杂的 HPC 工作负载。此外,对于特定类型的应用而言,单个 NDv2 即可以在无需 GPU 加速的情况下,比传统 HPC 节点快一个数量级的速度得出结果。对于大规模模拟而言,这种性能可以线性地扩展到 100 个 NDv2 实例。


所有的 NDv2 都可以获益于 GPU 优化的 HPC 应用、机器学习软件以及出自英伟达 NGC 容器注册表和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度学习框架。NGC 容器注册表还提供了 Helm 图表,从而可以轻松地将 AI 软件部署到 Kubernetes 集群中。


NDv2 目前发布的是预览版,搭载 8 块英伟达 Tesla V100 GPU 的 NDv2 可以实现集群化,以实现扩展进而满足各种工作负载需求。


推出 Magnum IO 软件套件,几分钟内实现数据移动


英伟达还在大会上宣布推出 Magnum IO 软件套件,该套件可以帮助数据科学家以及 AI 和高性能计算研究人员在几分钟内实现数据移动,而不再需要几个小时了。


微信图片_20211202092439.jpg

在全球顶级超级计算机大会 SC19 开幕式上,有近 1400 名研究和技术人员聆听了黄仁勋的主题演讲。


就其性能而言,Magnum IO 进行了大幅度优化以消除存储和输入/输出瓶颈,并且当在大规模数据集上进行复杂的金融分析、气候建模和其他 HPC 工作负载时,Magnum IO 可以使得多服务器和多 GPU 计算节点的数据处理速度提升高度 20 倍。


黄仁勋表示:「这是一个充满创新的领域,我们将投入大量的精力帮助用户高效地实现系统中数据的移入和移出。


Magnum IO 的核心功能是英伟达 GPU Direct Storage,它在 GPU 内存和存储之间提供了一个直接的数据通路,使得数据能够绕过 CPU 并在 GPU、存储和网络设备所提供的的「open highways」上畅通无阻地传输。此外,GPUDirect Storage 还使研究人员在访问存储时可以绕过 CPU,并快速访问数据文件以进行模拟、分析或可视化操作。


微信图片_20211202092508.jpg


GPU Direct 由对等网络和 RDMA 元素组成,并且可以与包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在内的各种通信连接器和 API 兼容。


 除了 GPU Direct Storage 功能之外,英伟达 Magnum IO 软件套件现在可以使用,用户可以进行抢先体验。此外,英伟达计划在 2020 年上半年发布功能更广泛的 GPU Direct Storage。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
双11黑科技,阿里百万级服务器自动化运维系统StarAgent揭秘
还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做...
12666 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10074 0
AI性能提升2-3倍!搭载 NVIDIA A10 GPU的阿里云gn7i服务器开启邀测
近日,阿里云异构计算宣布gn7i云服务器开放邀测。gn7i系列实例是阿里云异构计算产品线最新一代通用型加速产品,该实例采用最新的NVIDIA A10 GPU作为加速器,适用于人工智能推理、视频处理、3D可视化、云游戏和云桌面等场景。
306 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13882 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
11888 0
Dropwizard - 开发Java RESTful Web服务
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/8081036 Dropwizard是一个开源Java框架,用于开发高性能、RESTful Web服务。
695 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
7365 0
1946
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载