NVIDIA与服务器制造商合作推进AI云计算

简介:

2017年5月30日—NVIDIA公司宣布同全球领先的原始设计制造商(ODM)- 富士康(Foxconn)、英业达(Inventec)、广达电脑(Quanta)与纬创(Wistron)开展合作,以期更加快速地满足市场对AI云计算的需求。

通过NVIDIAHGX合作伙伴计划,NVIDIA将让每家ODM尽早访问NVIDIA HGX参考架构,NVIDIA GPU计算技术以及设计指南。微软ProjectOlympus计划、Facebook的Big Basin系统与NVIDIA DGX-1?人工智能超级计算机也均使用了HGX数据中心设计方案。

通过将HGX用作起始秘方,ODM合作伙伴可以与NVIDIA一起更加快速地为超大型数据中心设计并推出一系列合格且经过GPU加速的系统。通过该计划,NVIDIA工程师将与ODM密切合作,以减少从设计到生产部署的时间。

在过去的1年里,对于人工智能计算资源的总体需求急剧增长,而市场对于NVIDIA GPU计算平台的采用及性能需求也随之增加。今天,全球前10家超大规模企业均在其数据中心内使用NVIDIA GPU加速器。

在过去的1年里,对于人工智能计算资源的总体需求急剧增长,而市场对于NVIDIA GPU计算平台的采用及性能需求也随之增加。今天,全球前10家超大规模企业均在其数据中心内使用NVIDIA GPU加速器。

凭借新的基于NVIDIA? Volta?的GPU所提供的比上一代GPU三倍的性能,ODM可以根据最新的NVIDIA技术为市场需求提供最新产品。

NVIDIA加速计算业务部总经理Ian Buck表示:“加速计算正在飞速发展 在仅仅1年之内,我们便使得Tesla GPU深度学习性能提升了3倍 这对系统设计方式产生了显著影响。通过我们的HGX合作伙伴计划,设备制造商可以确保其向不断扩大的云计算提供商提供最新的AI技术。”

灵活、可升级的设计

为了满足超大规模云环境所独有的高性能、高效率和大规模扩展需求,NVIDIA构建了HGX参考设计。由于可以根据工作负载需求进行高度配置,HGX能够以多种方式轻松融合GPU与CPU,进而用于高性能计算、深度学习训练与深度学习推理。

标准的HGX设计架构包含8颗SXM2尺寸的NVIDIATesla? GPU加速器,并采用NVIDIANVLink?高速互连技术与经过优化的PCIe拓扑并以多维数据集网格连接。借助模块化设计,HGX机箱适用于全球现有数据中心机架部署,并酌情使用超大规模CPU节点。

标准的HGX设计架构包含8颗SXM2尺寸的NVIDIATesla? GPU加速器,并采用NVIDIANVLink?高速互连技术与经过优化的PCIe拓扑并以多维数据集网格连接。借助模块化设计,HGX机箱适用于全球现有数据中心机架部署,并酌情使用超大规模CPU节点。

NVIDIA Tesla P100与V100 GPU加速器均兼容于HGX。今年底,在V100 GPU上市后,这可以让基于HGX的所有产品实现即时升级。

对于想要托管全新NVIDIA GPU Cloud平台的云提供商而言,HGX堪称理想的参考架构。NVIDIA GPU Cloud管理着一系列完整集成且经过优化的深度学习框架容器的目录,包括Caffe2、Cognitive Toolkit、MXNet与TensorFlow。

对于想要托管全新NVIDIA GPU Cloud平台的云提供商而言,HGX堪称理想的参考架构。NVIDIA GPU Cloud管理着一系列完整集成且经过优化的深度学习框架容器的目录,包括Caffe2、Cognitive Toolkit、MXNet与TensorFlow。

富士康/鸿海精密工业股份有限公司总经理兼鸿佰科技股份有限公司(Ingrasys Technology Inc.)总裁Taiyu Chou表示:“通过与NVIDIA的这一全新合作伙伴计划,我们将能够更加快速地满足我们客户不断增加的需求,其中部分客户管理着一些全球最大型的数据中心。尽早获得NVIDIA GPU技术与设计指南,将有助于我们更加快速地推出创新型产品,充分满足我们客户不断增长的人工智能计算需求。”

英业达集团IEC China业务主管Evan Chien表示:“与NVIDIA开展更加密切的合作,将有助于我们为全球数据中心基础架构注入更高水平的创新。通过我们的紧密协作,我们将能够更加有效地满足管理超大规模云环境公司的计算密集型人工智能需求。”

英业达集团IEC China业务主管Evan Chien表示:“与NVIDIA开展更加密切的合作,将有助于我们为全球数据中心基础架构注入更高水平的创新。通过我们的紧密协作,我们将能够更加有效地满足管理超大规模云环境公司的计算密集型人工智能需求。”

广达电脑高级副总裁兼云达科技(QCT)总裁Mike Yang表示:“借助NVIDIA的人工智能计算专长,我们将能够立即向市场推出变革性的解决方案,满足人工智能时代的新计算需求。”

纬创首席技术官兼企业业务组总裁Donald Hwang表示:“作为NVIDIA的长期合作伙伴,我们期待着深化我们之间的关系,以便我们能够满足超大规模数据中心客户日益增长的计算需求。我们的客户渴望获得更高的GPU计算力量,以处理各种人工智能工作负载,而通过这一全新合作,我们将能够更快速地提供新的解决方案。”

纬创首席技术官兼企业业务组总裁Donald Hwang表示:“作为NVIDIA的长期合作伙伴,我们期待着深化我们之间的关系,以便我们能够满足超大规模数据中心客户日益增长的计算需求。我们的客户渴望获得更高的GPU计算力量,以处理各种人工智能工作负载,而通过这一全新合作,我们将能够更快速地提供新的解决方案。”

微软AzureHardware Infrastructure总经理兼杰出工程师Kushagra Vaid表示:“我们与鸿佰科技及NVIDIA合作开创了全新行业标准设计,以满足人工智能新时代日益增长的需求。HGX-1人工智能加速器是作为微软Project Olympus的一部分而开发的,以便通过为多达32颗GPU选用高带宽互联性而实现极高的性能可扩展性。”

本文转自d1net(转载)

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
26天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
152 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
6天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
6天前
|
人工智能 弹性计算 运维
ECS控制台,AI助手与极简管控体验
本文介绍了ECS控制台的演进及最新AI工具功能。控制台作为运维平台,需兼顾用户体验、可靠性和安全性。针对不同用户(个人开发者、企业级用户、资源管理员和架构师),控制台提供了定制化AI助手,涵盖售前选型、售中购买、售后运维等全链路支持。AI助手可智能分析用户需求,推荐合适规格,并提供实例诊断、命令解释等功能,简化操作流程。此外,还推出了简洁版控制台,优化了小资源量用户的使用体验,减少复杂度,提升效率。未来,控制台将朝着更智能、个性化的chat ops方向发展。
|
6天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
2月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
67 6
|
8天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
|
7天前
|
存储 运维 安全
阿里云弹性裸金属服务器是什么?产品规格及适用场景介绍
阿里云服务器ECS包括众多产品,其中弹性裸金属服务器(ECS Bare Metal Server)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点。分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。本文为大家详细介绍弹性裸金属服务器的特点、优势以及与云服务器的对比等内容。
|
15天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
2天前
|
机器学习/深度学习 弹性计算 缓存
简单聊聊,阿里云2核2G3M带宽云服务器与轻量应用服务器区别及选择参考
2核2G3M带宽云服务器与轻量应用服务器是目前阿里云的活动中,入门级走量型云服务器,轻量云服务器2核2G3M带宽68元一年,经济型e实例云服务器2核2G3M带宽99元1年。同样的配置,对于有的新手用户来说,有必要了解一下他们之间的区别,以及各自的购买和续费相关政策,从而选择更适合自己需求的云服务器。本文为大家简单分析一下我们应该选择哪一款。
|
2天前
|
监控 安全 数据库
阿里云国际站:如何使用阿里云国际站服务器
阿里云国际站服务器是一种强大的云计算服务,可以帮助用户轻松搭建和管理自己的网站、应用程序和数据库。本文将介绍如何使用阿里云国际站服务器,包括注册账户、选择服务器配置、安装操作系统、配置网络和安全设置等方面。