NVIDIA与服务器制造商合作推进AI云计算

简介:

2017年5月30日—NVIDIA公司宣布同全球领先的原始设计制造商(ODM)- 富士康(Foxconn)、英业达(Inventec)、广达电脑(Quanta)与纬创(Wistron)开展合作,以期更加快速地满足市场对AI云计算的需求。

通过NVIDIAHGX合作伙伴计划,NVIDIA将让每家ODM尽早访问NVIDIA HGX参考架构,NVIDIA GPU计算技术以及设计指南。微软ProjectOlympus计划、Facebook的Big Basin系统与NVIDIA DGX-1?人工智能超级计算机也均使用了HGX数据中心设计方案。

通过将HGX用作起始秘方,ODM合作伙伴可以与NVIDIA一起更加快速地为超大型数据中心设计并推出一系列合格且经过GPU加速的系统。通过该计划,NVIDIA工程师将与ODM密切合作,以减少从设计到生产部署的时间。

在过去的1年里,对于人工智能计算资源的总体需求急剧增长,而市场对于NVIDIA GPU计算平台的采用及性能需求也随之增加。今天,全球前10家超大规模企业均在其数据中心内使用NVIDIA GPU加速器。

在过去的1年里,对于人工智能计算资源的总体需求急剧增长,而市场对于NVIDIA GPU计算平台的采用及性能需求也随之增加。今天,全球前10家超大规模企业均在其数据中心内使用NVIDIA GPU加速器。

凭借新的基于NVIDIA? Volta?的GPU所提供的比上一代GPU三倍的性能,ODM可以根据最新的NVIDIA技术为市场需求提供最新产品。

NVIDIA加速计算业务部总经理Ian Buck表示:“加速计算正在飞速发展 在仅仅1年之内,我们便使得Tesla GPU深度学习性能提升了3倍 这对系统设计方式产生了显著影响。通过我们的HGX合作伙伴计划,设备制造商可以确保其向不断扩大的云计算提供商提供最新的AI技术。”

灵活、可升级的设计

为了满足超大规模云环境所独有的高性能、高效率和大规模扩展需求,NVIDIA构建了HGX参考设计。由于可以根据工作负载需求进行高度配置,HGX能够以多种方式轻松融合GPU与CPU,进而用于高性能计算、深度学习训练与深度学习推理。

标准的HGX设计架构包含8颗SXM2尺寸的NVIDIATesla? GPU加速器,并采用NVIDIANVLink?高速互连技术与经过优化的PCIe拓扑并以多维数据集网格连接。借助模块化设计,HGX机箱适用于全球现有数据中心机架部署,并酌情使用超大规模CPU节点。

标准的HGX设计架构包含8颗SXM2尺寸的NVIDIATesla? GPU加速器,并采用NVIDIANVLink?高速互连技术与经过优化的PCIe拓扑并以多维数据集网格连接。借助模块化设计,HGX机箱适用于全球现有数据中心机架部署,并酌情使用超大规模CPU节点。

NVIDIA Tesla P100与V100 GPU加速器均兼容于HGX。今年底,在V100 GPU上市后,这可以让基于HGX的所有产品实现即时升级。

对于想要托管全新NVIDIA GPU Cloud平台的云提供商而言,HGX堪称理想的参考架构。NVIDIA GPU Cloud管理着一系列完整集成且经过优化的深度学习框架容器的目录,包括Caffe2、Cognitive Toolkit、MXNet与TensorFlow。

对于想要托管全新NVIDIA GPU Cloud平台的云提供商而言,HGX堪称理想的参考架构。NVIDIA GPU Cloud管理着一系列完整集成且经过优化的深度学习框架容器的目录,包括Caffe2、Cognitive Toolkit、MXNet与TensorFlow。

富士康/鸿海精密工业股份有限公司总经理兼鸿佰科技股份有限公司(Ingrasys Technology Inc.)总裁Taiyu Chou表示:“通过与NVIDIA的这一全新合作伙伴计划,我们将能够更加快速地满足我们客户不断增加的需求,其中部分客户管理着一些全球最大型的数据中心。尽早获得NVIDIA GPU技术与设计指南,将有助于我们更加快速地推出创新型产品,充分满足我们客户不断增长的人工智能计算需求。”

英业达集团IEC China业务主管Evan Chien表示:“与NVIDIA开展更加密切的合作,将有助于我们为全球数据中心基础架构注入更高水平的创新。通过我们的紧密协作,我们将能够更加有效地满足管理超大规模云环境公司的计算密集型人工智能需求。”

英业达集团IEC China业务主管Evan Chien表示:“与NVIDIA开展更加密切的合作,将有助于我们为全球数据中心基础架构注入更高水平的创新。通过我们的紧密协作,我们将能够更加有效地满足管理超大规模云环境公司的计算密集型人工智能需求。”

广达电脑高级副总裁兼云达科技(QCT)总裁Mike Yang表示:“借助NVIDIA的人工智能计算专长,我们将能够立即向市场推出变革性的解决方案,满足人工智能时代的新计算需求。”

纬创首席技术官兼企业业务组总裁Donald Hwang表示:“作为NVIDIA的长期合作伙伴,我们期待着深化我们之间的关系,以便我们能够满足超大规模数据中心客户日益增长的计算需求。我们的客户渴望获得更高的GPU计算力量,以处理各种人工智能工作负载,而通过这一全新合作,我们将能够更快速地提供新的解决方案。”

纬创首席技术官兼企业业务组总裁Donald Hwang表示:“作为NVIDIA的长期合作伙伴,我们期待着深化我们之间的关系,以便我们能够满足超大规模数据中心客户日益增长的计算需求。我们的客户渴望获得更高的GPU计算力量,以处理各种人工智能工作负载,而通过这一全新合作,我们将能够更快速地提供新的解决方案。”

微软AzureHardware Infrastructure总经理兼杰出工程师Kushagra Vaid表示:“我们与鸿佰科技及NVIDIA合作开创了全新行业标准设计,以满足人工智能新时代日益增长的需求。HGX-1人工智能加速器是作为微软Project Olympus的一部分而开发的,以便通过为多达32颗GPU选用高带宽互联性而实现极高的性能可扩展性。”

本文转自d1net(转载)

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
存储 人工智能 运维
|
25天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
151 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
11天前
|
人工智能 云计算
官宣!阿里云成为总台春晚云计算AI独家合作伙伴
官宣!阿里云成为总台春晚云计算AI独家合作伙伴
157 22
|
5天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
5天前
|
人工智能 弹性计算 运维
ECS控制台,AI助手与极简管控体验
本文介绍了ECS控制台的演进及最新AI工具功能。控制台作为运维平台,需兼顾用户体验、可靠性和安全性。针对不同用户(个人开发者、企业级用户、资源管理员和架构师),控制台提供了定制化AI助手,涵盖售前选型、售中购买、售后运维等全链路支持。AI助手可智能分析用户需求,推荐合适规格,并提供实例诊断、命令解释等功能,简化操作流程。此外,还推出了简洁版控制台,优化了小资源量用户的使用体验,减少复杂度,提升效率。未来,控制台将朝着更智能、个性化的chat ops方向发展。
|
5天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
2月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
65 6
|
3月前
|
机器学习/深度学习 弹性计算 运维
云计算系列之阿里云ECS服务器管理实战
本文档介绍了阿里云ECS(Elastic Compute Service)的基本概念、实例管理、磁盘操作、快照与镜像功能及其应用场景,最后通过具体案例解析ECS的实际应用。ECS是阿里云提供的高效、可靠的云计算服务,支持多种业务需求,如Web应用、高并发网站、数据库等,帮助企业快速构建稳定安全的应用,提升运维效率,降低IT成本。文档还详细说明了ECS实例的创建方式、连接方法及日常管理操作,帮助用户更好地利用ECS服务。
101 2
云计算系列之阿里云ECS服务器管理实战
|
2月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
309 0
|
3月前
|
人工智能 运维 关系型数据库
携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会
阿里云服务器研发受邀和UALink联盟一起,在OCP全球峰会上重点阐述AI服务器Scale UP互连技术领域发展趋势

热门文章

最新文章