英特尔的 XPU 计划:Falcon Shores 项目为超级计算机融合 x86 与 Xe 技术 Ryan Smith 王强 刘燕

简介: 过去几年中,英特尔公司发起了很多有趣的项目,其中之一就是 XPU。XPU 的理念是使用多种计算架构充分满足单一负载的复杂计算需求。在实践中,英特尔不仅为此开发了 CPU 和 GPU 这样的通用计算芯片,还发展了 FPGA 和 VPU 等针对特定用途的硬件。在软件层面上,所有这些硬件都由英特尔的 oneAPI 软件栈统一调配。这一软件栈的设计目标是抽象出各种硬件的差异,方便开发人员跨多种计算架构开发应用。

过去几年中,英特尔公司发起了很多有趣的项目,其中之一就是 XPU。XPU 的理念是使用多种计算架构充分满足单一负载的复杂计算需求。在实践中,英特尔不仅为此开发了 CPU 和 GPU 这样的通用计算芯片,还发展了 FPGA 和 VPU 等针对特定用途的硬件。在软件层面上,所有这些硬件都由英特尔的 oneAPI 软件栈统一调配。这一软件栈的设计目标是抽象出各种硬件的差异,方便开发人员跨多种计算架构开发应用。

英特尔一直表示他们的 XPU 计划才刚刚起步。在今年 2 月 17 日的英特尔年度投资者会议上,这家公司终于披露了 XPU 概念的下一步规划,即一个代号为 Falcon Shores 的新项目。

该项目主要针对超级计算/HPC 市场,其核心是一个新的处理器架构,可以将英特尔的 x86 CPU 和 Xe GPU 硬件置入同一颗 Xeon 芯片中。它计划在 2024 年发布,且英特尔预计它将提供 5 倍以上的每瓦性能和 5 倍于该公司当前平台的内存容量。

从非常高级的层面来看,Falcon Shores 看起来是一个用于服务器的 HPC 级 APU/SoC/XPU。虽然英特尔目前只提供了最基本的细节,但这家公司坦承,他们正在将 x86 CPU 和 Xe GPU 硬件合并到同一颗芯片中,并设法充分利用两者之间的协同作用。

而且,鉴于他们提到了先进的封装技术,可以肯定的是英特尔还有着比单片 die 更加复杂的设计方案,可能是独立的 CPU/GPU tile、HBM 内存(就像在代号 Sapphire Rapids 的 Xeon 芯片上使用的那样),或者是其他一些全新的设计。

再深入一点来讲,虽说整合多个独立组件往往会带来很多长期收益,但从这次发布来看英特尔的计划绝不只是将 CPU 和 GPU 整合到一颗芯片中(他们今天已经在消费级产品线这样做了)那么简单。

相比之下,英特尔高级副总裁兼加速计算系统和图形(AXG)集团总经理 Raja Koduri 的演讲清楚地表明,该公司希望赢得需要处理海量规模数据集的 HPC 用户的市场——那么大的数据集没法轻松放入独立 GPU 的内存里面。

相比之下,融合了 CPU 与 GPU 的芯片可以直接访问超大容量的 DDR 内存池,用不着花时间等待显存数据(相对)缓慢刷新,后者仍然是今天独立 GPU 的一大缺陷。

对于数据集规模超大的场景来说,即使有像 NVLink 和 AMD 的 Infinity Fabric 这样的高速接口,由于 HPC 级处理器操作数据的速度非常快,在 CPU 和 GPU 之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离,就可以节约很多能源并提升性能。

image.png

同时,英特尔还骄傲地表示 Falcon Shores 可以灵活配置 x86 和 Xe 核心之间的比例。虽然这里隐藏了很多复杂的技术细节,但从高层次上看,这家公司正在考虑提供具有不同数量计算内核的多个 SKU — 每种 SKU 都可能有着数量各异的 x86 CPU 和 Xe GPU tile。

从硬件的角度来看,英特尔似乎计划将其下一代技术中的大部分都投入到 Falcon Shores 中,以满足超算市场的需求。这款芯片预计将基于“埃米时代工艺”制造,考虑到 2024 年的发布日期,该芯片可能会使用英特尔的 20A 工艺。除了未来的 x86/Xe 内核,Falcon Shores 芯片还将配备英特尔的“极限带宽共享内存”。

在所有这些技术的支持下,英特尔预计 Falcon Shores 将在几个指标上比他们现有的一代产品提升 5 倍左右,具体来说是每瓦性能提高 5 倍、单个(Xeon)插座的计算密度提高 5 倍、内存容量提高 5 倍,以及内存带宽提高 5 倍。简而言之,该公司对 Falcon Shores 的性能有很高的期望,考虑到它所针对的是竞争激烈的 HPC 市场,这也是很合理的。

也许最有趣的是,为了获得这样的性能提升,英特尔并不只是从原始的硬件吞吐量方面来考虑问题。Falcon Shores 的公告还提到,开发人员将可以使用针对该芯片设计的“大大简化的 GPU 编程模型”,这表明英特尔所做的工作不只是把一些 Xe 内核装进芯片而已。这一举措的效果还有待观察,但简化 GPU 编程一直都是 GPU 计算行业的一个主要目标,特别是对于融合 CPU 和 GPU 核心的异构处理器来说更是如此。如果这些高吞吐量的芯片更容易编程,也就更容易被开发人员所接受,而且减少/消除同步和数据准备的要求也可以在很大程度上帮助开发人员。

随着该公司继续推进该项目的研发工作,未来几年内我们应该能听到更多关于 Falcon Shores 的消息。

原文链接:

https://www.anandtech.com/show/17268/intel-goes-full-xpu-falcon-shores-to-combine-x86-and-xe-for-supercomputers

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
7月前
|
人工智能 搜索推荐 物联网
高通正式推出高通AI Hub,支持超过75款AI大模型
【2月更文挑战第9天】高通正式推出高通AI Hub,支持超过75款AI大模型
305 2
高通正式推出高通AI Hub,支持超过75款AI大模型
|
机器学习/深度学习 Web App开发 分布式计算
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(1)
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(1)
401 0
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(1)
|
机器学习/深度学习 人工智能 PyTorch
7nm制程,比GPU效率高,Meta发布第一代AI推理加速器
7nm制程,比GPU效率高,Meta发布第一代AI推理加速器
419 0
|
存储 Web App开发 机器学习/深度学习
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(2)
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(2)
359 0
继Spark之后,UC Berkeley 推出新一代高性能深度学习引擎——Ray(2)
|
机器学习/深度学习 人工智能 边缘计算
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore
|
人工智能 AI芯片
寒武纪推出第二代云端AI芯片,采用16nm工艺性能比上代提升4倍
寒武纪宣布推出第二代云端AI芯片思元270(MLU270)及板卡产品,目标是提供速度更快、功耗更低、性价比更高的AI加速解决方案。
1852 0
英特尔联手Facebook,称将于下半年推出更通用的AI芯片
这一合作将会催生更加通用的AI芯片的诞生。
295 0
三星新一代AI芯片Exynos 9820或将发布,内置独立双NPU
这是三星首款内置NPU的Exynos 9系旗舰处理器。
440 0
|
机器学习/深度学习 人工智能 芯片
超越传统CPU?英特尔新一代AI芯片明年面世
昨天,英特尔首届AI开发者大会发布了一系列机器学习软件工具,并宣布包括其首款商用神经网络处理器产品将于2019年推出。
2012 0
下一篇
DataWorks