英特尔的 XPU 计划:Falcon Shores 项目为超级计算机融合 x86 与 Xe 技术 Ryan Smith 王强 刘燕

简介: 过去几年中,英特尔公司发起了很多有趣的项目,其中之一就是 XPU。XPU 的理念是使用多种计算架构充分满足单一负载的复杂计算需求。在实践中,英特尔不仅为此开发了 CPU 和 GPU 这样的通用计算芯片,还发展了 FPGA 和 VPU 等针对特定用途的硬件。在软件层面上,所有这些硬件都由英特尔的 oneAPI 软件栈统一调配。这一软件栈的设计目标是抽象出各种硬件的差异,方便开发人员跨多种计算架构开发应用。

过去几年中,英特尔公司发起了很多有趣的项目,其中之一就是 XPU。XPU 的理念是使用多种计算架构充分满足单一负载的复杂计算需求。在实践中,英特尔不仅为此开发了 CPU 和 GPU 这样的通用计算芯片,还发展了 FPGA 和 VPU 等针对特定用途的硬件。在软件层面上,所有这些硬件都由英特尔的 oneAPI 软件栈统一调配。这一软件栈的设计目标是抽象出各种硬件的差异,方便开发人员跨多种计算架构开发应用。

英特尔一直表示他们的 XPU 计划才刚刚起步。在今年 2 月 17 日的英特尔年度投资者会议上,这家公司终于披露了 XPU 概念的下一步规划,即一个代号为 Falcon Shores 的新项目。

该项目主要针对超级计算/HPC 市场,其核心是一个新的处理器架构,可以将英特尔的 x86 CPU 和 Xe GPU 硬件置入同一颗 Xeon 芯片中。它计划在 2024 年发布,且英特尔预计它将提供 5 倍以上的每瓦性能和 5 倍于该公司当前平台的内存容量。

从非常高级的层面来看,Falcon Shores 看起来是一个用于服务器的 HPC 级 APU/SoC/XPU。虽然英特尔目前只提供了最基本的细节,但这家公司坦承,他们正在将 x86 CPU 和 Xe GPU 硬件合并到同一颗芯片中,并设法充分利用两者之间的协同作用。

而且,鉴于他们提到了先进的封装技术,可以肯定的是英特尔还有着比单片 die 更加复杂的设计方案,可能是独立的 CPU/GPU tile、HBM 内存(就像在代号 Sapphire Rapids 的 Xeon 芯片上使用的那样),或者是其他一些全新的设计。

再深入一点来讲,虽说整合多个独立组件往往会带来很多长期收益,但从这次发布来看英特尔的计划绝不只是将 CPU 和 GPU 整合到一颗芯片中(他们今天已经在消费级产品线这样做了)那么简单。

相比之下,英特尔高级副总裁兼加速计算系统和图形(AXG)集团总经理 Raja Koduri 的演讲清楚地表明,该公司希望赢得需要处理海量规模数据集的 HPC 用户的市场——那么大的数据集没法轻松放入独立 GPU 的内存里面。

相比之下,融合了 CPU 与 GPU 的芯片可以直接访问超大容量的 DDR 内存池,用不着花时间等待显存数据(相对)缓慢刷新,后者仍然是今天独立 GPU 的一大缺陷。

对于数据集规模超大的场景来说,即使有像 NVLink 和 AMD 的 Infinity Fabric 这样的高速接口,由于 HPC 级处理器操作数据的速度非常快,在 CPU 和 GPU 之间交换数据的延迟和带宽代价仍然相当高昂。因此如果能尽可能缩短这一链路的物理距离,就可以节约很多能源并提升性能。

image.png

同时,英特尔还骄傲地表示 Falcon Shores 可以灵活配置 x86 和 Xe 核心之间的比例。虽然这里隐藏了很多复杂的技术细节,但从高层次上看,这家公司正在考虑提供具有不同数量计算内核的多个 SKU — 每种 SKU 都可能有着数量各异的 x86 CPU 和 Xe GPU tile。

从硬件的角度来看,英特尔似乎计划将其下一代技术中的大部分都投入到 Falcon Shores 中,以满足超算市场的需求。这款芯片预计将基于“埃米时代工艺”制造,考虑到 2024 年的发布日期,该芯片可能会使用英特尔的 20A 工艺。除了未来的 x86/Xe 内核,Falcon Shores 芯片还将配备英特尔的“极限带宽共享内存”。

在所有这些技术的支持下,英特尔预计 Falcon Shores 将在几个指标上比他们现有的一代产品提升 5 倍左右,具体来说是每瓦性能提高 5 倍、单个(Xeon)插座的计算密度提高 5 倍、内存容量提高 5 倍,以及内存带宽提高 5 倍。简而言之,该公司对 Falcon Shores 的性能有很高的期望,考虑到它所针对的是竞争激烈的 HPC 市场,这也是很合理的。

也许最有趣的是,为了获得这样的性能提升,英特尔并不只是从原始的硬件吞吐量方面来考虑问题。Falcon Shores 的公告还提到,开发人员将可以使用针对该芯片设计的“大大简化的 GPU 编程模型”,这表明英特尔所做的工作不只是把一些 Xe 内核装进芯片而已。这一举措的效果还有待观察,但简化 GPU 编程一直都是 GPU 计算行业的一个主要目标,特别是对于融合 CPU 和 GPU 核心的异构处理器来说更是如此。如果这些高吞吐量的芯片更容易编程,也就更容易被开发人员所接受,而且减少/消除同步和数据准备的要求也可以在很大程度上帮助开发人员。

随着该公司继续推进该项目的研发工作,未来几年内我们应该能听到更多关于 Falcon Shores 的消息。

原文链接:

https://www.anandtech.com/show/17268/intel-goes-full-xpu-falcon-shores-to-combine-x86-and-xe-for-supercomputers

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
JSON 运维 JavaScript
进程管理工具PM2在python项目中的使用
说到进程管理,后端和运维的同学都不陌生。生产项目以及一些脚本任务都需要进行进程管理。现在市场上用得最多的当属supervisor了,但是它只能运行在 Unix-Like 的系统上,也就是说supervisor不能再windows上运行。 我们这里说的是另外一个进程管理工具PM2,PM2不仅仅适用于Unix-Like系统,同样适用于windows系统。这点对于开发者来说也是个福音,下面我们来说说PM2的简单使用。
1627 0
进程管理工具PM2在python项目中的使用
|
前端开发 测试技术 API
DDD领域驱动设计实战-分层架构及代码目录结构(上)
DDD领域驱动设计实战-分层架构及代码目录结构
1901 0
DDD领域驱动设计实战-分层架构及代码目录结构(上)
|
存储 缓存 关系型数据库
如何优化大表的查询速度?
本文介绍了优化大数据表查询速度的方法。关键点包括:1) 创建索引以加快查询;2) 优化查询语句,避免全表扫描;3) 使用缓存来提高查询效率,利用内存访问速度快和IO操作少的优势;4) 提升硬件配置,如使用固态硬盘和增加内存;5) 数据归档和分离,减少主表数据量;6) 实施数据库分片,如分库分表技术,以分散数据并提高并发性能。分库分表包括只分库、只分表(横向和纵向)以及两者结合,常见的分库分表中间件有ShardingSphere、MyCAT、TDDL和Vitess。这些策略通常结合使用,以应对大数据量查询的挑战。
955 1
|
11月前
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
417 85
|
前端开发 小程序 JavaScript
面试官:px、em、rem、vw、rpx 之间有什么区别?
面试官:px、em、rem、vw、rpx 之间有什么区别?
401 0
|
人工智能 自然语言处理 安全
文生视频大模型
Sora 是由 OpenAI 发布的一款文本生成视频的人工智能模型,能够在理解文本的基础上生成高质量的视频内容。Sora 具备 3D 一致性、远程相干性和物体持久性等特性,但目前仍处于测试阶段,仅限特定专家使用,以确保其安全性。
|
机器学习/深度学习 数据可视化 数据挖掘
Python在数据分析中的应用实践
在数字化时代,数据分析成为了驱动企业、科研等多个领域发展的关键力量。Python,作为一门高效、易学的编程语言,其在数据分析领域的应用尤为广泛。本文将深入探讨Python在数据分析中的实际应用,包括数据处理、可视化、以及机器学习等方面。我们将通过实例说明Python如何帮助分析师高效地处理和分析数据,从而洞察数据背后的信息,支持决策制定。此外,文章还将简要介绍几个常用的Python数据分析库,如Pandas、NumPy、Matplotlib和Scikit-learn,并提供一些实用的代码示例,帮助读者快速入门Python数据分析。
145 27
|
API
Pinia 实用教程【Vue3 状态管理】状态持久化 pinia-plugin-persistedstate,异步Action,storeToRefs(),修改State的 $patch,$reset
Pinia 实用教程【Vue3 状态管理】状态持久化 pinia-plugin-persistedstate,异步Action,storeToRefs(),修改State的 $patch,$reset
3867 1
|
弹性计算 负载均衡 关系型数据库
使用资源编排 ROS 轻松部署高可用架构网站——以 WordPress 为例
WordPress 是流行的开源 CMS,阿里云的资源编排服务 (ROS) 提供 IaC 功能,简化云上资源自动化部署,如创建 VPC、ECS、SLB、RDS 和弹性伸缩等。通过 ROS 模板(JSON/YAML),用户能快速部署高可用的 WordPress 环境,包括负载均衡、多可用区的 ECS 服务器集群、高可用 RDS 数据库等。模板定义了资源、参数和输出,用户在 ROS 控制台配置参数后一键部署。ROS 提升了部署效率,便于跨地域复制相同架构。
使用资源编排 ROS 轻松部署高可用架构网站——以 WordPress 为例
|
前端开发 iOS开发 Android开发
React Native跨平台开发实战:从零到一
学习React Native跨平台开发,首先安装Node.js和React Native CLI,设置Android/iOS环境。使用CLI创建项目,如`npx react-native init MyProject`。运行应用:`npx react-native run-android`或`run-ios`。编写组件,如在App.js中创建Hello World。添加样式,安装第三方库如react-native-vector-icons,使用react-navigation进行路由和导航。
338 2