CPU将进入新时代:押注计算芯片的极限协同设计

简介: 我们现在进入了一个时代,那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格,更好的性能以及更好的散热特性。这将需要一种在更大范围的工作负载和设备上进行协同设计系统(co-designing systems )的进化方法。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

AABB5A22_26F1_442c_AB0B_36AE990746EA

我们现在进入了一个时代,那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格,更好的性能以及更好的散热特性。这将需要一种在更大范围的工作负载和设备上进行协同设计系统(co-designing systems )的进化方法。

让我们从显而易见的地方开始。越来越清楚的是,尽管世界上所有软件工程师都可能使您相信,但通用计算的美好时代是一个简单的X86指令集和操作系统内核是他们唯一需要的画布。绘制他们的代码。

X86计算生态系统的兴起使我们在分布式计算和各种运行时中实现了出色的寒武纪爆炸式增长,以执行可跨X86变体以及Arm和Power等其他体系结构移植的高级代码。数据存储、数据库,应用程序框架,虚拟机和运行时的数量惊人,多样化且美观。如果确实发生了寒武纪大爆炸,那就是分布式计算模型和计算硬件的多样性(过去十年中一直在增长)确实是通用X86引擎的功能,后者可以完成所有工作,或者有时很多,虽然他们不是支持各种工作负载的最佳方法。

当工作负载,框架和硬件都对齐时,这是一件很美的事情。2012年就是这种情况,大约在HPC开始过渡到将代码的并行组件卸载到GPU加速器的五年之后,机器学习算法最终找到了足够的数据并具有足够的并行处理能力以采用数学上早在1980年代就听起来不错的算法,并将它们用于图像识别,语音识别,语音到文本翻译,视频识别和其他工作负载的测试。而且,lo和hehold,他们工作了。

现在AI的机器学习版本已经彻底改变了我们思考软件编写以及管理业务和个人生活许多方面的方式。HPC和AI统一对供应商和用户而言都非常方便,因为可以执行一组工作负载的相同系统也可以完成另一组工作,在某些情况下,它们可以串行或并行地交织以创建AI增强的HPC。但是,正如我们之前指出的那样,HPC和AI之间这种谐波收敛(harmonic convergence)的便利并不一定要保持,而只有在软件和经济朝着相同的方向推动时才如此。

在2020年的这一点上,很难说它是否会成立,但是很明显的是,橡树岭国家实验室的1.5 exaflops的“Frontier” 系统将于2021年到期,劳伦斯·利弗莫尔国家实验室的2 exaflops的“ El Capitan”系统定于2022年问世。相关资料显示,这个系统混合了CPU-GPU,两者之间具有紧密耦合的计算和一致的内存。他们指出,将AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正确的选择,这对新贵X86和GPU芯片制造商来说是福音。话虽如此,劳伦斯·利弗莫尔(Lawrence Livermore)绝对清楚,El Capitan主要是一台HPC机器,具有一些相对较小的AI职责。

现代的单片CPU或使用单个插槽中的小芯片(chiplets)之间的互连创建虚拟CPU的插槽,确实是一个奇迹。当我们看这些芯片中的一种时,我们正在看的是仅仅几十年前的超级计算机,它们将需要如此多的单个芯片来构建,以至于让人难以置信。让我们花点时间看一下这些艺术品,从英特尔的28核“ Skylake” Xeon SP 裸片开始:

32997B4B_9F08_4331_A632_17670A954960

甚至西摩·克雷(Seymour Cray)都会拿出放大镜,花几个小时观察这种美丽。克雷(Cray)将花费我们预期的等量时间,研究IBM的24核“ Nimbus” Power9处理器:

916C7486_EBA5_4522_B71B_A3960106581A

我们还没有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 这些Arm服务器CPU的裸片图,但是就组件数量而言,毫无疑问,它们将同样复杂。我们也没有构成AMD“罗马” Epyc 7002系列的九中芯片的集合,但是我们稍后将在此查看一些Rome原理图。

如果您细心看,你会发现现代服务器CPU就像二十年前的大型iron NUMA的外观,只是所有组件都缩减为一个裸片,他不仅包含CPU(今天称为内核),还包括L3缓存,PCI- Express和以太网控制器以及用于加密、数据压缩、内存压缩、矢量数学和十进制数学的各种加速器(IBM Power和System z都有)。如果您已经像我们一样从事了很长时间的行业,那么从大型NUMA服务器缩减到单个插槽的缩影确实是一个了不起的旅程。

AMD Rome会是你的目标吗?

有几件事很清楚。一方面,AMD在Rome方面的成功提供了一种设计良好的小芯片体系结构,即使从单片芯片迁移到小芯片设计时,即使对延迟产生影响,也可以提供性能和性价比方面的优势。在罗马走一走,看看:

B036AB0D_753C_46cc_A05B_9994FBB39AD8

Rome使用的Zen2内核的所有功能都优于Naples首次推出的Zen1内核,并且通过创建围绕单个I / O和内存控制器中枢的专用内核模块,大大改善了小芯片的互连体系结构。AMD这样做的所有意图和目的都是在单个14纳米管芯上混合了I / O和存储器控制器的NUMA控制器,该管芯由Globalfoundries制造,具有83.4亿个晶体管。

据了解,核心小芯片在单个裸片上具有两个四核核心复合体,其中八个裸片(骰子?)构成了总共64个核心,这些I / O核心都包裹在其中。每个核心小芯片都有39亿个晶体管,这些晶体管是由台积电在其7纳米工艺中蚀刻的,总共有322亿个晶体管用于计算。

全部加进去 Rome Epyc 7002小芯片工厂总共拥有395.4亿个晶体管,这肯定会超出任何代工厂的标线限制,而且要获得如此大芯片的良率也将变得更加疯狂。封装小芯片的麻烦,成本和风险不如制造标线片破坏单片服务器芯片的麻烦成本和风险大,至少对于拥有附属PC芯片业务的AMD而言,无论如何它都需要制造更小的芯片。

所有服务器CPU制造商迟早都将使用小芯片,但我们希望更加激进。我们希望将CPU分解为核心串行,整数处理要点,并撕裂所有已放置在芯片上的矢量引擎和加速器(这些整数引擎现在或在其旁边或在环形或网状互连中)。它们位于其他芯片中,它们属于一个世界,该世界将具有一致的系统间(CXL)和系统内(Gen-Z)一致协议集,以将计算元素捆绑在一起,以便它们可以以非对称方式共享内存或存储或symmetric fashion。

如果GPU加速器可以在64位或32位浮点处理上提供最佳的每瓦性能和每美元性能,那就可以了。将向量单元从CPU中取出,然后有两种选择:使芯片更小,更便宜,添加更多内核或提高时钟频率以创建性能更高或成本更低的串行整数计算引擎。

如果客户需要混合精度或更高精度的数据流引擎以及仅少量串行数据,主机计算,则可以将精简的CPU与FPGA紧密连接。并且假设至少要进行一些服务器虚拟化,尤其是在云和企业中,则应尽可能从服务器CPU上卸载这项工作。这意味着我们绝对假设每台服务器中都将有一个SmartNIC,可以像基板管理控制器(尚未发生的融合),服务器虚拟化或容器平台主机,以及可以运行虚拟网络和虚拟存储的地方一样工作,就像Amazon Web Services和Microsoft Azure一样。加密,解密,数据压缩和其他功能也可以从主机CPU中提取出来,并放入SmartNIC中,它们可以归为SmartNIC,并且可以用更少的钱完成。

最终,我们要优化专用芯片上的所有芯片性能,使其具有各种尺寸和容量,并具有互连功能,从而允许系统设计师以比超规模化者和云构建者所拥有的以太网更细粒度,更低的层次来混合它们。

试图做到这一点。这可能意味着socket的协议标准化,这可能将引致一些芯片制造商的抵制。但是有了这样的标准,系统架构师和芯片(实际上是socket)制造商可以拥有更广泛的计算选项板,用它们来绘制他们的许多工作负载,无论是在socket还是跨系统,或是它们的某种混合。

诚然,仍然会有那些想要通用服务器CPU的人,瑞士军刀可以完成所有工作。但是,我们谈论的是拥有一把剑,一把非常好的剪刀和一把无用的手锯,而是一系列微型版本的集合,这些版本最终并没有看上去有用。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-03-31
本文作者:Timothy Prickett Morgan
本文来自:“人工智能学家 微信公众号”,了解相关信息可以关注“人工智能学家

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
271 0
|
10月前
|
缓存 测试技术 数据中心
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
【计算机架构】计算 CPU 动态功耗 | 集成电路成本 | SPEC 基准测试 | Amdahl 定律 | MIPS 性能指标
383 0
|
10月前
|
算法 编译器
【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI
【计算机架构】响应时间和吞吐量 | 相对性能 | 计算 CPU 时间 | 指令技术与 CPI | T=CC/CR, CC=IC*CPI
879 1
|
21天前
|
C++
C++ 根据程序运行的时间和cpu频率来计算在另外的cpu上运行所花的时间
C++ 根据程序运行的时间和cpu频率来计算在另外的cpu上运行所花的时间
30 0
|
9天前
|
KVM 虚拟化
计算虚拟化之CPU——qemu解析
【9月更文挑战10天】本文介绍了QEMU命令行参数的解析过程及其在KVM虚拟化中的应用。展示了QEMU通过多个`qemu_add_opts`函数调用处理不同类型设备和配置选项的方式,并附上了OpenStack生成的一个复杂KVM参数实例。
|
22天前
|
算法 Windows
CAE如何基于CPU最佳核数和token等计算成本
【8月更文挑战第26天】在使用CAE(计算机辅助工程)进行分析计算时,需综合考虑CPU核数和token对成本的影响。CPU核数越多,虽能加速计算,但过多核数会因通信开销和内存带宽限制导致性能提升放缓。成本计算需考虑硬件租赁或购买费用及云服务收费标准。Token作为软件许可,需分摊到每次计算中。通过测试优化找到性能与成本的平衡点,实现最低成本下的高效计算。
|
2月前
|
并行计算 API 数据处理
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
GPU(图形处理单元)因其强大的并行计算能力而备受关注。与传统的CPU相比,GPU在处理大规模数据密集型任务时具有显著的优势。
|
3月前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存实例区别、CPU型号、性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)系列,区别在于CPU内存比。计算型1:2,如2核4G;通用型1:4,如2核8G;内存型1:8,如2核16G。实例有第五代至第八代,如c7、g5、r8a等,每代CPU型号和主频提升。例如,c7使用Intel Ice Lake,g7支持虚拟化Enclave。实例性能参数包括网络带宽、收发包能力、IOPS等,适合不同场景,如视频处理、游戏、数据库等
69 0
|
4月前
|
存储 芯片 块存储
计算机组成原理(2)-----存储芯片与CPU的连接
计算机组成原理(2)-----存储芯片与CPU的连接
161 1
|
3月前
|
芯片
芯片设计 | 一文读懂,CPU、精简指令集、复杂指令集该如何理解
芯片设计 | 一文读懂,CPU、精简指令集、复杂指令集该如何理解
223 0