AMD公司的Epyc处理器官方阵容已经正式公布,其将与长久以来统治数据中心领域的英特尔旗下至强处理器家族展开一场捉对厮杀。
Epyc为AMD公司发布的服务器级处理器家族,与专门面向台式机与笔记本平台的Ryzen芯片相对应。全新AMD芯片皆立足AMD x86 Zen微架构打造而成的Ryzen与Epyc。
这会是AMD公司扳回一城的转折吗?其又能否帮助AMD打破英特尔公司的垄断地位?关于这些问题,我们将在后文中进行逐一探讨。作为文章的起始,我们首先路过这些疑问,聊聊其技术规格:此次发布的Epyc处理器皆属于14纳米系统芯片(简称SoC)处理器,并由Global Foundries负责代工制造。每块芯片当中封装有四块硅晶片,这一点与以往制造成本更为低廉的单一大型晶片有所区别。另外,每块晶片最多可容纳8个计算核心,这意味着单一处理器封装内可最多提供32个计算核心; 每个计算核心可运行一或两条物理线程。
各晶片利用AMD公司的Infinity Fabric(属于HyperTransport的增强版)进行内部互连。Infinity亦被用于将双插槽Epyc CPU对接在一起。每套处理器封装可通过八通道支持最高2 TB DDR4内存容量,且拥有128条PCIe通道。如果大家将两块Epyc系统芯片接入一套双插槽系统,则其各自可使用64条PCIe通道并通过Infinity协议实现彼此通信。换句话来说,单插槽Epyc可使用128条PCIe通道,而双插槽Epyc系统同样只能使用128条通道——而非256条——这是因为各处理器需要将其中的64条通道用于进行插槽间互连。
顺带一提,AMD公司实际上是将Epyc塑造为一款单插槽芯片,同时在用户需要时提供相对差强人意的双插槽兼容能力。
AMD Epyc芯片当中的四块晶片(其中的循环符号代表着Infinity互连结构)
Epyc处理器家族支持AMD公司的加密内存功能。这项技术具体分为三种模式,其一为透明模式,即对全部指向内存的读取与写入操作利用内存控制器中保有的密钥进行加密与解密。该密钥由BIOS在启动过程当中生成,且在理论上永远不会脱离至控制器之外——其无法被任何软件所读取。这一加密方案以透明化方式作用于操作系统、应用程序、虚拟机管理程序以及虚拟机自身。
第二种模式为SEM(即安全加密内存),其中选定的内存页面会由底层操作系统进行标记以注明为加密或者非加密,而控制器则同样利用仅其掌握并在每次引导时重新生成的密钥执行具体加密操作。只需要对给定页面中物理地址映射的第47位进行设置即可启用加密功能。
这两种模式的设计目标皆在于防止设备接受物理访问时其内存内容遭到嗅探,或者阻止恶意人士重新调整非易失性内存DIMM大小并从中提取敏感信息。总体来讲,这些功能主要是帮助那些态度谨慎的用户预防他人对其设备进行侵入。
而第三种模式则更为疯狂,即SEV(安全加密虚拟化)。此举亦表示出AMD公司勇于提供加密虚拟机并保护其免受虚拟机管理程序、底层操作系统、其它虚拟机以及设备之上任意代码侵扰的技术野心。
每套虚拟机皆如常由虚拟机管理程序分配予一个地址空间ID(简称ASID),而此ID则与控制器内保存的加密密钥密切相关。当为虚拟机分配CPU核心时间时,该控制器即可提取该虚拟机的ASID、查看其私钥,而后借此对全部实时内存访问内容进行加密与解密。另外,虚拟机管理程序也拥有自己的ASID——为0——且其永远无法查看这些密钥。如此一来,恶意人士即使入侵甚至劫持了虚拟机管理程序,也根本无法查看虚拟机中的实际内容乃至任何运行中的软件——这是因为虚拟机管理程序与主机操作系统并不具备密钥,所以全部数据皆会以乱码形式存在。
但这里正是最为奇怪的地方。SEV的设计目标在于服务那些不信任任何托管其虚拟机的安全敏感人士。这项技术会在虚拟机启动时进行验证,并确保其在启动前与启动期间未受到任何篡改,同时加密系统能够正常工作。这一过程涉及AMD公司为各平台打造的一套签名密钥数据库,这一点我们将在后文中进一步作出讲解。
全部加密操作(采用AES-128算法)都会在数据离开系统芯片之前即时完成,这会令每次访问的延迟增加约7纳秒。根据我们得到的消息,当启用此项功能时,整体性能会出现约1.5%的下降。这项功能亦适用于多计算核心,甚至能够在特定场景下兼容DMA。这一切皆由一块ARM Cortex协处理器与AMD的定制化固件支持并实现,其全部被同时封装在Epyc系统芯片当中——因此保护能否成功,完全取决于内置的代码片段是否切实有效。该协处理器亦提供其它一些服务,具体包括安全引导并在必要时确保仅启动经过加密签名的操作系统。
产品规格
接下来,我们将共同看看Epyc家族内各位成员的官方性能数据。这批信息日前刚刚发布,且AMD公司明显针对英特尔旗下的各款CPU给出了针锋相对的解决方案。
举例来说,根据本周一AMD公司在其德克萨斯州奥斯汀市办公室交付给各分析师与记者的资料,Epyc 7601对应的正是英特尔至强E5-2699A v4。根据AMD公司进行的一轮SPECint_rate_base2006整数基准性能测试,我们得到结论称其性能较英特尔同级产品高出47%。
不过这项特定基准测试代表的仅为日常性能,而非峰值处理能力输出。我们通常对于供应商自身发布的基准测试结果并不完全采信,这里提到只是为了帮助大家初步了解AMD各产品在数据中心市场内的定位及其所面对的竞争性产品。相关数字并不代表其真实性能,因为具体性能表现可能与实际或者相关工作负载类型有关——举例来说,跨多计算核心虚拟机的性能表现在很大程度上取决于芯片其它部分的协调能力,而不仅是内部计算核心间的互连机制。
AMD方面并没有给出7501的具体竞争对手,因此这里我们冒昧地决定将其与至强E5-4669 v4进行比较。
下面来看具体比较方向:核心数量一项显而易见,代表着每款系统芯片上的CPU核心数量; 线程代表着其物理线程数量; 基本与加速两种模式代表该处理器在正常与峰值情况下的CPU时钟频率; 三级缓存代表末级缓存大小; TDP代表最大功耗水平; SPECint为一项基准性能测试,AMD公司利用此项测试证明其处理器与同等级英特尔产品相比具有性能优势; 而价格则为建议零售价。这里如果列出了两项TDP数字,则代表着该处理器可以通过配置从两种运行模式选择一种——高功率高性能模式与低功率低性能模式。
AMD公司将其Epyc SKU划分为双插槽与单插槽两类——不过除了P编号SKU之外,其它型号皆可同时适应这两种配置。其中部分SKU出现了两次,这是因为其跨越这两种比较类型。因此,AMD公司建议在双插槽系统当中使用7301以取代售价高达800美元以上的英特尔至强E5-2640 v4,而7551P则专门面向单插槽服务器以对抗双英特尔至强E5-2650 v4配置。没错,AMD公司确实带种,敢于利用单插槽类SKU对阵英特尔的双插槽芯片,并宣称仍然能够在性能比拼中获胜。
双插槽类
CPU SKU |
计算核心/线程 |
基础/加速GHz |
三级缓存(MB) |
TDP |
SPECint |
价格 |
Epyc 7601 |
32 / 64 |
2.2 / 3.2 |
64 |
180瓦 |
+47% |
4000美元 |
至强 E5-2699A v4 |
22 / 48 |
2.4 / 3.6 |
55 |
145瓦 |
- |
4938美元 |
Epyc 7551 |
32 / 64 |
2 / 3 |
64 |
180瓦 |
+44% |
3200美元 |
至强 E5-2698 v4 |
20 / 40 |
2.2 / 3.6 |
50 |
135瓦 |
- |
3226美元 |
Epyc 7501 |
32 / 64 |
2 / 3 |
64 |
155/170瓦 |
N/A |
未知 |
至强E5-4669 v4 |
22 / 44 |
2.2 / 3 |
55 |
135瓦 |
- |
7007美元 |
Epyc 7451 |
24 / 48 |
2.3 / 3.2 |
48 |
180瓦 |
+47% |
2400美元 |
至强E5-2695 v4 |
18 / 36 |
2.1 / 3.3 |
45 |
120瓦 |
- |
2428美元 |
Epyc 7401 |
24 / 48 |
2 / 3 |
48 |
155/170瓦 |
+53% |
1700美元 |
至强E5-2680 v4 |
14 / 28 |
2.4 / 3.3 |
35 |
120瓦 |
- |
1745美元 |
Epyc 7351 |
16 / 32 |
2.4 / 2.9 |
32 |
155/170瓦 |
+63% |
1100美元 |
至强E5-2650 v4 |
12 / 24 |
2.2 / 2.9 |
30 |
105瓦 |
- |
1171美元 |
Epyc 7301 |
16 / 32 |
2.2 / 2.7 |
32 |
155/170瓦 |
+70% |
800美元 |
至强E5-2640 v4 |
10 / 20 |
2.4 / 3.4 |
25 |
90瓦 |
- |
939美元 |
Epyc 7281 |
16 / 32 |
2.1 / 2.7 |
32 |
155/170瓦 |
+60% |
600美元 |
至强E5-2630 v4 |
10 / 20 |
2.2 / 3.1 |
25 |
85瓦 |
- |
671美元 |
Epyc 7251 |
8 / 16 |
2.1 / 2.9 |
16 |
120瓦 |
+23% |
400美元 |
至强E5-2620 v4 |
8 / 16 |
2.1 / 3 |
20 |
85瓦 |
- |
422美元 |
单插槽类
CPU SKU |
计算核心/线程 |
基础/加速GHz |
三级缓存(MB) |
TDP |
SPECint |
价格 |
Epyc 7551P |
32 / 64 |
2 / 3 |
64 |
180瓦 |
+21% |
2000美元 |
2 x 至强 E5-2650 v4 |
12 / 24 |
2.2 / 2.9 |
30 |
105瓦 |
- |
1171美元 |
Epyc 7401P |
24 / 48 |
2 / 3 |
48 |
155/170瓦 |
+22% |
1000美元 |
2 x至强E5-2630 v4 |
10 / 20 |
2.2 / 3.1 |
25 |
85瓦 |
- |
671美元 |
Epyc 7351P |
16 / 32 |
2.4 / 2.9 |
32 |
155/170瓦 |
+21% |
700美元 |
2 x至强E5-2620 v4 |
8 / 16 |
2.1 / 3 |
20 |
85瓦 |
- |
422美元 |
Epyc 7281 |
16 / 32 |
2.1 / 2.7 |
32 |
155/170瓦 |
+63% |
600美元 |
2 x至强E5-2609 v4 |
8 / 8 |
1.7 / 1.7 |
20 |
85瓦 |
- |
310美元 |
Epyc 7251 |
8 / 16 |
2.1 / 2.9 |
16 |
120瓦 |
+38% |
400美元 |
2 x至强E5-2603 v4 |
6 / 6 |
1.7 / 1.7 |
15 |
85瓦 |
- |
213美元 |
(以上价格为The Next Platform网站所列出的产品价格数据——AMD公司官方指出,7601、7551与7501的起步售价为3400美元; 7451与7401的起步售价为1850美元; 7351、7301与7281的起步售价为650美元; 7251起步售价为475美元。单插槽7551P价格为2100美元,7401P为1075美元,而7351P则为750美元。)
这里,我们根据上述数据整理出一些初步的结论。首先,功率表现可能令人感到惊讶。另外,以上至强皆为发布于2016年的14纳米向外扩展Broadwell E5-26xx系列处理器,而非更为强大的向上扩展E7或者火力全开的Broadwell E5-46xx家族成员。再有需要提醒大家的是,英特尔公司今年还将公布其Skylake至强新方案,意味着目前我们尚不清楚AMD公司的Epyc到底能不能顶得住芯片巨头掀起的这波全新服务器处理器冲击。
就目前来看,AMD公司拿出与其Epyc产品比较的其实是当下市场上正在出售以及使用的大部分现役服务器处理器——即被全球各数据中心所广泛采用的向外扩展型Broadwell产品。最重要的是,这一切最终都将体现在价格之上:AMD惟一的希望在于允许客户以更低价格买到特定至强产品的替代方案。这意味着AMD公司必须高度关注最为核心的关键性指标:每美元每瓦性能——在多年来被英特尔芯片不断压榨之后,这是谷歌以及Facebook等大型芯片买家最为关注的因素。换言之,AMD的新产品必须接受芯片巨头在这一层面发起的挑战。
另外再来说说功耗,AMD公司表示其Epyc处理器属于系统芯片:其封装当中包含有北桥与南桥芯片,而非对接独立的外部控制器,因此就必须为其添加部分对应内存。另外,存储、网络以及部分GPU等要素也应被添加进来。这就意味着Epyc系统芯片的功耗水平实际上是包含了部分芯片组功耗。
再来聊聊优势,以上提到的Broadwell E5-26xx v4各自拥有40条PCIe通道且每插槽最高支持1.54 TB内存。而每块Epyc处理器则分别拥有64 KB与32 KB的一级指令与数据缓存,高于Broadwell家族的双32 KB配置; 另外,二级缓存前者为512 KB,达到后者256 KB的两倍。AMD公司指出,Epyc与Broadwell在二级缓存与二级缓存TLB延迟方面表现相当,但三级缓存延迟则仅为英特尔对应产品的大约一半。
根据我们了解的情况,Epyc芯片目前已经正式开始交付,并将于今年7月全面投放市场。而目前正在对该硬件进行测试的各方表示,他们期待着能够在下个月或者类似的时间点上迎来系统固件更新,从而解决现有芯片当中持续存在的部分性能问题。
其它产品
最后,AMD公司还谈到了其用于加快AI软件运行速度的Radeon图形处理器。其计划利用Radeon Instinct MI25(采用Vega架构,16 GB HBM2显存、300瓦、双PCIe插槽)进行模型训练; MI16(Polaris架构,16 GB DDR5显存、150瓦、单插槽)进行模型训练与推理运算; 而MI8(Fiji架构、4 GB HBM1显存、175瓦、双插槽)进行推理运算。
另据我们掌握的消息,MI25在处理32位浮点数学运算时可提供每秒12.3万亿次性能,处理16位浮点数学运算任务时则可实现每秒24.6万亿次性能水平。再有,其拥有高达每秒484 GB的内存传输带宽。MI16在16位或32位浮点运算时可实现最高每秒5.7万亿次性能表现,内存传输带宽为每秒224 GB。MI8在16位或32位浮点运算时可实现最高每秒8.2万亿次性能表现,内存传输带宽为每秒512 GB。各款产品皆将于今年第三季度开始向“技术合作伙伴”供货。
原文发布时间为: 2017年6月21日
本文作者:李超
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。