昨天写了《Dell PowerEdge R940解析:四路顶配服务器维护平民化》,今天继续。
对于R7x0这样的2U主力服务器机型,说实话我觉得不是特别好写。一方面不如四路有特点,另外又是互联网等行业消耗最多的,可以说乃服务器厂商必争之地。正如业内同行所言,比较有追求的厂商在某些功能参数上如果落后领先者一代,因为只要你愿意投入下一代产品就可能追上。
不过,指标归指标、品质归品质。服务器的R.A.S.(可靠性、可用性、可维护性)才是更重要的实力体现。关于13G PowerEdgeR730的品质,多听听用户端的口碑就好,不需要我在这里主观评论什么。
支持3/6块共900W GPU:PCIe散热设计非易事
今天介绍这台R740xd样机,前面板是2U 12个3.5英寸盘位的布局。
在机箱后端选配了2个3.5英寸热插拔驱动器位,当然该机型还有更多灵活的选择。
还是看机箱上盖内侧的贴纸说明,最上面的配置是除了NDC(网卡模块)之外7个全高PCIe扩展槽;
往下是前端配12个3.5英寸盘(0-11),后背4个2.5英寸盘位;
如果前端换成24个2.5寸硬盘/SSD,后面再加上4个就是28块。当然机箱中部还可以有(+4),这个我在下文中会介绍;
如果都是3.5寸盘,R740xd前后端一共是12+2的配置,同样可以在机箱中部加盘(+4)。
这里我想特别提一下GPU支持,因为好几位朋友都问到我R740(xd)支持3块300W双插槽GPU的事情。据我了解,Dell可能不是第一家做到这点的,但要做到解决好散热却不太容易。
上图引用自技术文档《Direct from Development –PowerEdge Multi-Vector Cooling》,应该代表了R740系列服务器7个PCIe扩展槽可以支持最大的散热气流量,LFM单位表示线性英尺每分钟。一般负载下风扇不需要全速运转,可以根据对应位置的传感器温度值来做精细调节。
与PowerEdge 14G服务器同步更新的iDRAC9管理界面中,PCIe Airflow设置部分可以识别扩展卡是否为第三方、类型(FC HBA、RAID或者SSD)。对于第三方PCIe扩展卡,Dell可能识别不准其功耗,如果自动的200LFM风量不够合适,也可以手动调节。最终都会反应到6个系统风扇的转速上。
注:根据690LFM支撑150W GPU来推算,200LFM大约能支持40多瓦功耗的PCIe扩展卡,如果20W以内改到100LFM应该问题不大。我这么算也可能不准:)
拆下来的风扇排。从这个角度还可以看到PowerEdge R740xd的SAS背板,上面带热管散热片的就是Expander芯片。由于R740xd还可以支持最多24个2.5英寸U.2 NVMe SSD,所以可选不同的热插拔背板。
NVDIMM:电池保护、Oracle数据库和SDS应用
PowerEdge R740服务器支持12个NVDIMM,虽然这台样机没有配,不过从这张图上可以看出对应电池模块固定的位置。如果想从平面变成三维理解,可以接着往下看。
在7月12日的PowerEdge 14G发布会上,Dell列举了2家合作伙伴在应用中测试NVDIMM的价值,其中一家是大名鼎鼎的Oracle服务商云和恩墨。上图中列举的是NVDIMM放Redo log性能提高20倍,对比平台配置信息没有详细讲。
NVDIMM就是DRAM内存的性能,受限于Backupto Flash掉电保护设计,目前容量应该在单条8-32GB之间。如果想兼顾性能(低延时)和容量,使用3D XPoint Memory的Intel Optane SSD P4800X 375GB表现也不错,参见《Optane P4800X评测(2):Oracle 170万TPM意味着什么?》一文。
另一家合作伙伴是XSKY,也是Dell发起的“未来就绪企业云联盟”成员,我在《NVMeF的另一种用法:连接AFA控制器和JBOF》中曾经提到过两家公司的共同案例。本次介绍了将PMEM(持久化内存)用于Ceph的Journal存储,延时可降低7倍。
此外,这个方案中还用到了PowerEdge 14G服务器的25GbE网卡,iWARP(RDMA)支持可以减少CPU负担、降低存储网络延时。
打开上盖的Dell PowerEdge R740xd
机箱内部驱动器托架、PERC、NDC等
上面就是R740xd机箱中部的驱动器托架,看着和上一代R730xd差别不大,主要变化应该是支持2.5英寸转换套件。由于这里的视角是从机箱后端看,所以最左边那个盘位应该就是和NVDIMM电池共用的。
加上这4个盘位,R740xd支持的最大3.5英寸硬盘可达18块,2.5寸驱动器最多32个。
上图是拆下的机箱后端那2个3.5英寸热插拔托架,分量够重可见钢板厚度。
也许有朋友会问,机箱后端能否设计更多的盘位?内部托架如果使用2.5寸盘可否支持更多?我认为这里要考虑2个问题,不一定最大就好:
1、 硬盘控制器(SAS RAID卡、HBA)、扩展器支持的端口数量。比如48口SAS Expander,如果支持双RAID卡上行占据16 lane,剩下正好是32盘位;
2、 散热、散热、散热,重要的事情讲三遍。因为机箱内部和后端的硬盘/SSD进风温度没有前面板那么乐观,这个和GPU支持是同样的道理。
我拆下其中一颗CPU的散热器,下面露出LGA-3647插座。
Dell PERC SAS/SATA RAID卡模块的样子没有变,14G服务器除了PERC9还可选新一代PERC10(H740p、H840),Cache容量可以更大。
为什么还用电池而不是电容,理由参见《炉石传说数据库损坏:这锅RAID卡电池背吗?》。
Dell服务器专用的NDC网络子卡模块,这里同样配置了Broadcom 10G/GbE 2+2P 57800-t rNDC。大家还记得上一篇中它在PowerEdge R940中是怎么转成竖插的吗?
细心的朋友可能看到了它——IDSDM Dual-SD模块插在NDC和电源之间的主板边缘位置。
今天先写到这里吧,下周有时间继续给大家分享别的Xeon Scalable服务器。
参考资料
《Direct from Development – PowerEdge Multi-Vector Cooling》http://en.community.dell.com/techcenter/extras/m/white_papers/20444244