聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

简介: 阿里云服务器研发团队3篇论文入选IEEE EPEPS 2024和PCB West 2024,聚焦高速互连下SI性能研究。

【阅读原文】戳:聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

近日,国际高速电路设计、芯片封装和电气系统分析领域顶会IEEE EPEPS 2024和电路设计领域盛会PCB West 2024相继在北美召开,阿里云服务器研发团队共有3篇论文入选。此次阿里云入选的论文聚焦高速互连PCIe 6.0高密度通道优化设计、100G-PAM4 Ethernet风液冷环境对SI性能影响,以及浸没液冷环境下新型PCB板材CCL研究,相关研究成果对阿里云磐久AI Infra 2.0服务器高速互连架构设计及风液冷散热方案具有非常高的指导意义。

 

 

 

会议背景信息

 

 

 

 

EPEPS是电子互连、封装,以及系统性电气建模、分析和设计方面的前沿和新兴技术顶级国际会议。会议核心关注电气建模、设计和测量技术的最新进展,重点包括信号完整性和电源完整性、先进封装和异构集成性能优化、以及用于高速电子、射频和无线通信、以及量子计算的系统性能优化技术。

 

 

PCB West是全球最大的印刷电路板设计会议及展览会,植根于美国加州硅谷30多年,PCB West培训了大量的电路设计师,工程师和制造环节相关专业人士。每年有来自上百家公司数千名PCB电路领域相关专业人士注册参会,汇聚业界思想,激发创新。

 

随着新一代AI应用快速发展,所需算力基础设施规模变得越来越大,对数据处理,传输速率和带宽的要求也越来越高。‌AI应用的核心是深度学习模型训练,而深度学习模型训练需要大量的计算和数据传输,新一代PCIe 6.0标准相比前一代数据传输速率翻倍,达到64Gb/s。这使得PCIe 6.0在相同时间内可以传输更多数据,从而加快训练速度,提高AI模型的准确性和效果;此外AI应用通常需要处理大规模的数据集如图像,视频和语音等,PCIe6.0具有更高的带宽。每个通道的带宽提高到256GB/s,使得计算机系统可以更快地读取和写入大量的数据,加速AI应用的处理过程,提高系统的整体效率,从而支持更复杂的人工智能模型训练和推理。

 

AI训练/推理业务导致的数据量指数增长,使得无论单服务器中多GPU、CPU间C2C通信,还是在多服务器间组网,数据传输总体都呈现出高带宽、低延迟的技术特征。新一代的100G-PAM4 Ethernet能提供更大网络吞吐量,逐步成为应用主流。但是,高速信号的实现需要克服信号完整性问题,如信号损耗,反射和串扰等,确保在高速下仍能保持稳定的信号传输。想要充分发挥AI硬件算力效能,相关技术应用必须解决围绕信号完整性等的诸多挑战,因此,高密度PCIe 6.0相关的优化设计,100G-PAM4 Ethernet链路优化和PCB材料对于风液冷不同环境下高速信号完整性研究,在当下就显得更有价值和必要性。

 

入选论文研究背景和成果概要如下:

 

 

一、Fan-out Region Crosstalk Optimization of High-Density PCIe 6.0 SMT Connectors(EPEPS 2024)

 

 

研究背景:

 

模块化硬件设计系统在数据中心越来越受欢迎。这是因为最佳TCO模型更倾向于最大化组件共享,以便对各种服务器架构和配置具有成本效益。模块化驱动紧凑的PCB板设计,缩短高速信号PCB走线,并利用高速电缆组件连接各种模块。因此,高密度SMT连接器广泛应用于这些紧凑型电路板上。然而,在高速通道设计中,SMT连接器周围有限的布线面积不允许有足够的间距或屏蔽来优化高速信号串扰。尤其是PCIe 6.0信令采用PAM4调制,对噪声和干扰的敏感性明显提高。因此,高密度PCIe 6.0 PAM4的设计对串扰优化提出了更大的挑战和必要性。

 

研究成果:

 

本研究为了更好地理解高密度PCIe 6.0 SMT连接器不同扇出的串扰效应,详细说明了从动机和系统视角到不同的设计约束和案例描述,比较了模块化系统中高密度SMT连接器的各种PCB走线扇出设计方法。仿真和测量结果均显示出显著的串扰差异,对于实际的PCIe 6.0通道设计,优化扇出区域的串扰至关重要。研究结果有助于PCIe 6.0信号完整性的设计优化。随着PCIe 6.0设计变得越来越普遍,这项工作对于面临类似设计选择的系统设计人员将非常有用。

 

 

二、Comparative Evaluation of 100G-PAM4 Ethernet Link Performance in Air and Immersion Cooling Conditions(EPEPS 2024)

 

 

研究背景:

 

在各种计算应用和用例的推动下,以及人工智能的蓬勃发展,对更强大的计算芯片和系统的需求正在以爆炸式的速度增长。数据中心已成为全球电力消耗的主要业务部门,并面临着更多与能源效率相关的法规。在数据中心的整体能耗中,冷却是一个重要的组成部分。浸没式液冷,一种为数据中心提供高电力效率的冷却技术。然而,浸没式液冷对噪声敏感的100G-PAM4 Ethernet SI性能提出了独特的挑战。将QSFP 100G连接器从空气环境过渡到浸没冷却液的液体环境时,在之前的研究中可明显观察到SI问题:(1)阻抗不连续性增加,(2)插入损耗增大,(3)谐振频率偏移。因此,需要通过仿真高速信号Ethernet的全链路margin和信号误码率再结合实验室实际测量数据以掌握100G-PAM4 Ethernet在风冷和浸没液冷下的SI性能差异,进而提高成本效益加速高速互连架构的设计周期。

 

研究成果:

 

这项关于100G-PAM4 Ethernet链路性能的研究强调了在风冷和浸没液冷下对Ethernet高速互连进行精确设计的迫切需要。典型案例的仿真表明,现有的QSFP连接器在采用浸没液冷时,Ethernet链路COM仿真余量比风冷时降低了约2dB。尽管这些余量满足28dB通道要求的3dB,但1dB margin余量对HVM来说是高风险。为了降低这种风险,建议在仿真中采用实验设计(DOE)方法来覆盖corner cases。IBIS-AMI仿真表明,虽然现有的QSFP连接器在液体中表现出最差的误码率性能,但它在28dB信道上的margin比COM仿真所显示margin有所改进。这种改进的margin是因为IBIS-AMI模型可以更有效地模拟当前芯片接收器设计在液体环境中的适应性和弹性。实验室实际测量也证实了,与风冷相比,100G-PAM4链路的误码率BER性能在浸没液冷中下降了大约100倍。这种严重的退化强调了浸没式液冷对信号完整性的重大影响。开发为浸没液冷优化的QSFP连接器可以有效地补偿浸没冷却液带来的介电变化。最后,将用于浸没液冷优化的QSFP连接器与DOE仿真相结合评估高速Ethernet链路设计,将显著提高Ethernet高速互连通道设计在不同部署条件下的SI性能和可靠性。

 

 

三、A Case Study on the Performance and Reliability of New Low-Cost and Sustainable PCB Materials for Immersion-Cooling Computer Systems(PCB West 2024)

 

 

研究背景:

 

这项研究的重点是开发低成本、可持续的新型PCB材料,用于在浸没液冷环境中运行的计算机系统。随着云服务提供商将数据中心从风冷过渡到浸没式液冷,对适合这种浸没液冷环境的PCB需求也在增加。与风冷相比,浸没液冷具有显著的优势,包括更低、更稳定的工作温度(30-50°C)、无湿度和不可燃环境(无氧)。这些条件特别有利于PCB材料,如铜箔基板(CCL),一种常见的PCB板材材料。

 

研究成果:

 

本案例展示了浸没液冷为PCB CCL提供的各种环境优势,通过利用这些优势,我们为在浸没液冷环境中运行的计算机系统开发定制新型CCL。针对浸没液冷的CLL新材料的开发策略主要包括:

 

1、更低更稳定的工作温度(30~50℃):这意味着CCL在浸没液冷中更容易满足SI性能要求。在风冷条件下,通常需要添加更多的PPO来满足高温(max. ~100℃)下的SI性能。因此,我们决定在新的PPO树脂中减少PPO的含量。我们也探索了用其他更容易获得的树脂材料完全取代昂贵的PPO的可能性。

 

2、Humidity-free:这意味着吸湿率要求将更容易得到满足。在风冷条件下,使用卤素成分Br(溴)和Cl(氯)使CCL更防潮。因此,我们建议减少浸没液冷CCL中Br和Cl的使用比例。

 

3、不可燃环境(在浸没液冷中处于无氧环境):这意味着PCB CCL在浸没液冷环境中不具有可燃条件,则更容易满足UL可燃性要求。在风冷条件下,采用Br和Cl来提高阻燃性。因此,我们决定进一步降低浸没液冷CCL中Br和Cl的比例。

 

对新型浸没液冷CCL和PCB在浸没前后进行了的电性能和可靠性全面测试验证。测试数据满足预期、低风险。因此,本研究证明了新型CCL材料在浸没液冷环境中的潜在优势。浸没式液冷不仅为数据中心提供了高电力效率优势,而且还可以使用具有成本效益,可持续的新PCB CCL,减少对环境有害物质的使用,并减少PCB开发的总体碳足迹。


 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
3月前
|
存储
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
中国计算机学会(CCF)2022年版推荐目录涵盖了计算机体系结构、并行与分布计算、存储系统领域的多个A类会议和期刊。本文汇总了这些顶级资源的全称、出版社、dblp网址及领域。包括《ACM计算机系统汇刊》、《ACM存储汇刊》等期刊,以及ACM PPoPP、USENIX FAST等会议,为研究人员提供了重要学术参考。
CCF推荐A类会议和期刊总结:计算机体系结构/并行与分布计算/存储系统领域
|
3月前
|
分布式计算 数据挖掘 云计算
CCF推荐C类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
中国计算机学会(CCF)在计算机体系结构、并行与分布计算、存储系统领域推荐了一系列C类会议和期刊。此汇总涵盖了各期刊和会议的全称、出版社、dblp文献网址及研究领域,为学者和研究人员提供了重要的学术交流资源。列表包括《ACM Journal on Emerging Technologies in Computing Systems》、《Concurrency and Computation: Practice and Experience》等期刊,以及ISPA、CCGRID等会议。这些资源对推动领域内的学术交流和技术进步具有重要意义。
CCF推荐C类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
|
3月前
|
异构计算
CCF推荐B类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
中国计算机学会(CCF)定期发布国际学术会议和期刊目录,为科研人员提供参考。本文总结了计算机体系结构、并行与分布计算、存储系统领域的CCF推荐B类会议和期刊,包括会议和期刊的全称、出版社、dblp文献网址及领域分类。会议涵盖了SoCC、SPAA、PODC等26项重要国际会议,期刊则包括TAAS、TODAES、TECS等9种权威期刊,为相关领域的研究者提供了宝贵的资源。
CCF推荐B类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
|
机器学习/深度学习 传感器 人工智能
将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法
将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法
116 0
|
人工智能 运维 数据中心
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
大型数据中心内的网络“甜点”——阿里巴巴自研DAC之路
|
SDN
《可编程网络视角的网络创新研究》电子版地址
可编程网络视角的网络创新研究
79 0
《可编程网络视角的网络创新研究》电子版地址
|
存储 缓存 算法
学术加油站|基于 RDMA 的分布式系统研究进展
学术加油站|基于 RDMA 的分布式系统研究进展
830 0
学术加油站|基于 RDMA 的分布式系统研究进展
|
机器学习/深度学习 数据可视化
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
324 0
Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩
|
jstorm 数据采集 缓存
技术解读|完整揭秘通信领域顶会SIGCOMM 20’论文 阿里云网络洛神VTrace系统
近日,SIGCOMM 2020公布了今年的入选论文,阿里云网络产品的” VTrace: Automatic Diagnostic System for Persistent Packet Loss in Cloud-Scale Overlay Network”是国内历年来唯一一篇云网络方向的入选论文,今年SIGCOMM总计收到了250篇投稿,成功入选的仅54篇,阿里云网络产品洛神平台的技术实力得到了网络业界顶级会议的认可。 为了方便大家更通俗地理解这篇论文,本文将从技术层面解读云网络面临的问题,以及介绍VTrace系统的整体技术架构。
2823 0
技术解读|完整揭秘通信领域顶会SIGCOMM 20’论文 阿里云网络洛神VTrace系统