聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

简介: 阿里云服务器研发团队3篇论文入选IEEE EPEPS 2024和PCB West 2024,聚焦高速互连下SI性能研究。

【阅读原文】戳:聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

近日,国际高速电路设计、芯片封装和电气系统分析领域顶会IEEE EPEPS 2024和电路设计领域盛会PCB West 2024相继在北美召开,阿里云服务器研发团队共有3篇论文入选。此次阿里云入选的论文聚焦高速互连PCIe 6.0高密度通道优化设计、100G-PAM4 Ethernet风液冷环境对SI性能影响,以及浸没液冷环境下新型PCB板材CCL研究,相关研究成果对阿里云磐久AI Infra 2.0服务器高速互连架构设计及风液冷散热方案具有非常高的指导意义。

 

 

 

会议背景信息

 

 

 

 

EPEPS是电子互连、封装,以及系统性电气建模、分析和设计方面的前沿和新兴技术顶级国际会议。会议核心关注电气建模、设计和测量技术的最新进展,重点包括信号完整性和电源完整性、先进封装和异构集成性能优化、以及用于高速电子、射频和无线通信、以及量子计算的系统性能优化技术。

 

 

PCB West是全球最大的印刷电路板设计会议及展览会,植根于美国加州硅谷30多年,PCB West培训了大量的电路设计师,工程师和制造环节相关专业人士。每年有来自上百家公司数千名PCB电路领域相关专业人士注册参会,汇聚业界思想,激发创新。

 

随着新一代AI应用快速发展,所需算力基础设施规模变得越来越大,对数据处理,传输速率和带宽的要求也越来越高。‌AI应用的核心是深度学习模型训练,而深度学习模型训练需要大量的计算和数据传输,新一代PCIe 6.0标准相比前一代数据传输速率翻倍,达到64Gb/s。这使得PCIe 6.0在相同时间内可以传输更多数据,从而加快训练速度,提高AI模型的准确性和效果;此外AI应用通常需要处理大规模的数据集如图像,视频和语音等,PCIe6.0具有更高的带宽。每个通道的带宽提高到256GB/s,使得计算机系统可以更快地读取和写入大量的数据,加速AI应用的处理过程,提高系统的整体效率,从而支持更复杂的人工智能模型训练和推理。

 

AI训练/推理业务导致的数据量指数增长,使得无论单服务器中多GPU、CPU间C2C通信,还是在多服务器间组网,数据传输总体都呈现出高带宽、低延迟的技术特征。新一代的100G-PAM4 Ethernet能提供更大网络吞吐量,逐步成为应用主流。但是,高速信号的实现需要克服信号完整性问题,如信号损耗,反射和串扰等,确保在高速下仍能保持稳定的信号传输。想要充分发挥AI硬件算力效能,相关技术应用必须解决围绕信号完整性等的诸多挑战,因此,高密度PCIe 6.0相关的优化设计,100G-PAM4 Ethernet链路优化和PCB材料对于风液冷不同环境下高速信号完整性研究,在当下就显得更有价值和必要性。

 

入选论文研究背景和成果概要如下:

 

 

一、Fan-out Region Crosstalk Optimization of High-Density PCIe 6.0 SMT Connectors(EPEPS 2024)

 

 

研究背景:

 

模块化硬件设计系统在数据中心越来越受欢迎。这是因为最佳TCO模型更倾向于最大化组件共享,以便对各种服务器架构和配置具有成本效益。模块化驱动紧凑的PCB板设计,缩短高速信号PCB走线,并利用高速电缆组件连接各种模块。因此,高密度SMT连接器广泛应用于这些紧凑型电路板上。然而,在高速通道设计中,SMT连接器周围有限的布线面积不允许有足够的间距或屏蔽来优化高速信号串扰。尤其是PCIe 6.0信令采用PAM4调制,对噪声和干扰的敏感性明显提高。因此,高密度PCIe 6.0 PAM4的设计对串扰优化提出了更大的挑战和必要性。

 

研究成果:

 

本研究为了更好地理解高密度PCIe 6.0 SMT连接器不同扇出的串扰效应,详细说明了从动机和系统视角到不同的设计约束和案例描述,比较了模块化系统中高密度SMT连接器的各种PCB走线扇出设计方法。仿真和测量结果均显示出显著的串扰差异,对于实际的PCIe 6.0通道设计,优化扇出区域的串扰至关重要。研究结果有助于PCIe 6.0信号完整性的设计优化。随着PCIe 6.0设计变得越来越普遍,这项工作对于面临类似设计选择的系统设计人员将非常有用。

 

 

二、Comparative Evaluation of 100G-PAM4 Ethernet Link Performance in Air and Immersion Cooling Conditions(EPEPS 2024)

 

 

研究背景:

 

在各种计算应用和用例的推动下,以及人工智能的蓬勃发展,对更强大的计算芯片和系统的需求正在以爆炸式的速度增长。数据中心已成为全球电力消耗的主要业务部门,并面临着更多与能源效率相关的法规。在数据中心的整体能耗中,冷却是一个重要的组成部分。浸没式液冷,一种为数据中心提供高电力效率的冷却技术。然而,浸没式液冷对噪声敏感的100G-PAM4 Ethernet SI性能提出了独特的挑战。将QSFP 100G连接器从空气环境过渡到浸没冷却液的液体环境时,在之前的研究中可明显观察到SI问题:(1)阻抗不连续性增加,(2)插入损耗增大,(3)谐振频率偏移。因此,需要通过仿真高速信号Ethernet的全链路margin和信号误码率再结合实验室实际测量数据以掌握100G-PAM4 Ethernet在风冷和浸没液冷下的SI性能差异,进而提高成本效益加速高速互连架构的设计周期。

 

研究成果:

 

这项关于100G-PAM4 Ethernet链路性能的研究强调了在风冷和浸没液冷下对Ethernet高速互连进行精确设计的迫切需要。典型案例的仿真表明,现有的QSFP连接器在采用浸没液冷时,Ethernet链路COM仿真余量比风冷时降低了约2dB。尽管这些余量满足28dB通道要求的3dB,但1dB margin余量对HVM来说是高风险。为了降低这种风险,建议在仿真中采用实验设计(DOE)方法来覆盖corner cases。IBIS-AMI仿真表明,虽然现有的QSFP连接器在液体中表现出最差的误码率性能,但它在28dB信道上的margin比COM仿真所显示margin有所改进。这种改进的margin是因为IBIS-AMI模型可以更有效地模拟当前芯片接收器设计在液体环境中的适应性和弹性。实验室实际测量也证实了,与风冷相比,100G-PAM4链路的误码率BER性能在浸没液冷中下降了大约100倍。这种严重的退化强调了浸没式液冷对信号完整性的重大影响。开发为浸没液冷优化的QSFP连接器可以有效地补偿浸没冷却液带来的介电变化。最后,将用于浸没液冷优化的QSFP连接器与DOE仿真相结合评估高速Ethernet链路设计,将显著提高Ethernet高速互连通道设计在不同部署条件下的SI性能和可靠性。

 

 

三、A Case Study on the Performance and Reliability of New Low-Cost and Sustainable PCB Materials for Immersion-Cooling Computer Systems(PCB West 2024)

 

 

研究背景:

 

这项研究的重点是开发低成本、可持续的新型PCB材料,用于在浸没液冷环境中运行的计算机系统。随着云服务提供商将数据中心从风冷过渡到浸没式液冷,对适合这种浸没液冷环境的PCB需求也在增加。与风冷相比,浸没液冷具有显著的优势,包括更低、更稳定的工作温度(30-50°C)、无湿度和不可燃环境(无氧)。这些条件特别有利于PCB材料,如铜箔基板(CCL),一种常见的PCB板材材料。

 

研究成果:

 

本案例展示了浸没液冷为PCB CCL提供的各种环境优势,通过利用这些优势,我们为在浸没液冷环境中运行的计算机系统开发定制新型CCL。针对浸没液冷的CLL新材料的开发策略主要包括:

 

1、更低更稳定的工作温度(30~50℃):这意味着CCL在浸没液冷中更容易满足SI性能要求。在风冷条件下,通常需要添加更多的PPO来满足高温(max. ~100℃)下的SI性能。因此,我们决定在新的PPO树脂中减少PPO的含量。我们也探索了用其他更容易获得的树脂材料完全取代昂贵的PPO的可能性。

 

2、Humidity-free:这意味着吸湿率要求将更容易得到满足。在风冷条件下,使用卤素成分Br(溴)和Cl(氯)使CCL更防潮。因此,我们建议减少浸没液冷CCL中Br和Cl的使用比例。

 

3、不可燃环境(在浸没液冷中处于无氧环境):这意味着PCB CCL在浸没液冷环境中不具有可燃条件,则更容易满足UL可燃性要求。在风冷条件下,采用Br和Cl来提高阻燃性。因此,我们决定进一步降低浸没液冷CCL中Br和Cl的比例。

 

对新型浸没液冷CCL和PCB在浸没前后进行了的电性能和可靠性全面测试验证。测试数据满足预期、低风险。因此,本研究证明了新型CCL材料在浸没液冷环境中的潜在优势。浸没式液冷不仅为数据中心提供了高电力效率优势,而且还可以使用具有成本效益,可持续的新PCB CCL,减少对环境有害物质的使用,并减少PCB开发的总体碳足迹。


 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
Unix Linux Windows
【Linux】—— 命名管道详解
【Linux】—— 命名管道详解
304 0
|
网络协议 前端开发 Unix
QEMU&KVM-2 Live Migration
虚拟机的迁移是指把一台VM上的OS迁移到另外一台VM,两个VM可以run在不同的物理机上。 包括:Offline Migration和Live Migration。这里讲讲比较常用的Live Migration(热迁移)。 在热迁移过程中,Guest OS完全无感,其运行的任务,在快速迁移过后能继续运行。 首先,对于Guest OS从一个VM迁移到其他VM,涉及到对register配置,di
8187 0
QEMU&KVM-2 Live Migration
|
存储 缓存 弹性计算
重新审视 CXL 时代下的分布式内存
从以太网到 RDMA 再到 CXL,标志着互连技术的重大突破。
|
11月前
|
存储 人工智能 安全
喜报!阿里云荣获2024数据存储风云榜两大金奖
近日,由DOIT传媒主办的 “2024中国数据与存储峰会”在北京举行,大会期间重磅发布“2024年度存储风云榜”。经由行业大咖、技术专家及DOIT媒体三方的联合严格评审,阿里云文件存储CPFS凭借在性能、弹性、稳定安全、成本、Serverless化等多方位的持续创新获得2024年度AI存储产品金奖;阿里云云备份CloudBackup通过一系列安全可靠的企业级能力助力企业降本增效,获得2024年度数据保护产品金奖。
喜报!阿里云荣获2024数据存储风云榜两大金奖
|
7月前
|
传感器 定位技术
会议通知 | 第13届国际移动测量技术大会(MMT2025)二号通知
2025年6月20-22日,第13届国际移动测量技术大会(MMT2025)将在福建厦门举行,由厦门大学空间感知与计算实验室与ISPRS等联合承办。作为全球移动测量技术领域最大国际会议之一,MMT为相关研究、系统及应用提供交流平台。大会主席为王程教授,优秀论文将推荐至《PE&RS》和《The Photogrammetric Record》期刊发表。摘要投稿截止日期为2025年4月1日,详情见官网:https://mmt2025.xmu.edu.cn/2025/。
386 4
|
消息中间件 Kafka Python
Producer的错误处理与重试机制
【8月更文第29天】在分布式系统中,消息传递是核心组件之一,它通常通过消息队列(如 Kafka、RabbitMQ 或其他)来实现。当生产者尝试将消息发送到消息队列时,可能会遇到各种类型的故障,例如网络中断、服务器不可用等。为了确保消息的可靠传递,需要实现有效的错误处理和重试机制。
470 2
|
JavaScript 容器
模态框(Modal
模态框(Modal)是一种用于在网页上展示重要信息或功能的交互式窗口。它通常在页面顶部或页面中部弹出,覆盖在页面之上,使页面部分内容不可见,直到模态框被关闭。模态框可以包含文本、图像、表单、按钮等元素,用于向用户展示信息、获取用户输入或执行其他操作。
409 4
|
移动开发 监控 网络协议
在Linux中,如何查看 http 的并发请求数与其 TCP 连接状态?
在Linux中,如何查看 http 的并发请求数与其 TCP 连接状态?
|
存储 中间件 API
Nest.js 实战 (六):使用 Session 在不同请求间存储信息
这篇文章介绍了在Nest.js中如何使用Session来记录客户状态。文章首先解释了Session的概念,然后详细说明了如何在Nest.js中安装和使用express-session,包括全局配置、参数说明、使用方式和常用方法。
347 0
Nest.js 实战 (六):使用 Session 在不同请求间存储信息