聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

简介: 阿里云服务器研发团队3篇论文入选IEEE EPEPS 2024和PCB West 2024,聚焦高速互连下SI性能研究。

【阅读原文】戳:聚焦高速互连SI性能研究丨阿里云技术论文入选IEEE EPEPS 2024和PCB West 2024

近日,国际高速电路设计、芯片封装和电气系统分析领域顶会IEEE EPEPS 2024和电路设计领域盛会PCB West 2024相继在北美召开,阿里云服务器研发团队共有3篇论文入选。此次阿里云入选的论文聚焦高速互连PCIe 6.0高密度通道优化设计、100G-PAM4 Ethernet风液冷环境对SI性能影响,以及浸没液冷环境下新型PCB板材CCL研究,相关研究成果对阿里云磐久AI Infra 2.0服务器高速互连架构设计及风液冷散热方案具有非常高的指导意义。

 

 

 

会议背景信息

 

 

 

 

EPEPS是电子互连、封装,以及系统性电气建模、分析和设计方面的前沿和新兴技术顶级国际会议。会议核心关注电气建模、设计和测量技术的最新进展,重点包括信号完整性和电源完整性、先进封装和异构集成性能优化、以及用于高速电子、射频和无线通信、以及量子计算的系统性能优化技术。

 

 

PCB West是全球最大的印刷电路板设计会议及展览会,植根于美国加州硅谷30多年,PCB West培训了大量的电路设计师,工程师和制造环节相关专业人士。每年有来自上百家公司数千名PCB电路领域相关专业人士注册参会,汇聚业界思想,激发创新。

 

随着新一代AI应用快速发展,所需算力基础设施规模变得越来越大,对数据处理,传输速率和带宽的要求也越来越高。‌AI应用的核心是深度学习模型训练,而深度学习模型训练需要大量的计算和数据传输,新一代PCIe 6.0标准相比前一代数据传输速率翻倍,达到64Gb/s。这使得PCIe 6.0在相同时间内可以传输更多数据,从而加快训练速度,提高AI模型的准确性和效果;此外AI应用通常需要处理大规模的数据集如图像,视频和语音等,PCIe6.0具有更高的带宽。每个通道的带宽提高到256GB/s,使得计算机系统可以更快地读取和写入大量的数据,加速AI应用的处理过程,提高系统的整体效率,从而支持更复杂的人工智能模型训练和推理。

 

AI训练/推理业务导致的数据量指数增长,使得无论单服务器中多GPU、CPU间C2C通信,还是在多服务器间组网,数据传输总体都呈现出高带宽、低延迟的技术特征。新一代的100G-PAM4 Ethernet能提供更大网络吞吐量,逐步成为应用主流。但是,高速信号的实现需要克服信号完整性问题,如信号损耗,反射和串扰等,确保在高速下仍能保持稳定的信号传输。想要充分发挥AI硬件算力效能,相关技术应用必须解决围绕信号完整性等的诸多挑战,因此,高密度PCIe 6.0相关的优化设计,100G-PAM4 Ethernet链路优化和PCB材料对于风液冷不同环境下高速信号完整性研究,在当下就显得更有价值和必要性。

 

入选论文研究背景和成果概要如下:

 

 

一、Fan-out Region Crosstalk Optimization of High-Density PCIe 6.0 SMT Connectors(EPEPS 2024)

 

 

研究背景:

 

模块化硬件设计系统在数据中心越来越受欢迎。这是因为最佳TCO模型更倾向于最大化组件共享,以便对各种服务器架构和配置具有成本效益。模块化驱动紧凑的PCB板设计,缩短高速信号PCB走线,并利用高速电缆组件连接各种模块。因此,高密度SMT连接器广泛应用于这些紧凑型电路板上。然而,在高速通道设计中,SMT连接器周围有限的布线面积不允许有足够的间距或屏蔽来优化高速信号串扰。尤其是PCIe 6.0信令采用PAM4调制,对噪声和干扰的敏感性明显提高。因此,高密度PCIe 6.0 PAM4的设计对串扰优化提出了更大的挑战和必要性。

 

研究成果:

 

本研究为了更好地理解高密度PCIe 6.0 SMT连接器不同扇出的串扰效应,详细说明了从动机和系统视角到不同的设计约束和案例描述,比较了模块化系统中高密度SMT连接器的各种PCB走线扇出设计方法。仿真和测量结果均显示出显著的串扰差异,对于实际的PCIe 6.0通道设计,优化扇出区域的串扰至关重要。研究结果有助于PCIe 6.0信号完整性的设计优化。随着PCIe 6.0设计变得越来越普遍,这项工作对于面临类似设计选择的系统设计人员将非常有用。

 

 

二、Comparative Evaluation of 100G-PAM4 Ethernet Link Performance in Air and Immersion Cooling Conditions(EPEPS 2024)

 

 

研究背景:

 

在各种计算应用和用例的推动下,以及人工智能的蓬勃发展,对更强大的计算芯片和系统的需求正在以爆炸式的速度增长。数据中心已成为全球电力消耗的主要业务部门,并面临着更多与能源效率相关的法规。在数据中心的整体能耗中,冷却是一个重要的组成部分。浸没式液冷,一种为数据中心提供高电力效率的冷却技术。然而,浸没式液冷对噪声敏感的100G-PAM4 Ethernet SI性能提出了独特的挑战。将QSFP 100G连接器从空气环境过渡到浸没冷却液的液体环境时,在之前的研究中可明显观察到SI问题:(1)阻抗不连续性增加,(2)插入损耗增大,(3)谐振频率偏移。因此,需要通过仿真高速信号Ethernet的全链路margin和信号误码率再结合实验室实际测量数据以掌握100G-PAM4 Ethernet在风冷和浸没液冷下的SI性能差异,进而提高成本效益加速高速互连架构的设计周期。

 

研究成果:

 

这项关于100G-PAM4 Ethernet链路性能的研究强调了在风冷和浸没液冷下对Ethernet高速互连进行精确设计的迫切需要。典型案例的仿真表明,现有的QSFP连接器在采用浸没液冷时,Ethernet链路COM仿真余量比风冷时降低了约2dB。尽管这些余量满足28dB通道要求的3dB,但1dB margin余量对HVM来说是高风险。为了降低这种风险,建议在仿真中采用实验设计(DOE)方法来覆盖corner cases。IBIS-AMI仿真表明,虽然现有的QSFP连接器在液体中表现出最差的误码率性能,但它在28dB信道上的margin比COM仿真所显示margin有所改进。这种改进的margin是因为IBIS-AMI模型可以更有效地模拟当前芯片接收器设计在液体环境中的适应性和弹性。实验室实际测量也证实了,与风冷相比,100G-PAM4链路的误码率BER性能在浸没液冷中下降了大约100倍。这种严重的退化强调了浸没式液冷对信号完整性的重大影响。开发为浸没液冷优化的QSFP连接器可以有效地补偿浸没冷却液带来的介电变化。最后,将用于浸没液冷优化的QSFP连接器与DOE仿真相结合评估高速Ethernet链路设计,将显著提高Ethernet高速互连通道设计在不同部署条件下的SI性能和可靠性。

 

 

三、A Case Study on the Performance and Reliability of New Low-Cost and Sustainable PCB Materials for Immersion-Cooling Computer Systems(PCB West 2024)

 

 

研究背景:

 

这项研究的重点是开发低成本、可持续的新型PCB材料,用于在浸没液冷环境中运行的计算机系统。随着云服务提供商将数据中心从风冷过渡到浸没式液冷,对适合这种浸没液冷环境的PCB需求也在增加。与风冷相比,浸没液冷具有显著的优势,包括更低、更稳定的工作温度(30-50°C)、无湿度和不可燃环境(无氧)。这些条件特别有利于PCB材料,如铜箔基板(CCL),一种常见的PCB板材材料。

 

研究成果:

 

本案例展示了浸没液冷为PCB CCL提供的各种环境优势,通过利用这些优势,我们为在浸没液冷环境中运行的计算机系统开发定制新型CCL。针对浸没液冷的CLL新材料的开发策略主要包括:

 

1、更低更稳定的工作温度(30~50℃):这意味着CCL在浸没液冷中更容易满足SI性能要求。在风冷条件下,通常需要添加更多的PPO来满足高温(max. ~100℃)下的SI性能。因此,我们决定在新的PPO树脂中减少PPO的含量。我们也探索了用其他更容易获得的树脂材料完全取代昂贵的PPO的可能性。

 

2、Humidity-free:这意味着吸湿率要求将更容易得到满足。在风冷条件下,使用卤素成分Br(溴)和Cl(氯)使CCL更防潮。因此,我们建议减少浸没液冷CCL中Br和Cl的使用比例。

 

3、不可燃环境(在浸没液冷中处于无氧环境):这意味着PCB CCL在浸没液冷环境中不具有可燃条件,则更容易满足UL可燃性要求。在风冷条件下,采用Br和Cl来提高阻燃性。因此,我们决定进一步降低浸没液冷CCL中Br和Cl的比例。

 

对新型浸没液冷CCL和PCB在浸没前后进行了的电性能和可靠性全面测试验证。测试数据满足预期、低风险。因此,本研究证明了新型CCL材料在浸没液冷环境中的潜在优势。浸没式液冷不仅为数据中心提供了高电力效率优势,而且还可以使用具有成本效益,可持续的新PCB CCL,减少对环境有害物质的使用,并减少PCB开发的总体碳足迹。


 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
25天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
17天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
4天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
1天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
251 12
|
19天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
21天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2579 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
3天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
169 2
|
1天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
101 65
|
21天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1578 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
4天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
256 2