【阅读原文】戳:连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024
近日,国际高速电路设计、芯片设计和封装系统集成领域顶会DesignCon和电子元器件技术领域顶会ECTC相继公布了2024年会议论文入选名单,阿里云服务器研发团队各有1篇论文入选。此次阿里云入选的论文聚焦高速互连在PCIe5.0 和PCIe 6.0 风冷/液冷环境下的SI链路性能,以及浸没液冷环境下服务器电子元器件长期可靠性和稳定性研究,相关研究成果对阿里云下一代磐久服务器架构设计和浸没液冷大规模部署具有非常高的指导意义。
会议背景信息:DesignCon是高速信号处理和板级和系统设计领域的全球首屈一指的国际性会议,每年全球半导体巨头、学术/行业组织,以及跨界新兴技术创业者汇聚于此。会议为半导体行业从业人员家提供了一个共享知识、探讨行业趋势、网络交流以及展示最新产品和技术的平台。此外,DesignCon还提供一系列技术研讨会、教育课程和专题讲座,使得它成为电子设计工程师和技术人员保持专业知识更新的重要资源。
电子元件与技术会议 (ECTC) 是由IEEE和ECTC联合举办的一个针对电子封装、元件和微系统技术领域的国际性会议,每年吸引来自全球的半导体行业大厂、知名院校及世界知名半导体研究机构和行业组织汇聚于此。同时,会议吸引了来自全球的学者、研究人员、工程师、科学家以及行业专家参与,他们在这里分享最新的研究成果、技术进展、市场趋势以及未来的挑战与机遇。
拥有全球最大规模浸没式液冷数据中心的阿里云,一直走在浸没式液冷技术产研结合前列,这也是阿里云连续第4年有论文入选DesignCon会议,再次展示了阿里云服务器研发团队在浸没式液冷领域的技术实力和基础研究能力,以及和合作伙伴一道紧跟业界前沿,迎接液冷技术发展和落地应用全面挑战的决心。
入选论文研究背景和成果概要如下:
一、Immersion-Cooling Impact on PCIe 5.0 (NRZ) and PCIe 6.0 (PAM4) Link Performance from Measurements
研究背景:新一代服务器平台设计中PCIe将从PCIe 5.0 (32Gbps, NRZ)演进到PCIe 6.0 (64Gbps, PAM4),研究表明,相比于NRZ信令PCIe6.0 PAM4信令对噪声敏感度将提升3倍。当前的PCIe 6.0接收器设计无法消除额外反射噪声影响的浮动DFE/RXFFE。这对云服务器PCIe高速通道设计提出了巨大挑战,尤其是在浸没液冷环节下挑战更大。这是因为通道设计中高速互连组件的周围介质从空气切换到较高介电常数(Er)的冷却液时,通道会因为产生过多的噪声反射从而进一步影响全链路性能。由于PCIe 6.0还处于早期阶段,之前的链路性能研究大多是基于仿真。所以我们需要基于实际测量进一步研究风冷和浸没液冷环境下的SI性能,提前掌握新一代平台SI设计能力以支撑磐久服务器方升架构的持续演进。
研究成果:在本项工作中,我们在风冷和浸没液冷环境下对PCIe 5.0 (32Gbps, NRZ)和PCIe 6.0 (64Gbps, PAM4)的链路性能进行了测试。测试系统分别由3种不同类型的PCIe6.0线缆连接器组件组成。对于同一套测试系统,采用PCIe5.0,在Er=2.1液体中时,误码率测试结果显示PCIe 5.0误码率风冷和液冷无明显差异;采用PCIe6.0,在Er=2.1液体中时,测量的误码率对比空气中可以增加2个数量级,即100倍的误差计数。实验室测量结果表明,相较于NRZ信令和更简单的拓扑,PAM4信令和更复杂的拓扑将导致更大的性能下降,并且进一步证明了浸没液冷环节下性能下降更多。因此,本次研究对新一代云服务器PCIe6.0架构演进给出如下建议:
1)通过减少端对端高速连接器个数,实现风冷和液冷高速通道融合设计;
2)针对多连接器拓扑,通过差异化风冷和液冷连接器,优化设计和风冷连接器footprint、formfactor兼容的液冷连接器,实现风冷和液冷高速PCB融合设计;
3)通过差异化风冷和液冷架构方案,风冷和液冷高速通道非融合设计;
4)联合芯片厂商,通过定制更强大的接收器支持浮动DFE/RXFFE ,实现风冷和液冷的高速通道融合设计。
二、Long-Term Reliability Anslysis of Crystal Oscillator under Immersion Cooling with Various Coolants
研究背景:全球数字化和智能化转型导致对计算能力的需求激增,引发了人们对能源消耗的担忧。数据中心在“双碳”政策下面临重大挑战,需要先进的散热技术来获得可持续的绿色计算能力。浸没式冷却技术的PUE (Power Usage Effectiveness)低至1.09,每柜功率密度可达100千瓦,有助于建立生态友好的数据中心。然而,浸没液冷技术的广泛应用,还需要对关键任务操作进行彻底的可靠性和可用性评估。数据中心内的服务器组件复杂多样,既包括无源元件(如PCB和保护涂层),也包括有源电子器件(如芯片和半导体)。当采用浸没冷却时,必须评估液体对这些部件的影响,特别是密封要求高的部件,而不仅仅是质量和体积的变化。本研究主要研究晶振、关键服务器部件,将其浸泡在硅油、合成油和氟化液三种不同的介质中,在高温下长时间浸泡。根据冷却液的组成和物理特性,对这些重要部件的电气性能和功能进行对比测试,以验证这些重要部件在各种浸没冷却液下的长期可靠性。
研究成果:浸没式冷却的电子设备需要完全浸没在冷却液中才能工作,浸没在液体中的电子设备可能与液体发生物理特性变化,甚至发生化学反应。长时间的化学反应和物理性质的变化也会影响电子设备的长期可靠性。因此,解决方案必须对浸没在液体环境中的器件进行充分的材料相容性分析和验证,以避免电子器件材料在冷却液中的特性变化和性能退化。为此,本文设计了一套完整的电子器件材料长期可靠性测试方案和数据分析方法。根据此方法本文设计并进行了不同冷却液下的测试试验。通过加速测试方法、退化分析和失效分析方法,研究了高温条件对晶体振荡器可靠性的影响以及晶体振荡器在不同类型冷却液下是否可以满足服务器长期3年的工作寿命要求。本研究为晶体振荡器在浸没液冷环境下的可靠性研究提供参考,对保证浸没液冷技术的规模应用可靠性具有重要意义。
自2015年起,阿里云针对不同的数据中心冷却技术展开探索实践,在架构简约、系统可靠、成本节约和降低PUE上不断取得进展,实现了“可在线维护”的高可靠液冷架构,满足云计算业务连续性的要求;同时自主研发的新一代浸没液冷IT设备硬件架构,实现IT设备所有部件100%浸没液冷,功耗较风冷降低10%以上,可靠性提高50%。此外,阿里云在浸没液冷规模化应用部署上不断突破,2018年在张北数据中心实现浸没式液冷集群部署,并于2020年在浙江杭州建成国内最大规模液冷数据中心并投入使用。
在推动技术创新和应用实践的同时,阿里云还积极打造一个开放普惠的液冷产业生态。2021年,阿里云联合行业伙伴成立浸没液冷智算论坛,通过发布液冷白皮书、合作ODCC行业组织等持续对液冷技术进行开源,推动数据中心绿色化发展。
顺应双碳战略及可持续发展,阿里云已完成了液冷技术生态的丰富积累,接连斩获行业殊荣:2021 CCF科学技术奖科技进步杰出奖;2021数据中心大会卓越创新先锋奖;2022年7月,阿里云磐久液冷解决方案入选首届中国算力大会“创新先锋”优秀成果。未来,阿里云将持续携手产业生态伙伴,推动液冷技术普惠发展,助力数据中心算力更绿色高效。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~