【阅读原文】戳:云服务器液冷架构最佳实践 阿里云多篇论文入选DesignCon 2023和ECTC 2023
近日,国际高速电路设计领域、芯片设计和封装系统集成顶会DesignCon和电子元件领域顶会ECTC相继公布2023年大会论文入选名单,其中阿里云基础设施服务器研发团队3篇论文入选,这也是阿里云液冷技术基础研究成果连续第三年入选DesignCon。
论文研究方向覆盖云服务器高速信号通道PCIe 5.0/DDR5风冷和液冷融合设计策略和最佳实践,风冷和液冷下PCIe 6.0信号完整性(SI)量化分析, 以及全浸没液冷环境下电子元器件长期稳定性等。该研究成果将大幅降低液冷服务器相关研发成本和缩短研发周期,推动合作伙伴提前两代布局技术方向和预研策略,同时基于业界仅有的大规模实践部署进行可靠性验证,为未来规模化商用提供理论基础和实践经验。
DesignCon被誉为高速通信和半导体行业的奥斯卡盛会,至今已举办超过28个年头,是面向高速信号处理和半导体领域芯片、板级和系统设计工程师的全球首屈一指的国际性会议。
2021年,阿里云基础设施服务器研发团队凭借“基于液冷服务器信号完整性研究”论文首次入选;2022年三篇论文入选,研究课题全面覆盖液冷环境下高速互联性能、低成本PCB设计和系统级性能优化等领域。
ECTC会议是国际电气电子工程师协会电子元件封装和生产技术学会(IEEE-CPMT)顶级会议,论文拒稿率高达80%,引领着当前电子器件的发展方向,众多电子器件相关的新技术、新方法和新思路都最先在此会议上报道。
电子元件的故障发生率是随工作温度的提高而呈指数增长的,常见的服务器大都依靠冷空气给机器降温,而随着大型数据中心和超级计算中心对高密度扩展、绿色节能、机房静音的需求日益迫切,液冷技术在国内外开始兴起。自2015年起,阿里云针对不同的服务器冷却技术展开探索实践,基于架构简约、系统可靠、更低成本、更低PUE,最终选择发展浸没式液冷技术,并于2018年在张北实现浸没式液冷集群的规模部署。相比其他液冷技术,浸没式液冷具有高能效、高密度、高可靠、高可用的特点,更加适合云计算数据中心的高可靠应用场景。
此次入选的三篇论文均涉及液冷技术领域,概要如下:
一、Best Practices for A Converged High-Speed Channel Design for Cloud Servers in Both Air Cooling and Immersion Cooling(DesignCon 2023)
入围DesignCon 2023年最佳论文奖候选
研究背景:
云服务提供商将数据中心从风冷过渡到液冷是一个趋势。为了节省设计成本,缩短开发周期,风冷和液冷数据中心的云服务器最佳设计是融合设计。然而,冷却液的Dk/Df比空气高,将在空气环境下优化设计的高速互连组件(如PCB、连接器、电缆等)直接用在液冷中会对SI性能产生负面影响。在风冷和浸没式液冷中使用相同的云服务器设计将对高速信号SI性能造成潜在风险,如PCIe 5.0和DDR5。
研究成果:
论文分享了云服务器风冷和浸没式液冷高速通道融合设计的策略和最佳实践。对通道中的每个关键组件进行了详细分析和cost-performance方案优化,并对实际云服务器设计的PCIe 5.0和DDR5进行端到端测试,结果表明可实现PCIe 5.0和DDR5云服务器平台的风冷液冷融合设计。这种融合设计满足了总体性能和业务需求,包括SI性能、较低成本的硬件解决方案,是可用于云服务器的风冷和浸没式液冷部署和量产的高性价比方案。阿里云基础设施服务器团队已完成PCIe 3.0+DDR4、PCIe 4.0+DDR4和PCIe 5.0+DDR5三代的磐久服务器风冷浸没液冷融合设计。
二、PCIe 6.0 (PAM4) Signal Integrity Challenges in Immersion-Cooling Data Centers(DesignCon 2023)
研究背景:
浸没式液冷已经在数据中心系统散热方案中脱颖而出,获得巨大青睐。浸没式液冷环境下,当周围介质从空气变化到液体时会对云服务器高速互连组件阻抗产生较大影响,导致高速信号通道中出现过多的多重反射,从而降低端到端高速链路SI性能。对PCIe 6.0来说,这种影响会是一个更大的挑战,特别是对于复杂的多连接器/线缆机型的云服务器设计,这是由于使用了PAM4的PCIe 6.0对反射噪声比使用NRZ的PCIe 5.0更加敏感。因此,在系统设计中必须量化风冷与浸没液冷两种应用环境下的SI性能差异。
研究成果:
论文中首次量化分析了PCIe 6.0 (64Gbps, PAM4) 在风冷和浸没式液冷环境下的SI性能。除了通过仿真和测量揭示PCIe 6.0液冷中SI性能下降差距和主要根因外,研究表明,单纯减少高速信号通道插入损耗不足以补偿性能差距。这意味着云服务器系统设计工程师和SI工程师在开发多机型PCIe 6.0云服务器时很可能不得不为风冷和浸没液冷两种散热方案采用不同的高速互联设计,需要全面充分评估风冷液冷融合高速通道设计的最佳策略。此外,本文也讨论了可以提升液冷PCIe 6.0 SI性能的潜在cost-effective解决方案。包括:
1)在确保和风冷连接器footprint兼容的前提下,优化液冷高速通道SMT连接器设计,仿真结果表明优化后的液冷连接器可以完全消除风冷和液冷之间端对端PCIe 6.0 SI性能差距;
2)选择采用直接焊接技术的连接器以减轻SI性能差距;
3)开发更强大的可支持浮动DFE/RXFFE设计的芯片receiver以消除额外的反射噪声。
三、Long-Term Reliability Evaluation on Single-Phase Immersion Cooling Based Server with Electronic Fluorinated Liquid(73rd ECTC Conference)
研究背景:
浸没液冷环境中,服务器长期浸泡在冷却液中是否会产生材料兼容性问题并导致部件故障?材料性能或部件功能的退化是由于典型操作环境的变化而导致的基本机械、化学、电气和热现象的结果。服务器各个组件之间的长时间浸入和相互作用以及其产品生命周期中的动态负荷变化,这在常规风冷环境中是没有观察到的。与空气相比,基于电子氟化液的浸没液冷技术的优越散热特点消除了局部热点,并产生较小的温度变化。为了更好理解电子氟化液在应用于浸没液冷系统时对其长期可靠性的影响,本文以单相浸没液冷系统为基础,重点讨论了设备级浸入电子氟化液时芯片和电路板的可靠性,为其在工程实践中的应用提供了理论依据。
研究成果:
阿里云浸没式液冷数据中心于2018年6月建成并投入运营。论文首次收集了数千个基于浸没液冷服务器和基于风冷服务器的相同业务条件下的样本,以分析每个服务器部件的故障率,另外我们首先考虑服务器系统在浸没液冷环境中的运行稳定性和性能是否满足运行要求。随机选择了一台运行了大约3年的阿里云浸没式液冷服务器,通过测试不同领域的运行稳定性和性能,并对同一批次的基于风冷的服务器系统运行数据进行比较和分析,得出了该服务器的系统可靠性分析结果:
1)整体液冷服务器运行故障率小于风冷故障率,改善约50%,长期可靠性总体符合预期;
2)长期工作的液冷服务器各项指标均能满足SPEC要求,电气特性和物理特征无显著变化;
3)对比风冷和液冷服务器,两者测试数据无显著差异,液冷服务器个别指标优于风冷服务器。
除了不断推进液冷技术的创新和应用实践,阿里云还持续丰富液冷行业生态和推动行业标准制定。2020年1月,阿里云正式向行业开放“浸没式液冷数据中心技术规范”,并先后在ODCC年度峰会上多次发布和更新相关子项技术规范和应用白皮书;2021年,在ODCC冬季全会上,联合ODCC和OPPO等多家合作伙伴联合发起浸没液冷智算产业发展论坛,目前论坛成员已经发展到50多家,截止2022年底,已发布多项液冷技术规范和白皮书。
同时,阿里云不断深入液冷前沿技术研发,已获数十项液冷相关发明专利,还斩获多项业界荣誉:2021年CCSA科学技术奖二等奖,2021年CCF科学技术奖科技进步杰出奖,2021保尔森绿色创新优胜奖,2022首届中国算力大会“创新先锋”优秀成果、2022 CDCC数据中心科技成果一等奖等。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~




