云服务器液冷架构最佳实践 阿里云多篇论文入选DesignCon 2023和ECTC 2023

简介: 云服务器液冷架构最佳实践 阿里云多篇论文入选DesignCon 2023和ECTC 2023

首图-图标.png

【阅读原文】戳:云服务器液冷架构最佳实践 阿里云多篇论文入选DesignCon 2023和ECTC 2023


近日,国际高速电路设计领域、芯片设计和封装系统集成顶会DesignCon和电子元件领域顶会ECTC相继公布2023年大会论文入选名单,其中阿里云基础设施服务器研发团队3篇论文入选,这也是阿里云液冷技术基础研究成果连续第三年入选DesignCon。


论文研究方向覆盖云服务器高速信号通道PCIe 5.0/DDR5风冷和液冷融合设计策略和最佳实践,风冷和液冷下PCIe 6.0信号完整性(SI)量化分析, 以及全浸没液冷环境下电子元器件长期稳定性等。该研究成果将大幅降低液冷服务器相关研发成本和缩短研发周期,推动合作伙伴提前两代布局技术方向和预研策略,同时基于业界仅有的大规模实践部署进行可靠性验证,为未来规模化商用提供理论基础和实践经验。


微信排版引用图片尺寸标准1.png

DesignCon被誉为高速通信和半导体行业的奥斯卡盛会,至今已举办超过28个年头,是面向高速信号处理和半导体领域芯片、板级和系统设计工程师的全球首屈一指的国际性会议。


2021年,阿里云基础设施服务器研发团队凭借“基于液冷服务器信号完整性研究”论文首次入选;2022年三篇论文入选,研究课题全面覆盖液冷环境下高速互联性能、低成本PCB设计和系统级性能优化等领域。


ECTC.png

ECTC会议是国际电气电子工程师协会电子元件封装和生产技术学会(IEEE-CPMT)顶级会议,论文拒稿率高达80%,引领着当前电子器件的发展方向,众多电子器件相关的新技术、新方法和新思路都最先在此会议上报道。


电子元件的故障发生率是随工作温度的提高而呈指数增长的,常见的服务器大都依靠冷空气给机器降温,而随着大型数据中心和超级计算中心对高密度扩展、绿色节能、机房静音的需求日益迫切,液冷技术在国内外开始兴起。自2015年起,阿里云针对不同的服务器冷却技术展开探索实践,基于架构简约、系统可靠、更低成本、更低PUE,最终选择发展浸没式液冷技术,并于2018年在张北实现浸没式液冷集群的规模部署。相比其他液冷技术,浸没式液冷具有高能效、高密度、高可靠、高可用的特点,更加适合云计算数据中心的高可靠应用场景。


此次入选的三篇论文均涉及液冷技术领域,概要如下:


一、Best Practices for A Converged High-Speed Channel Design for Cloud Servers in Both Air Cooling and Immersion Cooling(DesignCon 2023)


入围DesignCon 2023年最佳论文奖候选


One-pager_20230131 -paper1.jpg

研究背景:

云服务提供商将数据中心从风冷过渡到液冷是一个趋势。为了节省设计成本,缩短开发周期,风冷和液冷数据中心的云服务器最佳设计是融合设计。然而,冷却液的Dk/Df比空气高,将在空气环境下优化设计的高速互连组件(如PCB、连接器、电缆等)直接用在液冷中会对SI性能产生负面影响。在风冷和浸没式液冷中使用相同的云服务器设计将对高速信号SI性能造成潜在风险,如PCIe 5.0和DDR5。


研究成果:

论文分享了云服务器风冷和浸没式液冷高速通道融合设计的策略和最佳实践。对通道中的每个关键组件进行了详细分析和cost-performance方案优化,并对实际云服务器设计的PCIe 5.0和DDR5进行端到端测试,结果表明可实现PCIe 5.0和DDR5云服务器平台的风冷液冷融合设计。这种融合设计满足了总体性能和业务需求,包括SI性能、较低成本的硬件解决方案,是可用于云服务器的风冷和浸没式液冷部署和量产的高性价比方案。阿里云基础设施服务器团队已完成PCIe 3.0+DDR4、PCIe 4.0+DDR4和PCIe 5.0+DDR5三代的磐久服务器风冷浸没液冷融合设计。



二、PCIe 6.0 (PAM4) Signal Integrity Challenges in Immersion-Cooling Data Centers(DesignCon 2023


One-pager_20230131 -paper2.jpg

研究背景:

浸没式液冷已经在数据中心系统散热方案中脱颖而出,获得巨大青睐。浸没式液冷环境下,当周围介质从空气变化到液体时会对云服务器高速互连组件阻抗产生较大影响,导致高速信号通道中出现过多的多重反射,从而降低端到端高速链路SI性能。对PCIe 6.0来说,这种影响会是一个更大的挑战,特别是对于复杂的多连接器/线缆机型的云服务器设计,这是由于使用了PAM4的PCIe 6.0对反射噪声比使用NRZ的PCIe 5.0更加敏感。因此,在系统设计中必须量化风冷与浸没液冷两种应用环境下的SI性能差异。


研究成果:

论文中首次量化分析了PCIe 6.0 (64Gbps, PAM4) 在风冷和浸没式液冷环境下的SI性能。除了通过仿真和测量揭示PCIe 6.0液冷中SI性能下降差距和主要根因外,研究表明,单纯减少高速信号通道插入损耗不足以补偿性能差距。这意味着云服务器系统设计工程师和SI工程师在开发多机型PCIe 6.0云服务器时很可能不得不为风冷和浸没液冷两种散热方案采用不同的高速互联设计,需要全面充分评估风冷液冷融合高速通道设计的最佳策略。此外,本文也讨论了可以提升液冷PCIe 6.0 SI性能的潜在cost-effective解决方案。包括:


1)在确保和风冷连接器footprint兼容的前提下,优化液冷高速通道SMT连接器设计,仿真结果表明优化后的液冷连接器可以完全消除风冷和液冷之间端对端PCIe 6.0 SI性能差距;


2)选择采用直接焊接技术的连接器以减轻SI性能差距;


3)开发更强大的可支持浮动DFE/RXFFE设计的芯片receiver以消除额外的反射噪声。



三、Long-Term Reliability Evaluation on Single-Phase Immersion Cooling Based Server with Electronic Fluorinated Liquid(73rd ECTC Conference


研究背景:

浸没液冷环境中,服务器长期浸泡在冷却液中是否会产生材料兼容性问题并导致部件故障?材料性能或部件功能的退化是由于典型操作环境的变化而导致的基本机械、化学、电气和热现象的结果。服务器各个组件之间的长时间浸入和相互作用以及其产品生命周期中的动态负荷变化,这在常规风冷环境中是没有观察到的。与空气相比,基于电子氟化液的浸没液冷技术的优越散热特点消除了局部热点,并产生较小的温度变化。为了更好理解电子氟化液在应用于浸没液冷系统时对其长期可靠性的影响,本文以单相浸没液冷系统为基础,重点讨论了设备级浸入电子氟化液时芯片和电路板的可靠性,为其在工程实践中的应用提供了理论依据。


研究成果:

阿里云浸没式液冷数据中心于2018年6月建成并投入运营。论文首次收集了数千个基于浸没液冷服务器和基于风冷服务器的相同业务条件下的样本,以分析每个服务器部件的故障率,另外我们首先考虑服务器系统在浸没液冷环境中的运行稳定性和性能是否满足运行要求。随机选择了一台运行了大约3年的阿里云浸没式液冷服务器,通过测试不同领域的运行稳定性和性能,并对同一批次的基于风冷的服务器系统运行数据进行比较和分析,得出了该服务器的系统可靠性分析结果:


1)整体液冷服务器运行故障率小于风冷故障率,改善约50%,长期可靠性总体符合预期;


2)长期工作的液冷服务器各项指标均能满足SPEC要求,电气特性和物理特征无显著变化;


3)对比风冷和液冷服务器,两者测试数据无显著差异,液冷服务器个别指标优于风冷服务器。


除了不断推进液冷技术的创新和应用实践,阿里云还持续丰富液冷行业生态和推动行业标准制定。2020年1月,阿里云正式向行业开放“浸没式液冷数据中心技术规范”,并先后在ODCC年度峰会上多次发布和更新相关子项技术规范和应用白皮书;2021年,在ODCC冬季全会上,联合ODCC和OPPO等多家合作伙伴联合发起浸没液冷智算产业发展论坛,目前论坛成员已经发展到50多家,截止2022年底,已发布多项液冷技术规范和白皮书。


同时,阿里云不断深入液冷前沿技术研发,已获数十项液冷相关发明专利,还斩获多项业界荣誉:2021年CCSA科学技术奖二等奖,2021年CCF科学技术奖科技进步杰出奖,2021保尔森绿色创新优胜奖,2022首届中国算力大会“创新先锋”优秀成果、2022 CDCC数据中心科技成果一等奖等。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
使用操作系统智能助手OS Copilot解锁操作系统运维与编程
在本实验场景中,将在阿里云ECS上体验OS Copilot产品。OS Copilot是阿里云操作系统团队基于大模型构建的OS智能助手。它具有自然语言问答、辅助命令执行、系统运维调优等功能,帮助用户更好地使用Linux,提升阿里云的使用体验。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
472 10
|
6月前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。
|
6月前
|
弹性计算 ice
阿里云4核8g服务器多少钱一年?1个月和1小时价格,省钱购买方法分享
阿里云4核8G服务器价格因实例类型而异,经济型e实例约159元/月,计算型c9i约371元/月,按小时计费最低0.45元。实际购买享折扣,1年最高可省至1578元,附主流ECS实例及CPU型号参考。
626 8
|
6月前
|
存储 监控 安全
阿里云渠道商:云服务器价格有什么变动?
阿里云带宽与存储费用呈基础资源降价、增值服务差异化趋势。企业应结合业务特点,通过阶梯计价、智能分层、弹性带宽等策略优化成本,借助云监控与预算预警机制,实现高效、可控的云资源管理。
|
6月前
|
弹性计算 运维 安全
区别及选择指南:阿里云轻量应用服务器与ECS云服务器有什么区别?
阿里云轻量应用服务器适合个人开发者、学生搭建博客、测试环境,易用且性价比高;ECS功能更强大,适合企业级应用如大数据、高流量网站。根据需求选择:轻量入门首选,ECS专业之选。
404 2
|
6月前
|
弹性计算 ice
阿里云4核8G云服务器配置价格:热门ECS实例及CPU处理器型号说明
阿里云2025年4核8G服务器配置价格汇总,涵盖经济型e实例、计算型c9i等热门ECS实例,CPU含Intel Xeon及AMD EPYC系列,月费159元起,年付低至1578元,按小时计费0.45元起,实际购买享折扣优惠。
1956 1
|
6月前
|
存储 弹性计算 安全
阿里云渠道商:新手如何选择阿里云ECS实例?
阿里云ECS凭借弹性扩展、稳定可靠与安全防护,助力企业高效上云。本文系统解析实例规格选择关键因素:业务场景匹配、性能评估、成本优化、地域部署与扩展规划,结合计费模式与实际需求,提供科学选型建议,助您精准匹配资源,提升云上效能。(238字)

热门文章

最新文章