连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

简介: 连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

【阅读原文】戳:连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024


近日,国际高速电路设计、芯片设计和封装系统集成领域顶会DesignCon和电子元器件技术领域顶会ECTC相继公布了2024年会议论文入选名单,阿里云服务器研发团队各有1篇论文入选。此次阿里云入选的论文聚焦高速互连在PCIe5.0 和PCIe 6.0 风冷/液冷环境下的SI链路性能,以及浸没液冷环境下服务器电子元器件长期可靠性和稳定性研究,相关研究成果对阿里云下一代磐久服务器架构设计和浸没液冷大规模部署具有非常高的指导意义。


会议背景信息:DesignCon是高速信号处理和板级和系统设计领域的全球首屈一指的国际性会议,每年全球半导体巨头、学术/行业组织,以及跨界新兴技术创业者汇聚于此。会议为半导体行业从业人员家提供了一个共享知识、探讨行业趋势、网络交流以及展示最新产品和技术的平台。此外,DesignCon还提供一系列技术研讨会、教育课程和专题讲座,使得它成为电子设计工程师和技术人员保持专业知识更新的重要资源。


电子元件与技术会议 (ECTC) 是由IEEE和ECTC联合举办的一个针对电子封装、元件和微系统技术领域的国际性会议,每年吸引来自全球的半导体行业大厂、知名院校及世界知名半导体研究机构和行业组织汇聚于此。同时,会议吸引了来自全球的学者、研究人员、工程师、科学家以及行业专家参与,他们在这里分享最新的研究成果、技术进展、市场趋势以及未来的挑战与机遇。


拥有全球最大规模浸没式液冷数据中心的阿里云,一直走在浸没式液冷技术产研结合前列,这也是阿里云连续第4年有论文入选DesignCon会议,再次展示了阿里云服务器研发团队在浸没式液冷领域的技术实力和基础研究能力,以及和合作伙伴一道紧跟业界前沿,迎接液冷技术发展和落地应用全面挑战的决心。


入选论文研究背景和成果概要如下:


一、Immersion-Cooling Impact on PCIe 5.0 (NRZ) and PCIe 6.0 (PAM4) Link Performance from Measurements



研究背景:新一代服务器平台设计中PCIe将从PCIe 5.0 (32Gbps, NRZ)演进到PCIe 6.0 (64Gbps, PAM4),研究表明,相比于NRZ信令PCIe6.0 PAM4信令对噪声敏感度将提升3倍。当前的PCIe 6.0接收器设计无法消除额外反射噪声影响的浮动DFE/RXFFE。这对云服务器PCIe高速通道设计提出了巨大挑战,尤其是在浸没液冷环节下挑战更大。这是因为通道设计中高速互连组件的周围介质从空气切换到较高介电常数(Er)的冷却液时,通道会因为产生过多的噪声反射从而进一步影响全链路性能。由于PCIe 6.0还处于早期阶段,之前的链路性能研究大多是基于仿真。所以我们需要基于实际测量进一步研究风冷和浸没液冷环境下的SI性能,提前掌握新一代平台SI设计能力以支撑磐久服务器方升架构的持续演进。


研究成果:在本项工作中,我们在风冷和浸没液冷环境下对PCIe 5.0 (32Gbps, NRZ)和PCIe 6.0 (64Gbps, PAM4)的链路性能进行了测试。测试系统分别由3种不同类型的PCIe6.0线缆连接器组件组成。对于同一套测试系统,采用PCIe5.0,在Er=2.1液体中时,误码率测试结果显示PCIe 5.0误码率风冷和液冷无明显差异;采用PCIe6.0,在Er=2.1液体中时,测量的误码率对比空气中可以增加2个数量级,即100倍的误差计数。实验室测量结果表明,相较于NRZ信令和更简单的拓扑,PAM4信令和更复杂的拓扑将导致更大的性能下降,并且进一步证明了浸没液冷环节下性能下降更多。因此,本次研究对新一代云服务器PCIe6.0架构演进给出如下建议:


1)通过减少端对端高速连接器个数,实现风冷和液冷高速通道融合设计;


2)针对多连接器拓扑,通过差异化风冷和液冷连接器,优化设计和风冷连接器footprint、formfactor兼容的液冷连接器,实现风冷和液冷高速PCB融合设计;


3)通过差异化风冷和液冷架构方案,风冷和液冷高速通道非融合设计;


4)联合芯片厂商,通过定制更强大的接收器支持浮动DFE/RXFFE ,实现风冷和液冷的高速通道融合设计。


二、Long-Term Reliability Anslysis of Crystal Oscillator under Immersion Cooling with Various Coolants


研究背景:全球数字化和智能化转型导致对计算能力的需求激增,引发了人们对能源消耗的担忧。数据中心在“双碳”政策下面临重大挑战,需要先进的散热技术来获得可持续的绿色计算能力。浸没式冷却技术的PUE (Power Usage Effectiveness)低至1.09,每柜功率密度可达100千瓦,有助于建立生态友好的数据中心。然而,浸没液冷技术的广泛应用,还需要对关键任务操作进行彻底的可靠性和可用性评估。数据中心内的服务器组件复杂多样,既包括无源元件(如PCB和保护涂层),也包括有源电子器件(如芯片和半导体)。当采用浸没冷却时,必须评估液体对这些部件的影响,特别是密封要求高的部件,而不仅仅是质量和体积的变化。本研究主要研究晶振、关键服务器部件,将其浸泡在硅油、合成油和氟化液三种不同的介质中,在高温下长时间浸泡。根据冷却液的组成和物理特性,对这些重要部件的电气性能和功能进行对比测试,以验证这些重要部件在各种浸没冷却液下的长期可靠性。


研究成果:浸没式冷却的电子设备需要完全浸没在冷却液中才能工作,浸没在液体中的电子设备可能与液体发生物理特性变化,甚至发生化学反应。长时间的化学反应和物理性质的变化也会影响电子设备的长期可靠性。因此,解决方案必须对浸没在液体环境中的器件进行充分的材料相容性分析和验证,以避免电子器件材料在冷却液中的特性变化和性能退化。为此,本文设计了一套完整的电子器件材料长期可靠性测试方案和数据分析方法。根据此方法本文设计并进行了不同冷却液下的测试试验。通过加速测试方法、退化分析和失效分析方法,研究了高温条件对晶体振荡器可靠性的影响以及晶体振荡器在不同类型冷却液下是否可以满足服务器长期3年的工作寿命要求。本研究为晶体振荡器在浸没液冷环境下的可靠性研究提供参考,对保证浸没液冷技术的规模应用可靠性具有重要意义。


自2015年起,阿里云针对不同的数据中心冷却技术展开探索实践,在架构简约、系统可靠、成本节约和降低PUE上不断取得进展,实现了“可在线维护”的高可靠液冷架构,满足云计算业务连续性的要求;同时自主研发的新一代浸没液冷IT设备硬件架构,实现IT设备所有部件100%浸没液冷,功耗较风冷降低10%以上,可靠性提高50%。此外,阿里云在浸没液冷规模化应用部署上不断突破,2018年在张北数据中心实现浸没式液冷集群部署,并于2020年在浙江杭州建成国内最大规模液冷数据中心并投入使用。


在推动技术创新和应用实践的同时,阿里云还积极打造一个开放普惠的液冷产业生态。2021年,阿里云联合行业伙伴成立浸没液冷智算论坛,通过发布液冷白皮书、合作ODCC行业组织等持续对液冷技术进行开源,推动数据中心绿色化发展。


顺应双碳战略及可持续发展,阿里云已完成了液冷技术生态的丰富积累,接连斩获行业殊荣:2021 CCF科学技术奖科技进步杰出奖;2021数据中心大会卓越创新先锋奖;2022年7月,阿里云磐久液冷解决方案入选首届中国算力大会“创新先锋”优秀成果。未来,阿里云将持续携手产业生态伙伴,推动液冷技术普惠发展,助力数据中心算力更绿色高效。

 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
7月前
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
560 0
|
缓存 人工智能 数据中心
全球光通信顶会OFC2023 阿里云多位专家分享数据中心光网络创新
全球光通信顶会OFC2023 阿里云多位专家分享数据中心光网络创新
全球光通信顶会OFC2023 阿里云多位专家分享数据中心光网络创新
|
机器学习/深度学习 边缘计算 人工智能
液冷技术再下一城 阿里云三篇论文入选DesignCon 2022
阿里云三篇液冷技术论文入选DesignCon 2022~
液冷技术再下一城 阿里云三篇论文入选DesignCon 2022
|
Web App开发 达摩院 量子技术
先把一两个量子比特的精度做到极致:阿里达摩院量子实验室刚刚破了项世界纪录
先把一两个量子比特的精度做到极致:阿里达摩院量子实验室刚刚破了项世界纪录
150 0
|
机器学习/深度学习 人工智能 监控
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
133 0
|
机器学习/深度学习 人工智能 监控
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
211 0
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
|
人工智能 安全
IBM连续24年专利数量领跑,人工智能成为其战略重点
IBM 以 8088 个专利的绝对优势在专利数量上继续领先,在它身后,英特尔和亚马逊正在加速追赶。
243 0
IBM连续24年专利数量领跑,人工智能成为其战略重点
|
弹性计算 运维 Cloud Native
让服务器突破性能极限 阿里云神龙论文入选计算机顶会ASPLOS
疫情肆虐,全球多个科技领域盛会宣布改为线上举办,计算机领域顶会 ASPLOS也不例外。 日前,ASPLOS 2020公布了计算机界最新科技成果,其中包括阿里云提交的名为《High-density Multi-tenant Bare-metal Cloud》的论文,该论文阐述了阿里云自研的神龙服务器架构如何解决困扰云计算行业多年的虚拟化性能损耗问题,打破物理机的性能神话,让云服务器突破性能极限。
739 0
|
大数据
学界 | 30年过去了,当年预测全球变暖的模型为什么没应验?
早在1988年夏天,詹姆斯汉森(James E. Hansen)就曾关于全球变暖发出可怕的警告。然而,今天的地球却只是变暖了那么一点儿。
1575 0
|
算法 计算机视觉
CVPR大规模行为识别竞赛连续两年夺冠,上交大详细技术分享
近日,视频行为理解领域的ImageNet竞赛——ActivityNet Challenge 2018在CVPR 会议上落下了帷幕。来自上海交通大学计算机视觉实验室的团队(自动化系研究生林天威、苏海昇,导师赵旭副教授),获得了未修剪视频中的时序动作定位任务的冠军。
2357 0
下一篇
DataWorks