连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

本文涉及的产品
云服务器 ECS,u1 4核8GB 1个月
云服务器 ECS,u1 4核16GB 1个月
云服务器 ECS,u1 2核4GB 3个月
简介: 连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

【阅读原文】戳:连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024


近日,国际高速电路设计、芯片设计和封装系统集成领域顶会DesignCon和电子元器件技术领域顶会ECTC相继公布了2024年会议论文入选名单,阿里云服务器研发团队各有1篇论文入选。此次阿里云入选的论文聚焦高速互连在PCIe5.0 和PCIe 6.0 风冷/液冷环境下的SI链路性能,以及浸没液冷环境下服务器电子元器件长期可靠性和稳定性研究,相关研究成果对阿里云下一代磐久服务器架构设计和浸没液冷大规模部署具有非常高的指导意义。


会议背景信息:DesignCon是高速信号处理和板级和系统设计领域的全球首屈一指的国际性会议,每年全球半导体巨头、学术/行业组织,以及跨界新兴技术创业者汇聚于此。会议为半导体行业从业人员家提供了一个共享知识、探讨行业趋势、网络交流以及展示最新产品和技术的平台。此外,DesignCon还提供一系列技术研讨会、教育课程和专题讲座,使得它成为电子设计工程师和技术人员保持专业知识更新的重要资源。


电子元件与技术会议 (ECTC) 是由IEEE和ECTC联合举办的一个针对电子封装、元件和微系统技术领域的国际性会议,每年吸引来自全球的半导体行业大厂、知名院校及世界知名半导体研究机构和行业组织汇聚于此。同时,会议吸引了来自全球的学者、研究人员、工程师、科学家以及行业专家参与,他们在这里分享最新的研究成果、技术进展、市场趋势以及未来的挑战与机遇。


拥有全球最大规模浸没式液冷数据中心的阿里云,一直走在浸没式液冷技术产研结合前列,这也是阿里云连续第4年有论文入选DesignCon会议,再次展示了阿里云服务器研发团队在浸没式液冷领域的技术实力和基础研究能力,以及和合作伙伴一道紧跟业界前沿,迎接液冷技术发展和落地应用全面挑战的决心。


入选论文研究背景和成果概要如下:


一、Immersion-Cooling Impact on PCIe 5.0 (NRZ) and PCIe 6.0 (PAM4) Link Performance from Measurements



研究背景:新一代服务器平台设计中PCIe将从PCIe 5.0 (32Gbps, NRZ)演进到PCIe 6.0 (64Gbps, PAM4),研究表明,相比于NRZ信令PCIe6.0 PAM4信令对噪声敏感度将提升3倍。当前的PCIe 6.0接收器设计无法消除额外反射噪声影响的浮动DFE/RXFFE。这对云服务器PCIe高速通道设计提出了巨大挑战,尤其是在浸没液冷环节下挑战更大。这是因为通道设计中高速互连组件的周围介质从空气切换到较高介电常数(Er)的冷却液时,通道会因为产生过多的噪声反射从而进一步影响全链路性能。由于PCIe 6.0还处于早期阶段,之前的链路性能研究大多是基于仿真。所以我们需要基于实际测量进一步研究风冷和浸没液冷环境下的SI性能,提前掌握新一代平台SI设计能力以支撑磐久服务器方升架构的持续演进。


研究成果:在本项工作中,我们在风冷和浸没液冷环境下对PCIe 5.0 (32Gbps, NRZ)和PCIe 6.0 (64Gbps, PAM4)的链路性能进行了测试。测试系统分别由3种不同类型的PCIe6.0线缆连接器组件组成。对于同一套测试系统,采用PCIe5.0,在Er=2.1液体中时,误码率测试结果显示PCIe 5.0误码率风冷和液冷无明显差异;采用PCIe6.0,在Er=2.1液体中时,测量的误码率对比空气中可以增加2个数量级,即100倍的误差计数。实验室测量结果表明,相较于NRZ信令和更简单的拓扑,PAM4信令和更复杂的拓扑将导致更大的性能下降,并且进一步证明了浸没液冷环节下性能下降更多。因此,本次研究对新一代云服务器PCIe6.0架构演进给出如下建议:


1)通过减少端对端高速连接器个数,实现风冷和液冷高速通道融合设计;


2)针对多连接器拓扑,通过差异化风冷和液冷连接器,优化设计和风冷连接器footprint、formfactor兼容的液冷连接器,实现风冷和液冷高速PCB融合设计;


3)通过差异化风冷和液冷架构方案,风冷和液冷高速通道非融合设计;


4)联合芯片厂商,通过定制更强大的接收器支持浮动DFE/RXFFE ,实现风冷和液冷的高速通道融合设计。


二、Long-Term Reliability Anslysis of Crystal Oscillator under Immersion Cooling with Various Coolants


研究背景:全球数字化和智能化转型导致对计算能力的需求激增,引发了人们对能源消耗的担忧。数据中心在“双碳”政策下面临重大挑战,需要先进的散热技术来获得可持续的绿色计算能力。浸没式冷却技术的PUE (Power Usage Effectiveness)低至1.09,每柜功率密度可达100千瓦,有助于建立生态友好的数据中心。然而,浸没液冷技术的广泛应用,还需要对关键任务操作进行彻底的可靠性和可用性评估。数据中心内的服务器组件复杂多样,既包括无源元件(如PCB和保护涂层),也包括有源电子器件(如芯片和半导体)。当采用浸没冷却时,必须评估液体对这些部件的影响,特别是密封要求高的部件,而不仅仅是质量和体积的变化。本研究主要研究晶振、关键服务器部件,将其浸泡在硅油、合成油和氟化液三种不同的介质中,在高温下长时间浸泡。根据冷却液的组成和物理特性,对这些重要部件的电气性能和功能进行对比测试,以验证这些重要部件在各种浸没冷却液下的长期可靠性。


研究成果:浸没式冷却的电子设备需要完全浸没在冷却液中才能工作,浸没在液体中的电子设备可能与液体发生物理特性变化,甚至发生化学反应。长时间的化学反应和物理性质的变化也会影响电子设备的长期可靠性。因此,解决方案必须对浸没在液体环境中的器件进行充分的材料相容性分析和验证,以避免电子器件材料在冷却液中的特性变化和性能退化。为此,本文设计了一套完整的电子器件材料长期可靠性测试方案和数据分析方法。根据此方法本文设计并进行了不同冷却液下的测试试验。通过加速测试方法、退化分析和失效分析方法,研究了高温条件对晶体振荡器可靠性的影响以及晶体振荡器在不同类型冷却液下是否可以满足服务器长期3年的工作寿命要求。本研究为晶体振荡器在浸没液冷环境下的可靠性研究提供参考,对保证浸没液冷技术的规模应用可靠性具有重要意义。


自2015年起,阿里云针对不同的数据中心冷却技术展开探索实践,在架构简约、系统可靠、成本节约和降低PUE上不断取得进展,实现了“可在线维护”的高可靠液冷架构,满足云计算业务连续性的要求;同时自主研发的新一代浸没液冷IT设备硬件架构,实现IT设备所有部件100%浸没液冷,功耗较风冷降低10%以上,可靠性提高50%。此外,阿里云在浸没液冷规模化应用部署上不断突破,2018年在张北数据中心实现浸没式液冷集群部署,并于2020年在浙江杭州建成国内最大规模液冷数据中心并投入使用。


在推动技术创新和应用实践的同时,阿里云还积极打造一个开放普惠的液冷产业生态。2021年,阿里云联合行业伙伴成立浸没液冷智算论坛,通过发布液冷白皮书、合作ODCC行业组织等持续对液冷技术进行开源,推动数据中心绿色化发展。


顺应双碳战略及可持续发展,阿里云已完成了液冷技术生态的丰富积累,接连斩获行业殊荣:2021 CCF科学技术奖科技进步杰出奖;2021数据中心大会卓越创新先锋奖;2022年7月,阿里云磐久液冷解决方案入选首届中国算力大会“创新先锋”优秀成果。未来,阿里云将持续携手产业生态伙伴,推动液冷技术普惠发展,助力数据中心算力更绿色高效。

 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
ECS云服务器新手上路
本实验会自动创建一台ECS实例。首先,远程登陆ECS实例,并部署应用。然后,登陆管理控制台,并对这台ECS实例进行管理操作。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
4天前
|
弹性计算 运维 Kubernetes
阿里云ECS与混合云策略的结合,不仅为企业搭建了一个既灵活又稳定的IT基础架构,还为业务的快速发展与创新提供了坚实的技术支撑。
【7月更文挑战第3天】阿里云ECS在混合云中扮演关键角色,提供弹性计算资源和多样计费模式,确保业务连续性与灵活性。通过VPC互通、应用迁移、数据同步服务,如VPC对等连接、DTS,实现云上云下资源的高效整合。结合安全解决方案,保证在混合环境下的合规与安全。阿里云ECS助力企业数字化转型,应对市场变化。
31 1
|
8天前
|
运维 Kubernetes 安全
《阿里云产品四月刊》—享道出行:容器弹性技术驱动下的智慧出行稳定性实践(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
8天前
|
弹性计算 Cloud Native 数据库
《阿里云产品四月刊》—享道出行:容器弹性技术驱动下的智慧出行稳定性实践(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
8天前
|
弹性计算 Serverless 调度
《阿里云产品四月刊》—享道出行:容器弹性技术驱动下的智慧出行稳定性实践(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
8天前
|
弹性计算 Kubernetes 调度
《阿里云产品四月刊》—享道出行:容器弹性技术驱动下的智慧出行稳定性实践(4)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
8天前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存型详细介绍和性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)三种,主要区别在于CPU和内存比例。计算型CPU内存比1:2,如2核4G;通用型为1:4,如2核8G;内存型为1:8,如2核16G。随着技术迭代,有第五代至第八代产品,如c7、g5、r8a等。每代实例在CPU型号和主频上相同,但性能有所提升。实例性能参数包括网络带宽、收发包能力、连接数等。具体应用场景如计算型适合高网络包收发、通用型适合企业级应用,内存型适合内存数据库等。详细信息可参阅阿里云ECS页面。
|
3天前
|
存储 缓存 安全
阿里云服务器实例规格选择参考:经济型、通用算力型、计算型、通用型、内存型区别
当我们在通过阿里云的各种活动选择云服务器实例规格的时候会发现,相同配置的云服务器往往有多个不同的实例可选,而且价格差别也比较大,这会是因为不同实例规格的由于采用的处理器不同,底层架构也有所不同(例如X86 计算架构与Arm 计算架构),因此不同实例的云服务器其性能与适用场景是有所不同。目前阿里云的活动中,主要的实例规格可分为经济型、通用算力型、计算型、通用型、内存型,对于很多初次接触阿里云服务器的用户来说,了解他们之间的差别就是比较重要的了,下面小编来为大家简单介绍下它们之间的区别。
阿里云服务器实例规格选择参考:经济型、通用算力型、计算型、通用型、内存型区别
|
13天前
|
存储 弹性计算 安全
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
阿里云服务器ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。把物理服务器比作买的房子,云服务器ECS,就是租赁的房子,阿里云云服务商就是管家。云服务商负责搭建机房、提供配套服务和维护,用户只需要付租金,即可“拎包入住”,无需自建机房、采购和配置硬件设施。如果不再需要云服务器,可随时“退租”(释放资源),节省成本。本文为大家解析云服务器ECS产品优势、应用场景和最新价格及常见问题。
阿里云服务器怎么样?云服务器ECS产品优势、应用场景、价格解析及常见问题参考
|
8天前
|
小程序 数据安全/隐私保护
阿里云新手入门:注册账号、实名认证、申请免费云服务器
阿里云新手指南:注册账号(手机号或支付宝快捷注册),完成实名认证(个人/企业)。通过免费服务器获取3个月试用。创建后,设置密码,远程连接,配置安全组规则,部署应用,如建站与环境安装。详询官方教程。
|
8天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器介绍_GPU租用费用_GPU优势和使用场景说明
阿里云GPU云服务器提供NVIDIA A10、V100、T4、P4、P100等GPU卡,结合高性能CPU,单实例计算性能高达5PFLOPS。支持多种实例规格,如A10卡GN7i、V100-16G卡GN6v等,应用于深度学习、科学计算等场景。GPU服务器租用费用因实例规格而异,如A10卡GN7i每月3213.99元起。阿里云还提供GPU加速软件如AIACC-Training、AIACC-Inference等。网络性能强大,VPC支持2400万PPS和160Gbps内网带宽。购买方式灵活,包括包年包月、按量付费等。客户案例包括深势科技、流利说和小牛翻译等。

热门文章

最新文章