连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024

【阅读原文】戳:连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024


近日,国际高速电路设计、芯片设计和封装系统集成领域顶会DesignCon和电子元器件技术领域顶会ECTC相继公布了2024年会议论文入选名单,阿里云服务器研发团队各有1篇论文入选。此次阿里云入选的论文聚焦高速互连在PCIe5.0 和PCIe 6.0 风冷/液冷环境下的SI链路性能,以及浸没液冷环境下服务器电子元器件长期可靠性和稳定性研究,相关研究成果对阿里云下一代磐久服务器架构设计和浸没液冷大规模部署具有非常高的指导意义。


会议背景信息:DesignCon是高速信号处理和板级和系统设计领域的全球首屈一指的国际性会议,每年全球半导体巨头、学术/行业组织,以及跨界新兴技术创业者汇聚于此。会议为半导体行业从业人员家提供了一个共享知识、探讨行业趋势、网络交流以及展示最新产品和技术的平台。此外,DesignCon还提供一系列技术研讨会、教育课程和专题讲座,使得它成为电子设计工程师和技术人员保持专业知识更新的重要资源。


电子元件与技术会议 (ECTC) 是由IEEE和ECTC联合举办的一个针对电子封装、元件和微系统技术领域的国际性会议,每年吸引来自全球的半导体行业大厂、知名院校及世界知名半导体研究机构和行业组织汇聚于此。同时,会议吸引了来自全球的学者、研究人员、工程师、科学家以及行业专家参与,他们在这里分享最新的研究成果、技术进展、市场趋势以及未来的挑战与机遇。


拥有全球最大规模浸没式液冷数据中心的阿里云,一直走在浸没式液冷技术产研结合前列,这也是阿里云连续第4年有论文入选DesignCon会议,再次展示了阿里云服务器研发团队在浸没式液冷领域的技术实力和基础研究能力,以及和合作伙伴一道紧跟业界前沿,迎接液冷技术发展和落地应用全面挑战的决心。


入选论文研究背景和成果概要如下:


一、Immersion-Cooling Impact on PCIe 5.0 (NRZ) and PCIe 6.0 (PAM4) Link Performance from Measurements



研究背景:新一代服务器平台设计中PCIe将从PCIe 5.0 (32Gbps, NRZ)演进到PCIe 6.0 (64Gbps, PAM4),研究表明,相比于NRZ信令PCIe6.0 PAM4信令对噪声敏感度将提升3倍。当前的PCIe 6.0接收器设计无法消除额外反射噪声影响的浮动DFE/RXFFE。这对云服务器PCIe高速通道设计提出了巨大挑战,尤其是在浸没液冷环节下挑战更大。这是因为通道设计中高速互连组件的周围介质从空气切换到较高介电常数(Er)的冷却液时,通道会因为产生过多的噪声反射从而进一步影响全链路性能。由于PCIe 6.0还处于早期阶段,之前的链路性能研究大多是基于仿真。所以我们需要基于实际测量进一步研究风冷和浸没液冷环境下的SI性能,提前掌握新一代平台SI设计能力以支撑磐久服务器方升架构的持续演进。


研究成果:在本项工作中,我们在风冷和浸没液冷环境下对PCIe 5.0 (32Gbps, NRZ)和PCIe 6.0 (64Gbps, PAM4)的链路性能进行了测试。测试系统分别由3种不同类型的PCIe6.0线缆连接器组件组成。对于同一套测试系统,采用PCIe5.0,在Er=2.1液体中时,误码率测试结果显示PCIe 5.0误码率风冷和液冷无明显差异;采用PCIe6.0,在Er=2.1液体中时,测量的误码率对比空气中可以增加2个数量级,即100倍的误差计数。实验室测量结果表明,相较于NRZ信令和更简单的拓扑,PAM4信令和更复杂的拓扑将导致更大的性能下降,并且进一步证明了浸没液冷环节下性能下降更多。因此,本次研究对新一代云服务器PCIe6.0架构演进给出如下建议:


1)通过减少端对端高速连接器个数,实现风冷和液冷高速通道融合设计;


2)针对多连接器拓扑,通过差异化风冷和液冷连接器,优化设计和风冷连接器footprint、formfactor兼容的液冷连接器,实现风冷和液冷高速PCB融合设计;


3)通过差异化风冷和液冷架构方案,风冷和液冷高速通道非融合设计;


4)联合芯片厂商,通过定制更强大的接收器支持浮动DFE/RXFFE ,实现风冷和液冷的高速通道融合设计。


二、Long-Term Reliability Anslysis of Crystal Oscillator under Immersion Cooling with Various Coolants


研究背景:全球数字化和智能化转型导致对计算能力的需求激增,引发了人们对能源消耗的担忧。数据中心在“双碳”政策下面临重大挑战,需要先进的散热技术来获得可持续的绿色计算能力。浸没式冷却技术的PUE (Power Usage Effectiveness)低至1.09,每柜功率密度可达100千瓦,有助于建立生态友好的数据中心。然而,浸没液冷技术的广泛应用,还需要对关键任务操作进行彻底的可靠性和可用性评估。数据中心内的服务器组件复杂多样,既包括无源元件(如PCB和保护涂层),也包括有源电子器件(如芯片和半导体)。当采用浸没冷却时,必须评估液体对这些部件的影响,特别是密封要求高的部件,而不仅仅是质量和体积的变化。本研究主要研究晶振、关键服务器部件,将其浸泡在硅油、合成油和氟化液三种不同的介质中,在高温下长时间浸泡。根据冷却液的组成和物理特性,对这些重要部件的电气性能和功能进行对比测试,以验证这些重要部件在各种浸没冷却液下的长期可靠性。


研究成果:浸没式冷却的电子设备需要完全浸没在冷却液中才能工作,浸没在液体中的电子设备可能与液体发生物理特性变化,甚至发生化学反应。长时间的化学反应和物理性质的变化也会影响电子设备的长期可靠性。因此,解决方案必须对浸没在液体环境中的器件进行充分的材料相容性分析和验证,以避免电子器件材料在冷却液中的特性变化和性能退化。为此,本文设计了一套完整的电子器件材料长期可靠性测试方案和数据分析方法。根据此方法本文设计并进行了不同冷却液下的测试试验。通过加速测试方法、退化分析和失效分析方法,研究了高温条件对晶体振荡器可靠性的影响以及晶体振荡器在不同类型冷却液下是否可以满足服务器长期3年的工作寿命要求。本研究为晶体振荡器在浸没液冷环境下的可靠性研究提供参考,对保证浸没液冷技术的规模应用可靠性具有重要意义。


自2015年起,阿里云针对不同的数据中心冷却技术展开探索实践,在架构简约、系统可靠、成本节约和降低PUE上不断取得进展,实现了“可在线维护”的高可靠液冷架构,满足云计算业务连续性的要求;同时自主研发的新一代浸没液冷IT设备硬件架构,实现IT设备所有部件100%浸没液冷,功耗较风冷降低10%以上,可靠性提高50%。此外,阿里云在浸没液冷规模化应用部署上不断突破,2018年在张北数据中心实现浸没式液冷集群部署,并于2020年在浙江杭州建成国内最大规模液冷数据中心并投入使用。


在推动技术创新和应用实践的同时,阿里云还积极打造一个开放普惠的液冷产业生态。2021年,阿里云联合行业伙伴成立浸没液冷智算论坛,通过发布液冷白皮书、合作ODCC行业组织等持续对液冷技术进行开源,推动数据中心绿色化发展。


顺应双碳战略及可持续发展,阿里云已完成了液冷技术生态的丰富积累,接连斩获行业殊荣:2021 CCF科学技术奖科技进步杰出奖;2021数据中心大会卓越创新先锋奖;2022年7月,阿里云磐久液冷解决方案入选首届中国算力大会“创新先锋”优秀成果。未来,阿里云将持续携手产业生态伙伴,推动液冷技术普惠发展,助力数据中心算力更绿色高效。

 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
5天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
83 2
|
1月前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
1月前
|
供应链 安全 专有云
阿里云通过信通院面向一云多芯的专有云技术能力评测
近日,阿里云飞天企业版通过中国信息通信研究院2023年度《面向一云多芯的专有云技术能力要求》,在异构兼容能力、专有云基础能力、迁移适配能力三个方面,再一次验证了阿里云专有云一云多芯领先的技术能力。
|
1月前
|
存储 调度 块存储
十二年磨一剑:三代架构演进,打造高性能、低成本的块存储!
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
104619 104
|
1月前
|
Ubuntu JavaScript 关系型数据库
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
在阿里云Ubuntu 20.04服务器上部署Ghost博客的步骤包括创建新用户、安装Nginx、MySQL和Node.js 18.x。首先,通过`adduser`命令创建非root用户,然后安装Nginx和MySQL。接着,设置Node.js环境,下载Nodesource GPG密钥并安装Node.js 18.x。之后,使用`npm`安装Ghost-CLI,创建Ghost安装目录并进行安装。配置过程中需提供博客URL、数据库连接信息等。最后,测试访问前台首页和后台管理页面。确保DNS设置正确,并根据提示完成Ghost博客的配置。
在阿里云Ubuntu 20.04服务器中搭建一个 Ghost 博客
|
1月前
|
存储 分布式计算 网络协议
阿里云服务器内存型r7、r8a、r8y实例区别参考
在阿里云目前的活动中,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格,相比于活动内的经济型e、通用算力型u1实例来说,这些实例规格等性能更强,与计算型和通用型相比,它的内存更大,因此这些内存型实例规格主要适用于数据库、中间件和数据分析与挖掘,Hadoop、Spark集群等场景,本文为大家介绍内存型r7、r8a、r8y实例区别及最新活动价格,以供参考。
阿里云服务器内存型r7、r8a、r8y实例区别参考
|
1月前
|
SQL 弹性计算 安全
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
当我们通过阿里云的活动购买完云服务器之后,并不是立马就能使用了,还需要我们设置云服务器密码,配置安全组等基本操作之后才能使用,有的用户还需要购买并挂载数据盘到云服务器上,很多新手用户由于是初次使用阿里云服务器,因此并不知道这些设置的操作流程,下面给大家介绍下这些设置的具体操作流程。
购买阿里云活动内云服务器之后设置密码、安全组、增加带宽、挂载云盘教程
|
19小时前
|
网络协议 Serverless 应用服务中间件
Serverless 应用引擎操作报错合集之在阿里云函数计算中,服务器调用FC函数时出现 "[Errno -3] Temporary failure in name resolution)" 错误如何解决
Serverless 应用引擎(SAE)是阿里云提供的Serverless PaaS平台,支持Spring Cloud、Dubbo、HSF等主流微服务框架,简化应用的部署、运维和弹性伸缩。在使用SAE过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
11 4

热门文章

最新文章