HPC:要更高性能,就选水冷

简介:

用户HPC选型,最重视什么?毫无疑问是性能。用户部署HPC就是需要超高的计算性能。当然,HPC系统的高可靠性、易维护性以及价格和功耗成本,也是用户会关注的重要因素。

超算的核心目:极致性能

集群的规模、互联架构和集群的效率是决定性能的三个关键因素。

集群规模,也就是CPU、内存等硬件的数量,是决定性能的重要因素。同时,集群的架构,也即总线连接和网络架构,也是决定了整体性能的高低。最后,集群的效率,也是影响HPC系统性能的关键因素之一。

模块化数据中心破解数据中心“三高”难题

12年曙光做的星云(Nebula)超级计算机曙光5000A,发布的是星云系统峰值为每秒3000万亿次(3PFlops)计算性能,但效率其实只有40%左右。目前,业界对CPU、内存等硬件的利用率,已经能够到80%左右。

在从用户视角来看:集群规模受限于机房空间,虽然目前出来很多立体机房,机柜可以叠加,但空间仍然有效。在机房空间固定的情况下,集群规模是受限制的,CPU等硬件数量无法持续提升。同时,用户的预算有限制,同时,存储有限制,硬盘可以用8T,未来用10T12T,但最终空间也是有限。

大部分用户都会使用风冷的技术,风冷比较简单。这时机房的PUE能够1.5-3左右。而在空间有限、节点有限的情况下,其实利用水冷,可以做到更高的密度,更好的效率。

同时,机房有功率的限制,同时机房里还有大量的和能源相关的设备,比如UPS,因此从功耗的角度来设计,去除UPS等附属硬件,PUE值能够大大缩减,做到1.1-1.25。

效率和使用的处理器、主板都有关系。但我们必须从另外的角度来考虑,也就是从电源使用的角度。目前,有效使用电能(50%负载最优)需控制计算队列。水冷的目的是更多将电能用来进行计算处理,来提高计算性能!

模块化数据中心破解数据中心“三高”难题

如果把某一些端口,直接换成铜缆,传输率是一样的。但可以极大降低功耗,比如每个交换机节省100w,16个交换机的节省,可以达到额外增加4个节点,极大的提高性能。

模块化数据中心破解数据中心“三高”难题

什么场景下可用水冷?

用户以提升计算性能、计算效率为核心需求。也就是关注性能,而不是关注价格。毕竟水冷会比风冷更贵一些。

同时,用户有室外空间来放置水冷设备,同时,机房基建与计算集群同步建设的环境。如果已经有风冷的设备了,再拆掉重新布置水冷,就有些不值了。

使用水冷的用户,大部分都是机房空间有限、供电有限的用户。因为水冷可以大大提高密度,同时降低电力消耗。

在水冷的项目里面,目前有很多国外的经验可以借鉴。

比如无冷凝水冷的温水二次利用。对于高校、政府等用户来说,水冷可以变成供暖的水。在集群规模够大的情况下,水冷系统可以产生高于65摄氏度的热水,在循环之后,当水温低于45度,又可以再次利用。

另外,利用Absorption Chiller吸附式冷凝机。水冷主机不需要供电,也即是零功耗,就可以实现温水的二次循环散热,而且整个系统能够达到50KW的大功率。

联想水冷技术应用全球

联想是HPC最先走出国门的企业,为众多世界级超算中心提供产品方案和技术支持。比如在欧洲最大的学术性数据中心之一——莱布尼茨超级计算中心里,联想帮助他们打造了11000个节点的SuperMUC直接水冷超级计算集群。该集群峰值计算速度达到9千万亿次每秒,向整个欧洲的研究人员提供超级计算资源,研究领域包括天体物理、生命科学等。

除了在性能上的提升以外,因为采用了联想首创的45度温水水冷技术,新的集群系统实现了1.1的PUE值,远低于1.5-3的业界一般水平。联想让客户5年整体电费下降37%——从2760万欧元降至1740万欧元,节省了超过1000万欧元。

模块化数据中心破解数据中心“三高”难题

(SuperMUC占地示意图,图中橘黄色管线是水冷管)

除了莱布尼茨超算中心,联想在欧洲也帮助西班牙巴塞罗那、意大利博洛尼亚CINECA等众多客户搭建了世界级超算系统。在全球高性能计算Top500排名中,联想以99套连续两年保持中国第一、全球第二的位置。我们的超级计算机,服务全球各个国家的客户,在高能物理、生命科学、气象、海洋、环保,航空航天、石油勘探、智能制造和互联网等众多领域,助力客户业务创新。

最近,联想利用水冷技术,最近中标了北京大学的超算中心项目。这是全国第一个应用水冷技术的超算中心,它不仅仅能够提供超级高的计算性能,同时也将为学校和国家节省大量的能源。

结语

如果简单来看,HPC系统性能和功耗很多时候是对立的。因为功耗低了,往往性能会受到影响。但通过水冷,不但做到了节能环保,更是对于计算性能的极致提升。


原文发布时间为:2017年2月17日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
前端开发 JavaScript
使用Vue+Element-UI从0搭建一个常见的前端模板
使用Vue+Element-UI从0搭建一个常见的前端模板
715 0
|
4月前
|
数据可视化
Dataphin功能Tips系列(68)如何配置业务指标关系图
Dataphin推出“业务指标关系图”功能,通过可视化方式直观展示业务指标拆解关系,帮助技术人员与业务人员快速对齐指标口径,提升开发效率。以GMV为例,用户可在系统中新建指标、添加关联指标并配置关系表达式,系统自动生成多层级关系图,便于理解和协作,实现指标开发透明化与一致性。
111 0
|
XML JSON API
教你如何使用API接口获取数据!
使用API接口获取数据的过程通常涉及到几个步骤,包括了解API、注册获取API密钥、编写代码调用API并处理返回的数据。下面是一个详细的教程。
|
8月前
|
机器学习/深度学习 人工智能 自动驾驶
今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench
由Skolkovo科技学院等机构提出的这项研究,聚焦于人工智能文本检测(ATD)的可解释性提升。利用Sparse Autoencoders(SAE)从Gemma-2-2b模型中提取特征,该工作揭示了现代大语言模型(LLM)与人类文本的差异,尤其是在信息密集领域,展现了独特的写作风格,为ATD提供了新的见解和方法。
157 14
|
8月前
|
机器学习/深度学习 自然语言处理 数据可视化
《自然语言处理架构的隐秘力量:FFN深度揭秘》
前馈神经网络(FFN)是自然语言处理(NLP)领域中不可或缺的组件,尤其在Transformer等架构中发挥重要作用。FFN通过非线性变换和特征提取,增强模型对复杂语义的理解能力,同时平衡注意力机制输出,提升泛化性能。其基本结构包括输入层、隐藏层和输出层,工作原理涉及加权求和与激活函数处理。尽管存在训练成本高和可解释性差等问题,未来的研究可能通过稀疏连接、动态计算等方式优化FFN,推动NLP技术进一步发展。
415 3
|
存储 关系型数据库 MySQL
MySQL数据库锁:共享锁和独占锁
本文详细介绍了`InnoDB`存储引擎中的两种行级别锁:共享锁(S锁)与排他锁(X锁)。通过具体示例展示了这两种锁的工作机制及其在`InnoDB`与`MyISAM`引擎中的表现差异。文章还提供了锁的兼容性矩阵,帮助读者更好地理解锁之间的互斥关系。最后总结了两种锁的特点及适用场景。适合希望深入了解`MySQL`并发控制机制的读者阅读。
475 1
|
存储 Linux 虚拟化
入职必会-开发环境搭建32-VMware虚拟机下载和安装
VMware虚拟机是一种基于VMware虚拟化技术的软件解决方案,它可以在一台物理计算机上创建多个独立的虚拟计算机环境。这些虚拟机可以运行不同的操作系统,如Windows、Linux等,使用户能够在单台计算机上同时运行多个操作系统。
347 0
入职必会-开发环境搭建32-VMware虚拟机下载和安装
|
小程序 API 决策智能
Multi-Agent实践第1期:5分钟上手AgentScope
阿里云与魔搭社区联合举办Create@AI创客松,邀请开发者探索基于多智能体的人机协作模式。活动提供资源支持和专家指导,获胜者可获得近5万元现金奖励及6亿次千问调用额度。参赛者需准备大模型API,如DashScope或OpenAI,使用AgentScope开源框架开发多智能体应用。立即报名参加:[报名链接](https//startup.aliyun.com/special/aihackathon4)。
|
机器学习/深度学习 算法 vr&ar
深度学习之可微渲染
可微渲染(Differentiable Rendering)是深度学习领域的一个重要概念,它将传统的计算机图形学与深度学习结合起来,通过使渲染过程可微分(differentiable),以便于在深度学习模型的训练中使用反向传播算法。可微渲染在计算机视觉、图形学和机器人学等领域有着广泛的应用。
601 3
|
关系型数据库 MySQL 数据库
MySQL数据库——触发器-案例(Insert类型、Update类型和Delete类型)
MySQL数据库——触发器-案例(Insert类型、Update类型和Delete类型)
438 0