HPE:百亿亿次计算设备需要以“内存为中心”,从而降低节点间数据传输功耗与时耗

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据同步 1个月
简介:

我们应该在功耗预算方面精打细算,不是吗?

HPE公司高级技术部门副总裁Mike Vildibill在接受采访时指出,功耗预算限制将终结现有超级计算机的设计模式——即采用多个独立节点并在其间进行数据传输。

HPE公司的超大规模超级计算机思路似乎将立足其Machine类共享内存方案扩展而来。

目前,各主要超级计算机大国——包括中国、日本、美国以及欧洲各国——都希望能够构建起拥有1百亿亿次处理能力的超大规模超级计算机。这意味着该设备每秒将能够完成1百亿亿次浮点运算。

HPE:百亿亿次计算设备需要以“内存为中心”,从而降低节点间数据传输功耗与时耗

目前的超级计算机属于千万亿次级别,其性能衡量单位为千万亿次。与之相比,越大规模系统的速度将提升上千倍。

英特尔-克雷为阿拉贡国家实验室打造的Aurora系统拥有180千万亿次运算能力,拥有5万个独立的x64与第三代至强Phi节点,总功耗为13兆瓦。每个节点能够交付3.6万亿次运算能力。然而,英特尔公司在推动至强Phi家族芯片的发展当中遇到了巨大难题,因此重新回归设计阶段。也正因为这一影响,Aurora的上线时间已经由原本计划中的2018年推迟到2021年或2022年左右。

美国能源部(简称DoE)下辖的PathForward计划负责为超大规模计算项目提供资金,并于去年6月向六家供应商授予合约,用于资助此类硬件、软件与应用的研发工作。其中具体包括:AMD、克雷、HPE、IBM、英特尔以及英伟达。
PathForward计划的目标,是在2021年之前向美国政府至少提供一套具有超大规模容量的系统方案。今年3月,能源部提交的一份预算申请显示,目前正有三套系统处于构思阶段当中:

  • Aurora – 由英特尔-克雷于2021年交付给阿拉贡国家实验室。
  • Frontier – 于2021年到2022年交付给橡树岭国家实验室。
  • El Capitan – 将在2023年左右交付给劳伦斯-利弗莫尔国家实验室(简称LLNL)。

目前尚不清楚Frontier与El Capitan系统将由哪些厂商负责交付。不过可以看到,六家供应商应该会两两结对,那么除去已经确定的英特尔与克雷合作开发Aurora系统之外,接下来的组合很可能是HPE加IBM以及AMD加英伟达——这显然吻合CPU加GPU的配伍思路。

将于2021年推出的Aurora系统将拥有20到40兆瓦功耗预算,5万个标称节点,而这也将成为Aurora系统的初始发展标准。

从以节点为中心到以内存为中心

HPE公司的Vildibill表示,目前存在各类包含数万个节点的超算设计蓝图,其中每个节点皆拥有自己的缓存、存储器以及I/O功能。然而,这些节点无法以合理的方式扩展至超大规模水平。

很明显,大家无法直接选取180千万亿次、5万节点加13兆瓦的系统,并简单将其扩展至超大规模级别。因为这意味着我们需要将节点数量增加5.6倍至28万个,并由此带来理论上的73兆瓦运行功耗。

必须加以调整,从而满足能源部对超大规模超级计算机的功耗限制。

如果某一节点上的软件需要的数据不在其内存当中——而是存在于另一节点的内存中,则会引发实际问题。这意味着另一节点必须接收对目标数据块的调用请求,将其打包并发送给请求节点。这需要消耗时间、CPU计算周期、IO通道资源以及功耗——换言之,时间与能源。

在HPE的超大规模系统当中,各处理节点仍然拥有自己的本地内存,但这些节点会直接构建于CPU核心之上或周边,即处于相同的处理器包之内。如此一来,相当于消除了像DIMM内存那样位于外部总线之上的情况。这些节点随后利用光子进行互连——换言之,其利用光脉冲直接将信息传入及传出处理芯片。

在理念上,内存、光速网络与计算核心的物理性紧密结合应该能够使得计算机在不消费过多电力的前提下扩展至超大规模水平。毕竟光纤连接的功耗水平远低于铜线。HPE公司研究员兼副总裁Paolo Faraboschi已经构想出10块万亿级处理器利用每秒1 TB连接接入这样的本地内存。

目前,智能手机与其它紧凑型设备同样倾向于将内存固定在CPU核心之上,因此在超级计算机中应用这种设计思路也完全在情理之中。

HyperX

在HPE公司的思路当中,上万甚至数十万个节点与大量内存将通过其HyperX架构以及拥有高双工端口数的光子路由器进行连接。HPE实验室的研究人员们正在积极开发全硅光子器件,其能够在多条光通道之间进行激光切换,并通过节点网络进行高速数据传输。

HyperX.拥有超立方体与序列化蝶形拓扑扩展方式,并配备一种DAL自适应路由算法。该拓扑结构能够将处理器分组为所谓多个维度,某一维度中的各处理器都与该维度中的其它处理器直接连接。

大家可以将一个维度想象成蝴蝶的翅膀。每个维度都与其它维度拥有直接连接。维度跳数为1,而这一数字会随着自某一维度内的处理器到另一维度内的其它处理器的过程而增加——不过HPE方面表示,尽管如此,该跳数仍然远低于其它拓扑结构方案。

如此一来,在处理器上运行的代码将利用HyperX光子结构并加载存储语义以访问共享内存资源池。HPE公司设计利用Gen-Z作为内存语义协议,而AMD公司正是Gen-Z联盟的成员。内存制造商美光同样是其中一员,因此其可能负责提供芯片连接型内存以供AMD CPU在这类设备当使用。

在HPE公司发布的超大规模方案当中,运行在节点处理器上的软件将使用并共享存储顺指针以访问数据,而无需考虑其究竟存储在本地内存当中还是另一节点的内存当中。如果互连链路速度足够快——每秒能够移动数百GB数据——则信息将得到有效加载,节点间的计算与存储资源将拥有透明化与原子化特性,从而避免给系统带来性能瓶颈。

另外,这种方法还意味着各数据块不必在节点间进行明确的复制,并可利用锁定及其它机制将数据块提交回内存以避免争用。相反,全部处理过程都应在光子结构层中以快速化、透明化且原子化方式实现,这在理想情况下应该能够有效降低功耗与延迟水平。

从本质上讲,HPE公司必须证明在利用这一技术时,访问某一节点中内存内数据的速度与访问特定节点中内存内数据的速度能够保持一致。在此之后,CPU高速缓存将开始介入,随后该缓存工作集正式开始接受计算处理。

总结来讲,HPE公司打算将其共享内存技术的剩余部分剥离出Machine项目研究,进一步加以完善,并将其部署在美国能源部的超大规模项目当中。我们可以想象,HPE公司很可能选择AMD作为其CPU合作伙伴,而美光则将以内存供应商的身份出现。那么,HPE最终负责的将是Frontier还是El Capitan呢?请大家拭目以待。


原文发布时间为:2018-06-8

本文来自云栖社区合作伙伴“至顶网”,了解相关信息可以关注“至顶网”。

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
相关文章
|
8月前
|
存储 Kubernetes 容器
【CKA模拟题】查找集群中使用内存最高的node节点
【CKA模拟题】查找集群中使用内存最高的node节点
76 1
|
Kubernetes 监控 Java
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
814 0
【JVM故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?
|
2月前
|
传感器 人工智能 物联网
C 语言在计算机科学中尤其在硬件交互方面占据重要地位。本文探讨了 C 语言与硬件交互的主要方法,包括直接访问硬件寄存器、中断处理、I/O 端口操作、内存映射 I/O 和设备驱动程序开发
C 语言在计算机科学中尤其在硬件交互方面占据重要地位。本文探讨了 C 语言与硬件交互的主要方法,包括直接访问硬件寄存器、中断处理、I/O 端口操作、内存映射 I/O 和设备驱动程序开发,以及面临的挑战和未来趋势,旨在帮助读者深入了解并掌握这些关键技术。
73 6
|
4月前
|
Prometheus Kubernetes 监控
使用kubectl快速查看各个节点的CPU和内存占用量
在Kubernetes集群中,安装metrics-server,并使用kubectl快速查看集群中各个节点的资源使用情况。
376 0
|
5月前
|
Oracle 关系型数据库
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
|
8月前
|
Android开发
Android 设备清理内存 RAM
Android 设备清理内存 RAM
72 0
|
监控 应用服务中间件
如下请问EDAS的这个问题怎么解决? 应用id:2b0e6935-47fb-40ec-a11d-7dac320aecc1 集群中的节点内存是足够的,部署跑不起来 可以帮忙看看吗,以前集群下应用发布都是正常的,最近集群下应用部署基本都报错跑不起来,提示节点不可用
如下请问EDAS的这个问题怎么解决? 应用id:2b0e6935-47fb-40ec-a11d-7dac320aecc1 集群中的节点内存是足够的,部署跑不起来 可以帮忙看看吗,以前集群下应用发布都是正常的,最近集群下应用部署基本都报错跑不起来,提示节点不可用
147 2
|
存储 关系型数据库 MySQL
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
484 15
|
存储 Prometheus Cloud Native
FinOPS之 节点内存态统计和计算Node-metrics
董江,容器技术布道者及实践者,中国移动高级系统架构专家,曾担任华为云核心网技术专家,CloudNative社区核心成员,KubeServiceStack社区发起者,Prometheus社区PMC,Knative Committer,Grafana社区Contributer。 欢迎关注:https://kubeservice.cn/
FinOPS之 节点内存态统计和计算Node-metrics
|
缓存 运维 Java
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
205 14