HPE:百亿亿次计算设备需要以“内存为中心”,从而降低节点间数据传输功耗与时耗

本文涉及的产品
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,同步至 ClickHouse 1个月
简介:

我们应该在功耗预算方面精打细算,不是吗?

HPE公司高级技术部门副总裁Mike Vildibill在接受采访时指出,功耗预算限制将终结现有超级计算机的设计模式——即采用多个独立节点并在其间进行数据传输。

HPE公司的超大规模超级计算机思路似乎将立足其Machine类共享内存方案扩展而来。

目前,各主要超级计算机大国——包括中国、日本、美国以及欧洲各国——都希望能够构建起拥有1百亿亿次处理能力的超大规模超级计算机。这意味着该设备每秒将能够完成1百亿亿次浮点运算。

HPE:百亿亿次计算设备需要以“内存为中心”,从而降低节点间数据传输功耗与时耗

目前的超级计算机属于千万亿次级别,其性能衡量单位为千万亿次。与之相比,越大规模系统的速度将提升上千倍。

英特尔-克雷为阿拉贡国家实验室打造的Aurora系统拥有180千万亿次运算能力,拥有5万个独立的x64与第三代至强Phi节点,总功耗为13兆瓦。每个节点能够交付3.6万亿次运算能力。然而,英特尔公司在推动至强Phi家族芯片的发展当中遇到了巨大难题,因此重新回归设计阶段。也正因为这一影响,Aurora的上线时间已经由原本计划中的2018年推迟到2021年或2022年左右。

美国能源部(简称DoE)下辖的PathForward计划负责为超大规模计算项目提供资金,并于去年6月向六家供应商授予合约,用于资助此类硬件、软件与应用的研发工作。其中具体包括:AMD、克雷、HPE、IBM、英特尔以及英伟达。
PathForward计划的目标,是在2021年之前向美国政府至少提供一套具有超大规模容量的系统方案。今年3月,能源部提交的一份预算申请显示,目前正有三套系统处于构思阶段当中:

  • Aurora – 由英特尔-克雷于2021年交付给阿拉贡国家实验室。
  • Frontier – 于2021年到2022年交付给橡树岭国家实验室。
  • El Capitan – 将在2023年左右交付给劳伦斯-利弗莫尔国家实验室(简称LLNL)。

目前尚不清楚Frontier与El Capitan系统将由哪些厂商负责交付。不过可以看到,六家供应商应该会两两结对,那么除去已经确定的英特尔与克雷合作开发Aurora系统之外,接下来的组合很可能是HPE加IBM以及AMD加英伟达——这显然吻合CPU加GPU的配伍思路。

将于2021年推出的Aurora系统将拥有20到40兆瓦功耗预算,5万个标称节点,而这也将成为Aurora系统的初始发展标准。

从以节点为中心到以内存为中心

HPE公司的Vildibill表示,目前存在各类包含数万个节点的超算设计蓝图,其中每个节点皆拥有自己的缓存、存储器以及I/O功能。然而,这些节点无法以合理的方式扩展至超大规模水平。

很明显,大家无法直接选取180千万亿次、5万节点加13兆瓦的系统,并简单将其扩展至超大规模级别。因为这意味着我们需要将节点数量增加5.6倍至28万个,并由此带来理论上的73兆瓦运行功耗。

必须加以调整,从而满足能源部对超大规模超级计算机的功耗限制。

如果某一节点上的软件需要的数据不在其内存当中——而是存在于另一节点的内存中,则会引发实际问题。这意味着另一节点必须接收对目标数据块的调用请求,将其打包并发送给请求节点。这需要消耗时间、CPU计算周期、IO通道资源以及功耗——换言之,时间与能源。

在HPE的超大规模系统当中,各处理节点仍然拥有自己的本地内存,但这些节点会直接构建于CPU核心之上或周边,即处于相同的处理器包之内。如此一来,相当于消除了像DIMM内存那样位于外部总线之上的情况。这些节点随后利用光子进行互连——换言之,其利用光脉冲直接将信息传入及传出处理芯片。

在理念上,内存、光速网络与计算核心的物理性紧密结合应该能够使得计算机在不消费过多电力的前提下扩展至超大规模水平。毕竟光纤连接的功耗水平远低于铜线。HPE公司研究员兼副总裁Paolo Faraboschi已经构想出10块万亿级处理器利用每秒1 TB连接接入这样的本地内存。

目前,智能手机与其它紧凑型设备同样倾向于将内存固定在CPU核心之上,因此在超级计算机中应用这种设计思路也完全在情理之中。

HyperX

在HPE公司的思路当中,上万甚至数十万个节点与大量内存将通过其HyperX架构以及拥有高双工端口数的光子路由器进行连接。HPE实验室的研究人员们正在积极开发全硅光子器件,其能够在多条光通道之间进行激光切换,并通过节点网络进行高速数据传输。

HyperX.拥有超立方体与序列化蝶形拓扑扩展方式,并配备一种DAL自适应路由算法。该拓扑结构能够将处理器分组为所谓多个维度,某一维度中的各处理器都与该维度中的其它处理器直接连接。

大家可以将一个维度想象成蝴蝶的翅膀。每个维度都与其它维度拥有直接连接。维度跳数为1,而这一数字会随着自某一维度内的处理器到另一维度内的其它处理器的过程而增加——不过HPE方面表示,尽管如此,该跳数仍然远低于其它拓扑结构方案。

如此一来,在处理器上运行的代码将利用HyperX光子结构并加载存储语义以访问共享内存资源池。HPE公司设计利用Gen-Z作为内存语义协议,而AMD公司正是Gen-Z联盟的成员。内存制造商美光同样是其中一员,因此其可能负责提供芯片连接型内存以供AMD CPU在这类设备当使用。

在HPE公司发布的超大规模方案当中,运行在节点处理器上的软件将使用并共享存储顺指针以访问数据,而无需考虑其究竟存储在本地内存当中还是另一节点的内存当中。如果互连链路速度足够快——每秒能够移动数百GB数据——则信息将得到有效加载,节点间的计算与存储资源将拥有透明化与原子化特性,从而避免给系统带来性能瓶颈。

另外,这种方法还意味着各数据块不必在节点间进行明确的复制,并可利用锁定及其它机制将数据块提交回内存以避免争用。相反,全部处理过程都应在光子结构层中以快速化、透明化且原子化方式实现,这在理想情况下应该能够有效降低功耗与延迟水平。

从本质上讲,HPE公司必须证明在利用这一技术时,访问某一节点中内存内数据的速度与访问特定节点中内存内数据的速度能够保持一致。在此之后,CPU高速缓存将开始介入,随后该缓存工作集正式开始接受计算处理。

总结来讲,HPE公司打算将其共享内存技术的剩余部分剥离出Machine项目研究,进一步加以完善,并将其部署在美国能源部的超大规模项目当中。我们可以想象,HPE公司很可能选择AMD作为其CPU合作伙伴,而美光则将以内存供应商的身份出现。那么,HPE最终负责的将是Frontier还是El Capitan呢?请大家拭目以待。


原文发布时间为:2018-06-8

本文来自云栖社区合作伙伴“至顶网”,了解相关信息可以关注“至顶网”。

相关实践学习
自建数据库迁移到云数据库
本场景将引导您将网站的自建数据库平滑迁移至云数据库RDS。通过使用RDS,您可以获得稳定、可靠和安全的企业级数据库服务,可以更加专注于发展核心业务,无需过多担心数据库的管理和维护。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
相关文章
|
2月前
|
存储 机器学习/深度学习 缓存
阿里云九代云服务器怎么样?计算型c9i、通用型g9i、内存型r9i实例介绍
阿里云第9代云服务器主要实例规格包括计算型c9i、通用型g9i、内存型r9i,本文将为大家介绍阿里云九代云服务器中的计算型c9i、通用型g9i、内存型r9i实例的主要性能特点,并分享最新的活动价格信息,以供参考。
226 1
|
7月前
|
存储 分布式计算 监控
阿里云服务器实例经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i详解与选择策略
在阿里云现在的活动中,可选的云服务器实例规格主要有经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例,虽然阿里云在活动中提供了多种不同规格的云服务器实例,以满足不同用户和应用场景的需求。但是有的用户并不清楚他们的性能如何,应该如何选择。本文将详细介绍阿里云服务器中的经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例的性能、适用场景及选择参考,帮助用户根据自身需求做出更加精准的选择。
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
阿里云服务器ECS计算型、通用型、内存型规格族属于独享型云服务器,在高负载不会出现计算资源争夺现象,因为每一个vCPU都对应一个Intel ® Xeon ®处理器核心的超线程,具有性能稳定且资源独享的特点。本文为大家整理汇总了阿里云服务器ECS计算型、通用型、内存型主要实例规格族具体实例规格有哪些,各个实例规格的性能特点和主要适用场景。
阿里云服务器计算型、通用型、内存型主要实例规格性能特点和适用场景汇总
|
7月前
|
存储 编解码 安全
阿里云高性能企业级甄选Intel第八代计算型c8i、通用型g8i和内存型r8i实例简介
计算型c8i、通用型g8i和内存型r8i实例是阿里云推出的高性能企业级甄选Intel第八代云服务器实例,采用CIPU+飞天技术架构,搭载最新的Intel 第五代至强可扩展处理器(代号EMR),性能进一步大幅提升,同时拥有AMX加持的AI能力增强,并在全球范围率先支持TDX机密虚拟机能力,实现了AI增强和全面安全防护的两大特色优势。本文将为您介绍这三个实例规格的性能、适用场景及最新活动价格以及选择指南,以供选择参考。
277 18
|
8月前
|
存储 缓存 安全
阿里云服务器计算型c7/c8y/c8i,通用型g7/g8y/g8i,内存型r7/r8y/r8i区别及选择参考
为了满足不同企业级用户的多样化需求,阿里云在当下的活动中推出了多款计算型、通用型和内存型的云服务器实例,包括计算型c7/c8y/c8i、通用型g7/g8y/g8i以及内存型r7/r8y/r8i等。这些实例各具特色,适用于不同的应用场景和业务需求。本文将为您详细解析这些实例的区别,以及选择参考,帮助您根据自己的需求选择合适的阿里云服务器实例。
|
10月前
|
存储 分布式计算 安全
阿里云服务器经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例介绍与选择参考
在阿里云现在的活动中,可选的云服务器实例规格主要有经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例,虽然阿里云在活动中提供了多种不同规格的云服务器实例,以满足不同用户和应用场景的需求。但是有的用户并不清楚他们的性能如何,应该如何选择。本文将详细介绍阿里云服务器中的经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例的性能、适用场景及选择参考,帮助用户根据自身需求做出合适的选择。
|
11月前
|
传感器 人工智能 物联网
C 语言在计算机科学中尤其在硬件交互方面占据重要地位。本文探讨了 C 语言与硬件交互的主要方法,包括直接访问硬件寄存器、中断处理、I/O 端口操作、内存映射 I/O 和设备驱动程序开发
C 语言在计算机科学中尤其在硬件交互方面占据重要地位。本文探讨了 C 语言与硬件交互的主要方法,包括直接访问硬件寄存器、中断处理、I/O 端口操作、内存映射 I/O 和设备驱动程序开发,以及面临的挑战和未来趋势,旨在帮助读者深入了解并掌握这些关键技术。
244 6
|
分布式计算 大数据 数据挖掘
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例是阿里云的第八代云服务器实例规格,是除了计算型c7和c8y、通用型g7与g8y、内存型r7与r8y之外同样深受用户喜欢的云服务器实例规格。本文将详细介绍阿里云第八代云服务器中的计算型c8i、通用型g8i、以及内存型r8i实例,包括它们的技术特性、适用场景以及最新的活动价格信息。
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考
|
12月前
|
存储 机器学习/深度学习 应用服务中间件
阿里云倚天云服务器实例:计算型c8y、通用型g8y、内存型r8y实例介绍
阿里云倚天云服务器是基于阿里云自研的倚天710 ARM架构CPU打造的高性能计算产品系列,它依托先进的第四代神龙架构,旨在为用户提供稳定可预期的超高效能体验。倚天云服务器在存储、网络性能及计算稳定性方面实现了显著提升,主要得益于其芯片级的快速路径加速技术。本文将深度解析阿里云倚天云服务器的计算型c8y、通用型g8y、内存型r8y实例,探讨其优势及适用场景,以供选择参考。

热门文章

最新文章