HPE:百亿亿次计算设备需要以“内存为中心”,从而降低节点间数据传输功耗与时耗

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
数据传输服务 DTS,数据同步 small 3个月
推荐场景:
数据库上云
数据传输服务 DTS,数据同步 1个月
简介:

我们应该在功耗预算方面精打细算,不是吗?

HPE公司高级技术部门副总裁Mike Vildibill在接受采访时指出,功耗预算限制将终结现有超级计算机的设计模式——即采用多个独立节点并在其间进行数据传输。

HPE公司的超大规模超级计算机思路似乎将立足其Machine类共享内存方案扩展而来。

目前,各主要超级计算机大国——包括中国、日本、美国以及欧洲各国——都希望能够构建起拥有1百亿亿次处理能力的超大规模超级计算机。这意味着该设备每秒将能够完成1百亿亿次浮点运算。

HPE:百亿亿次计算设备需要以内存为中心,从而降低节点间数据传输功耗与时耗

目前的超级计算机属于千万亿次级别,其性能衡量单位为千万亿次。与之相比,越大规模系统的速度将提升上千倍。

英特尔-克雷为阿拉贡国家实验室打造的Aurora系统拥有180千万亿次运算能力,拥有5万个独立的x64与第三代至强Phi节点,总功耗为13兆瓦。每个节点能够交付3.6万亿次运算能力。然而,英特尔公司在推动至强Phi家族芯片的发展当中遇到了巨大难题,因此重新回归设计阶段。也正因为这一影响,Aurora的上线时间已经由原本计划中的2018年推迟到2021年或2022年左右。

美国能源部(简称DoE)下辖的PathForward计划负责为超大规模计算项目提供资金,并于去年6月向六家供应商授予合约,用于资助此类硬件、软件与应用的研发工作。其中具体包括:AMD、克雷、HPE、IBM、英特尔以及英伟达。
PathForward计划的目标,是在2021年之前向美国政府至少提供一套具有超大规模容量的系统方案。今年3月,能源部提交的一份预算申请显示,目前正有三套系统处于构思阶段当中:

  • Aurora – 由英特尔-克雷于2021年交付给阿拉贡国家实验室。
  • Frontier – 于2021年到2022年交付给橡树岭国家实验室。
  • El Capitan – 将在2023年左右交付给劳伦斯-利弗莫尔国家实验室(简称LLNL)。

目前尚不清楚Frontier与El Capitan系统将由哪些厂商负责交付。不过可以看到,六家供应商应该会两两结对,那么除去已经确定的英特尔与克雷合作开发Aurora系统之外,接下来的组合很可能是HPE加IBM以及AMD加英伟达——这显然吻合CPU加GPU的配伍思路。

将于2021年推出的Aurora系统将拥有20到40兆瓦功耗预算,5万个标称节点,而这也将成为Aurora系统的初始发展标准。

从以节点为中心到以内存为中心

HPE公司的Vildibill表示,目前存在各类包含数万个节点的超算设计蓝图,其中每个节点皆拥有自己的缓存、存储器以及I/O功能。然而,这些节点无法以合理的方式扩展至超大规模水平。

很明显,大家无法直接选取180千万亿次、5万节点加13兆瓦的系统,并简单将其扩展至超大规模级别。因为这意味着我们需要将节点数量增加5.6倍至28万个,并由此带来理论上的73兆瓦运行功耗。

必须加以调整,从而满足能源部对超大规模超级计算机的功耗限制。

如果某一节点上的软件需要的数据不在其内存当中——而是存在于另一节点的内存中,则会引发实际问题。这意味着另一节点必须接收对目标数据块的调用请求,将其打包并发送给请求节点。这需要消耗时间、CPU计算周期、IO通道资源以及功耗——换言之,时间与能源。

在HPE的超大规模系统当中,各处理节点仍然拥有自己的本地内存,但这些节点会直接构建于CPU核心之上或周边,即处于相同的处理器包之内。如此一来,相当于消除了像DIMM内存那样位于外部总线之上的情况。这些节点随后利用光子进行互连——换言之,其利用光脉冲直接将信息传入及传出处理芯片。

在理念上,内存、光速网络与计算核心的物理性紧密结合应该能够使得计算机在不消费过多电力的前提下扩展至超大规模水平。毕竟光纤连接的功耗水平远低于铜线。HPE公司研究员兼副总裁Paolo Faraboschi已经构想出10块万亿级处理器利用每秒1 TB连接接入这样的本地内存。

目前,智能手机与其它紧凑型设备同样倾向于将内存固定在CPU核心之上,因此在超级计算机中应用这种设计思路也完全在情理之中。

HyperX

在HPE公司的思路当中,上万甚至数十万个节点与大量内存将通过其HyperX架构以及拥有高双工端口数的光子路由器进行连接。HPE实验室的研究人员们正在积极开发全硅光子器件,其能够在多条光通道之间进行激光切换,并通过节点网络进行高速数据传输。

HyperX.拥有超立方体与序列化蝶形拓扑扩展方式,并配备一种DAL自适应路由算法。该拓扑结构能够将处理器分组为所谓多个维度,某一维度中的各处理器都与该维度中的其它处理器直接连接。

大家可以将一个维度想象成蝴蝶的翅膀。每个维度都与其它维度拥有直接连接。维度跳数为1,而这一数字会随着自某一维度内的处理器到另一维度内的其它处理器的过程而增加——不过HPE方面表示,尽管如此,该跳数仍然远低于其它拓扑结构方案。

如此一来,在处理器上运行的代码将利用HyperX光子结构并加载存储语义以访问共享内存资源池。HPE公司设计利用Gen-Z作为内存语义协议,而AMD公司正是Gen-Z联盟的成员。内存制造商美光同样是其中一员,因此其可能负责提供芯片连接型内存以供AMD CPU在这类设备当使用。

在HPE公司发布的超大规模方案当中,运行在节点处理器上的软件将使用并共享存储顺指针以访问数据,而无需考虑其究竟存储在本地内存当中还是另一节点的内存当中。如果互连链路速度足够快——每秒能够移动数百GB数据——则信息将得到有效加载,节点间的计算与存储资源将拥有透明化与原子化特性,从而避免给系统带来性能瓶颈。

另外,这种方法还意味着各数据块不必在节点间进行明确的复制,并可利用锁定及其它机制将数据块提交回内存以避免争用。相反,全部处理过程都应在光子结构层中以快速化、透明化且原子化方式实现,这在理想情况下应该能够有效降低功耗与延迟水平。

从本质上讲,HPE公司必须证明在利用这一技术时,访问某一节点中内存内数据的速度与访问特定节点中内存内数据的速度能够保持一致。在此之后,CPU高速缓存将开始介入,随后该缓存工作集正式开始接受计算处理。

总结来讲,HPE公司打算将其共享内存技术的剩余部分剥离出Machine项目研究,进一步加以完善,并将其部署在美国能源部的超大规模项目当中。我们可以想象,HPE公司很可能选择AMD作为其CPU合作伙伴,而美光则将以内存供应商的身份出现。那么,HPE最终负责的将是Frontier还是El Capitan呢?请大家拭目以待。


原文发布时间为:2018-06-8

本文来自云栖社区合作伙伴“至顶网”,了解相关信息可以关注“至顶网”。

相关实践学习
MySQL数据库DTS迁移上云
利用DTS数据迁移工具完成RDS实例间的数据迁移。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
相关文章
|
8天前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存型详细介绍和性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)三种,主要区别在于CPU和内存比例。计算型CPU内存比1:2,如2核4G;通用型为1:4,如2核8G;内存型为1:8,如2核16G。随着技术迭代,有第五代至第八代产品,如c7、g5、r8a等。每代实例在CPU型号和主频上相同,但性能有所提升。实例性能参数包括网络带宽、收发包能力、连接数等。具体应用场景如计算型适合高网络包收发、通用型适合企业级应用,内存型适合内存数据库等。详细信息可参阅阿里云ECS页面。
|
3天前
|
存储 缓存 安全
阿里云服务器实例规格选择参考:经济型、通用算力型、计算型、通用型、内存型区别
当我们在通过阿里云的各种活动选择云服务器实例规格的时候会发现,相同配置的云服务器往往有多个不同的实例可选,而且价格差别也比较大,这会是因为不同实例规格的由于采用的处理器不同,底层架构也有所不同(例如X86 计算架构与Arm 计算架构),因此不同实例的云服务器其性能与适用场景是有所不同。目前阿里云的活动中,主要的实例规格可分为经济型、通用算力型、计算型、通用型、内存型,对于很多初次接触阿里云服务器的用户来说,了解他们之间的差别就是比较重要的了,下面小编来为大家简单介绍下它们之间的区别。
阿里云服务器实例规格选择参考:经济型、通用算力型、计算型、通用型、内存型区别
|
2月前
|
存储 安全 数据库
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
在阿里云服务器的实例规格中,有共享型也有企业型,一般用户选择较多的企业级实例规格有计算型、通用型、内存型,每一种实例规格又有多个实例规格族可选,不同的云服务器实例规格在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例规格特点、适用场景及最新价格参考
|
8天前
|
弹性计算 安全 前端开发
云服务器ECS通用型、计算型和内存型区别以及详细介绍
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)系列,区别在于CPU内存比。计算型1:2,如2核4G;通用型1:4,如2核8G;内存型1:8,如2核16G。实例有第五代至第八代,如c7、g5、r8a等,新一代通常使用更先进的处理器。性能参数如CPU主频、IOPS和网络带宽随实例规格变化。实例适合场景包括高网络包收发、数据库、计算密集型任务等。
|
2月前
|
存储 编解码 安全
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
在阿里云的活动中,属于计算型实例规格的云服务器主要有计算型c7、计算型c7a、计算型c8a、计算型c8y、计算型c8i这几个实例规格,属于通用型实例规格的云服务器有通用型g7、通用型g7a、通用型g8a、通用型g8y、通用型g8i,属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y、内存型r8i等实例。不同实例规格的云服务器在架构、计算、存储、网络、安全等方面有着不同,因此,其适用场景也有所不同。本文来详细介绍一下阿里云服务器计算型、通用型、内存型主要实例计算、存储等性能及其适用场景,以供参考。
阿里云服务器计算型、通用型、内存型主要实例性能及选择参考
|
2月前
|
Java
<Java SE> 5道递归计算,创建数组,数组遍历,JVM内存分配...
<Java SE> 5道递归计算,创建数组,数组遍历,JVM内存分配
40 2
|
2月前
|
存储 编解码 安全
阿里云服务器计算型c7与c8y、通用型g7与g8y、内存型r7与r8y区别及选择参考
在阿里云目前的活动中,除了轻量应用服务器和经济型e、通用算力型u1实例的云服务器之外,性能更高的云服务器实例规格有计算型c7与c8y、通用型g7与g8y、内存型r7与r8y,这些实例规格更适合企业级用户的上云需求,有的用户并不是很清楚他们之间的区别,从而不知道应该如何选择,本文就为大家介绍一下他们之间的区别,以供选择参考。
阿里云服务器计算型c7与c8y、通用型g7与g8y、内存型r7与r8y区别及选择参考
|
2月前
|
SQL 分布式计算 Hadoop
Spark分布式内存计算框架
Spark分布式内存计算框架
68 0
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
内存计算为边缘人工智能提供动力,并加速制造业效率
内存计算为边缘人工智能提供动力,并加速制造业效率
|
2月前
|
Android开发
Android 设备清理内存 RAM
Android 设备清理内存 RAM
21 0