拆解超算上云的障碍，阿里云用了这三招|E-HPC如何改变云超算？-阿里云开发者社区

IT基础设施云化专场PPT下载

2019年阿里云上海峰会，由阿里云资深技术专家何万青带来以“阿里云超算E-HPC平台”为题的演讲。本文内容包括了HPC概念及发展趋势，面向“大计算”设计的弹性基础设施，客户应用云上优化，着重介绍了E-HPC自动伸缩，闲时计算方案与混合云，数据全流程可视化以及HPC工作流与数据迁移等。
以下为精彩视频内容整理：
ECS主要讲弹性，弹性的根源就是虚拟化。在高性能计算行业，在阿里云的带动下有一种说法叫做超算云。各大超算中心、第三方软件中心提供二次租赁，基石是物理机，不具备弹性，粒度是一台主机，没有做虚拟化。云超算和超算云在技术上来讲是两码事情。

HPC概念及发展趋势

高性能计算 (High Performance Computing)是计算机科学的一个分支。主要聚焦于解决大规模科学问题的计算和海量数据的处理，如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。构建高性能计算系统的主要目的就是提高运算速度，要达到每秒万亿次级的计算速度，对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高，这其中的每一个环节都将直接影响到系统的运算速度。

世界上每年两次的超级计算大会，都会评世界TOP500。超算是计算技术的峰顶，会往下进行技术的扩散。特点是在2005年以后，普遍用通用服务器，通过高速互联的网络，并行的系统连成超算集群。TOP500大部分都是计算集群，HPC和云计算结合，最早是所谓网格计算，而真正的HPCinCloud，最早出现在亚马逊，接着是微软，阿里云。这证明高性能计算的算法，计算模式上云是需要一个过程的。

阿里云3招拆解超算上云障碍

障碍来自几个方面，高性能计算或者超计算用户。第一是存量用户，不管是做地震资料模拟还是气象模拟，都是跟互联网公司、云公司的基础结构完全不一样的，互联网公司或者云公司计算架构是出自大数据，阿里云刚开始做大数据的处理，是分布式计算，基于异步通信，每个节点上由在地数据在当地完成计算，然后进行异步通信。但是高性能计算由于要解偏微分方程，需要在每个时间迭代上算完所有的节点，才能进行下一步，所以有几个核心要求：
 第一，单个节点的性能要非常高，高主频、多核，还有一点是有很大的心理障碍，虚机是有损失的，所以人们不愿意用云。
 第二，同步通信带来的对延迟的极致要求。在阿里云用RDMA跟IB 同一个延迟数量级，两个微秒之内完成点对点。另外一点是RDMA的网络会对大量的互联网应用有很大的普适性，而高性能计算具有垂直和分多个行业，每个行业有头部应用，有汽车碰撞或者渲染。
 第三，高吞吐并行文件系统。互联网上云公司做的最好的是数据的保护和稳定，压力在于企业级并行存储，做每秒钟几十个GB的吞吐，通过在云上建立并行文件系统解决了这个差距。
阿里云做的就是近似裸金属的性能，但是具备云的弹性，才能叫云超算。二是网络，还要把并行软件系统做到盘古上去。

面向“大计算”设计的弹性基础设施

面对大计算，在神龙虚拟化出现之前，Zen和KVM都需要一部分的CPU拿来做Hypervisor (虚机管理)。比如我手上这瓶矿泉水，云公司中底层之间的差距在于，谁能把更多的水卖出去，这是虚拟化的开销。神龙就是把hypervisor用软硬件结合的MOC卡方式实现了。
一方面如果实现了hypervisor之后，整个的输出是弹性的，可以连上VPC、云盘，连上阿里云存储产品、IO网络。剩下的计算部分，裸金属输出，高性能计算最大的问题，一是需要裸金属的性能，二是需要隔离性，这都可以做到。每一代处理器的推出，英特尔不会把所有新的feature马上虚拟化，没有办法通过完全虚拟化的方式得到这部分feature。这一部分跟超算中心一样的东西，提供顶级超算的配置，如果喜欢，就可以用8卡的GPU再加上48核CPU，这样就可以达到顶级超算的性能。在云计算模式下，当高性能计算上云之后，真正带来性能的是云计算资源的调配、安排以及怎么有效的使用。

很多超算中心CPU使用率，测试出来是30%左右，由于没有办法做更小的切割。在计算过程中，伸缩是没有办法释放和扩展的。

一张图描述E-HPC

在做高性能计算的时候有几种选择，一种是把实例做出来，客户上云去手动搭出一个超算，这叫松耦合，亚马逊的做法。微软起步晚，通过购买Linux IB集群来使用。阿里巴巴采用一种云原生紧耦合的模式，线下超算是这样，计算节点，文件存储、图形节点、头节点。我们需要把阿里云上可选的实例类型用高速互联的ROCE连在一起，形成网络之后，可以跟其他的文件存储产品登录节点连在一起。所有的超算都是这样，立项、OEM应标，最后只有一套配置，没法再改变，只能通过应用对它优化。但在阿里云上，你随时可以为超算变配。
另外一种是在云上提交，使用这份资源的时候，这一部分的机器公共云上。但是在VPC你是私有的，你不用的时候别人在用，这才是真正摊平成本最重要的事情。

E-HPC 让云超算强大易用

在阿里云上做高性能计算，实际上是在云原生基础设施上开发了一个PaaS平台，把所有的计算节点、登录节点、共享存储，通过软件栈变成一个并行计算和编程的环境。它和超算中心很不一样的地方是首先要付费，一般来讲大型的行业知道自己的工作模式，就会包年包月。但是很多的基因计算用户使用按量付费，因为它的科研和任务是变动的，这个时候需要能够自动伸缩保证它每次用的是正好够用的，像每次买电一样。还有就是在阿里云和公共云上都有一种竞价实例，这个适合搞科研的人。因为课题组不能保证每天算多少何时算，是博士们脑袋来灵感才算，所以竞价实例正好跟高性能计算行业长期形成的东西，叫断点续算可以结合 – 形成我们叫做“闲时计算”的模式，大部分的气象预算，超算中心硬件故障率发生时，算上几天突然间有一个节点坏了，不可以从头开始算，那就无法预报，那么应用本身带有checkpoint（断点续算）的话，隔绝故障后隔几分钟再从“断点“继续往下算，跟阿里云竞价实例在一起，这样大量节约成本，而性能基本上没有太大损失。通过几个键的点击就可以在公共云上形成自己的一套超算，最大的好处对于搞科研的人来讲，不需要学习怎么样构建集群等。

部署集群—基础配置

在公共云平台上，通过硬件配置、软件配置、基础配置最后形成一个拓扑，这是标准的拓扑，单个节点、单个实例，两台加上三台计算节点，计算过程中可以变配，形成一个集群。

任务提交和查看

我们把上面的文件导入导出，可以通过阿里云计算流数据流的方式，在自己的集群上编程是两种模式。

作业调度器

在高性能计算里面，不可或缺又容易被忽视的是并行调度器。在云上的高性能计算可以最大程度发挥调度器的能力，因为云资源切片粒度要细得多，资源的弹性和伸缩是云计算的精髓，调度最常用的是PBS、SLURM、SGE、OpenGrid、CUBE。我们可以在切片的力度上追踪每一个job排队有多少，现在有多少节点，有多少节点等待，可以通过资源编排和自动伸缩实现高密度的调度。我们有车厂的客户，包括上汽、吉利集团。吉利集团是国内最大的使用阿里云公共云的公司，公共云集群有一万七千多核，90%以上的利用率。上汽在扩容，90%以上的利用率已经用了一年多，这些靠的是底层的非常灵活的切片和调度。

上传数据

我们在用云上做计算的时候，很多人会忘记一件事情，上传数据的时候，永远是加密免费的。数据停留的时间和最后下拉要考虑时间和费用，通过类似云盘的方式，把数据上传到OSS上面去，导入并行文件系统再做计算。数据可以用私有包，因为可以建很多的集群，互相可以分享，也可以自己用。模式是这样的，可以用控制台。

作业运行性能分析:CloudMetrics|集谛

在高性能计算领域大部分的软件工程师做性能优化和并行工作，针对一个应用，针对某一平台的优化作用局限于特定的机器。作为公共云，大量的用户运行同样应用的时候，底层的 CPU利用率等指标怎么样，是可以进行“性能大数据”搜集和优化的，即通过搜集底层的行为，去优化系统配置和应用。简单来讲，像智能手机一样，越用越聪明，其实集群也应该这样，阿里云其他产品通过机器学习去优化热迁移。在云上有不同的侦测工具，很多工具像一个示波器，真正厉害的是使用示波器的工程师的经验。集谛就是把这个性能示波器在并行环境下，跟进程绑定，和进程起始和线程绑定，会找TOP的进程，会把所选择的指标进行时间对齐。很有意思的是，程序运行一遍之后，随时可以调出数据进行解剖，验试程序，看能不能跑更快。它跟高性能计算的领域，长期发展的一套优化的方法论是相关的。

客户应用云上优化: 优化方法

高性能计算的优化是分层的，最上面的都是大尺度的，相对容易一点。优化到底层需要一些工具，每一层的优化，处理器发展到现在，英特尔处理器大概几年前有四百个以上的PMU测试指标。但是我们真正关心的是头部几个指标，这几个是工程师的知识储备，这个知识，被设计到集谛的分层采集上。

应用级性能监控工具——集谛

把这种基于工程师的技术变得产品化，它会一层一层的，一开始看集群，整个的大盘上是均衡还是不均衡，哪里有问题，进入节点级，然后做时间对齐，进而进入时间进程，到函数一级。这些会选TOP指标，这些指标分布在四个象限 – CPU，内存，网络，IO存储，所有的性能，单节点，多节点，在四个象限上面，该选哪些指标是真正见功夫的。如果通过这个看搜索引擎，该选的指标不一样。搜索引擎在要在一定延迟内（比如8毫秒）最大能做到多少IPO，这个叫做顶级指标。在高性能计算有固定的顶级指标。所以形成在云上面一个应用有什么样的一个特征，通过它来判断该选什么样的集群。

基于作业负载的弹性伸缩

云超算可以做的最极致的就是弹性伸缩。做高性能计算到现在为止十多年来，有一个特点，很多人都是性能优化的高手，但是他们没有办法将此转化成产品。在云上看似没有门槛，但是真正能带来性能和资源的起点是弹性伸缩。比如，任务提交时是四个节点，接着提交四个节点，它应该会自动增加。现在画的是节点，可以做到VCPU。怎么做？弹性伸缩可以做成什么样？在十个节点，现在发八个节点上去，然后再四个节点上去，每两分钟，头节点上会有调度器侦测，在计算节点侦测它的使用率，它有两个控制。现在需要增加八个，只要增加六个就可以了。甚至可以做到额外节点，总会有一些调度出问题，所以会增加一些水位，会有一个扩容比例，不希望每个进去都不用排队马上做到，可以扩40%。其实就是排队，这些做法完全在云上全部自动，可以设置各种policy。

比如说学生经费比较少，可以容忍计算时间长，想算一个东西，那就可以买竞价实例，但是要规定好多少个节点。有些老师让过几天天马上交论文，那就找云上高密度计算节点和GPU异构资源，而找超算中心通常要排队。在自动缩容时，如果检测到连续几个节点一直没有工作，就把它放弃掉，这一部分就不用付钱了。我们很多的算法都是围绕着弹性伸缩来做的。这是云弹性计算产品的核心。

E-HPC闲时计算方案与混合云

闲时计算，大量超算应用和开源都有断点续算(Check-point)的功能，过去有一段时间国家气象局只考虑两家公司IBM和SGI，因为这两家的胖节点对checkpoint做得非常好。今天要预报24小时三公里，要算8个小时，算到6个小时的时候，存储出问题了，如果重新算，新闻联播就播不了。那怎么做呢？用阿里云抢占式资源，我们现在很多的资源放在一个大池子里，抢到以后，一个小时自动释放掉，这样下去，就会很便宜，一折。每次放掉以后，马上抢到下一个，抢到下一个之后从上次计算的断点算，这是可以的。分子动力学GROMACS，设置每两分钟把计算状态存到BT里面去，把每次计算的结果放到一个文件里面，算的时候就会发现闲时计算的成本比常规计算低了不止一半。

断点续算应用算例：GROMACS

已经生成集群后，作为用户登进去，自动伸缩的模式定下来，把作业提交上去，它是压缩的，上去之后展开。这是在分析它计算过程中，节点1被抢占释放，稍后自动扩容到节点2运行，我们可以看进程的方式，就是这个模式。第一个进程在算的过程中，一个小时被抢断，抢断之后，迅速抢到另外一个资源继续算。这个方式特别适合大的调研组或者学院，就用这个方式算。

数据全流程可视化

高性能计算还有一个很重要的环节，基本上做科学和工程计算，很重要的一点是有大量的处理网格，并且结果一定要有可视化，无论做流场、压力场等磁场，里面有一大类计算需要大量GPU或者远程桌面要求。在做整个产品的时候，一般在超算中心会把任务提交上去，算完再拉回来，把图形工作站，或者写一个程序给导下来。现在由于背后的计算资源越来越大，石油公司会用几十台的渲染集群去做，然后逐层解释，解释之后改回再算。这个过程完全可以上云，阿里云上除了做GPU加速计算，还有云图站。

控制台远程可视化

我们怎么做呢？
先去创建GPU集群，这个集群与存储和计算节点输出绑定，之后可以调用渲染的APP，或者直接在上面进行物理计算再输出，都是可以的。它的使用也是一样，把它看成一种计算资源，它是拿来做可视化的，它要交互。

HPC工作流与数据迁移

最后，我们总结在阿里云超算的流程，这个过程，首先按账户上传到OSS上。比较大的海量数据，比如石油中心，可以用闪电立方一下传过去，通过OSS下载在云上的并行文件系统，然后计算、可视化，这是流程，数据流和控制流的关系。

E-HPC 工业计算业务架构：被集成到SaaS

阿里云过去是以做IaaS为主，随着场景越来越复杂，高性能计算分成多个行业的场景，每个场景都不一样。我们把PaaS做出来，基本上不做SaaS。大量的应用本身是付费的，而工业ISV软件特别贵，我们和底层资源调度，尤其是弹性伸缩绑定在一起，怎么把license用的更高效。像石油行业，一套license可以几十万上百万。阿里云把我们的调度和整个的PaaS能力输出给第三方合作伙伴，他们跟阿里云最终用户做出他们的业务系统，这个业务系统调动的都是高性能计算并行的工业软件。

拆解超算上云的障碍，阿里云用了这三招|E-HPC如何改变云超算？

IT基础设施云化专场PPT下载

HPC概念及发展趋势

阿里云3招拆解超算上云障碍

面向“大计算”设计的弹性基础设施

一张图描述E-HPC

E-HPC 让云超算强大易用

部署集群—基础配置

任务提交和查看

作业调度器

上传数据

作业运行性能分析:CloudMetrics|集谛

客户应用云上优化: 优化方法

应用级性能监控工具——集谛

基于作业负载的弹性伸缩

E-HPC闲时计算方案与混合云

断点续算应用算例：GROMACS

数据全流程可视化

控制台远程可视化

HPC工作流与数据迁移

E-HPC 工业计算业务架构：被集成到SaaS

开发者学习资源库

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

拆解超算上云的障碍，阿里云用了这三招|E-HPC如何改变云超算？

HPC概念及发展趋势

阿里云3招拆解超算上云障碍

面向“大计算”设计的弹性基础设施

一张图描述E-HPC

E-HPC 让云超算强大易用

部署集群—基础配置

任务提交和查看

作业调度器

上传数据

作业运行性能分析:CloudMetrics|集谛

客户应用云上优化: 优化方法

应用级性能监控工具——集谛

基于作业负载的弹性伸缩

E-HPC闲时计算方案与混合云

断点续算应用算例：GROMACS

数据全流程可视化

控制台远程可视化

HPC工作流与数据迁移

E-HPC 工业计算业务架构：被集成到SaaS

开发者学习资源库

热门文章

最新文章

相关课程

相关电子书

相关实验场景