拆解超算上云的障碍,阿里云用了这三招|E-HPC如何改变云超算?

简介: 2019年阿里云上海峰会,由阿里云资深技术专家何万青带来以“阿里云超算E-HPC平台”为题的演讲。本文内容包括了HPC概念及发展趋势,面向“大计算”设计的弹性基础设施,客户应用云上优化,着重介绍了E-HPC自动伸缩,闲时计算方案与混合云,数据全流程可视化以及HPC工作流与数据迁移等。

IT基础设施云化专场PPT下载

2019年阿里云上海峰会,由阿里云资深技术专家何万青带来以“阿里云超算E-HPC平台”为题的演讲。本文内容包括了HPC概念及发展趋势,面向“大计算”设计的弹性基础设施,客户应用云上优化,着重介绍了E-HPC自动伸缩,闲时计算方案与混合云,数据全流程可视化以及HPC工作流与数据迁移等。
以下为精彩视频内容整理:
ECS主要讲弹性,弹性的根源就是虚拟化。在高性能计算行业,在阿里云的带动下有一种说法叫做超算云。各大超算中心、第三方软件中心提供二次租赁,基石是物理机,不具备弹性,粒度是一台主机,没有做虚拟化。云超算和超算云在技术上来讲是两码事情。

HPC概念及发展趋势

image.png

高性能计算 (High Performance Computing)是计算机科学的一个分支。主要聚焦于解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等等。构建高性能计算系统的主要目的就是提高运算速度,要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统I/O、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度。

世界上每年两次的超级计算大会,都会评世界TOP500。超算是计算技术的峰顶,会往下进行技术的扩散。特点是在2005年以后,普遍用通用服务器,通过高速互联的网络,并行的系统连成超算集群。TOP500大部分都是计算集群,HPC和云计算结合,最早是所谓网格计算,而真正的HPCinCloud,最早出现在亚马逊,接着是微软,阿里云。这证明高性能计算的算法,计算模式上云是需要一个过程的。

阿里云3招拆解超算上云障碍

image.png

障碍来自几个方面,高性能计算或者超计算用户。第一是存量用户,不管是做地震资料模拟还是气象模拟,都是跟互联网公司、云公司的基础结构完全不一样的,互联网公司或者云公司计算架构是出自大数据,阿里云刚开始做大数据的处理,是分布式计算,基于异步通信,每个节点上由在地数据在当地完成计算,然后进行异步通信。但是高性能计算由于要解偏微分方程,需要在每个时间迭代上算完所有的节点,才能进行下一步,所以有几个核心要求:
 第一,单个节点的性能要非常高,高主频、多核,还有一点是有很大的心理障碍,虚机是有损失的,所以人们不愿意用云。
 第二,同步通信带来的对延迟的极致要求。在阿里云用RDMA跟IB 同一个延迟数量级,两个微秒之内完成点对点。另外一点是RDMA的网络会对大量的互联网应用有很大的普适性,而高性能计算具有垂直和分多个行业,每个行业有头部应用,有汽车碰撞或者渲染。
 第三,高吞吐并行文件系统。互联网上云公司做的最好的是数据的保护和稳定,压力在于企业级并行存储,做每秒钟几十个GB的吞吐,通过在云上建立并行文件系统解决了这个差距。
阿里云做的就是近似裸金属的性能,但是具备云的弹性,才能叫云超算。二是网络,还要把并行软件系统做到盘古上去。

面向“大计算”设计的弹性基础设施

image.png

面对大计算,在神龙虚拟化出现之前,Zen和KVM都需要一部分的CPU拿来做Hypervisor (虚机管理)。比如我手上这瓶矿泉水,云公司中底层之间的差距在于,谁能把更多的水卖出去,这是虚拟化的开销。神龙就是把hypervisor用软硬件结合的MOC卡方式实现了。
一方面如果实现了hypervisor之后,整个的输出是弹性的,可以连上VPC、云盘,连上阿里云存储产品、IO网络。剩下的计算部分,裸金属输出,高性能计算最大的问题,一是需要裸金属的性能,二是需要隔离性,这都可以做到。每一代处理器的推出,英特尔不会把所有新的feature马上虚拟化,没有办法通过完全虚拟化的方式得到这部分feature。这一部分跟超算中心一样的东西,提供顶级超算的配置,如果喜欢,就可以用8卡的GPU再加上48核CPU,这样就可以达到顶级超算的性能。在云计算模式下,当高性能计算上云之后,真正带来性能的是云计算资源的调配、安排以及怎么有效的使用。

很多超算中心CPU使用率,测试出来是30%左右,由于没有办法做更小的切割。在计算过程中,伸缩是没有办法释放和扩展的。

一张图描述E-HPC

image.png

在做高性能计算的时候有几种选择,一种是把实例做出来,客户上云去手动搭出一个超算,这叫松耦合,亚马逊的做法。微软起步晚,通过购买Linux IB集群来使用。阿里巴巴采用一种云原生紧耦合的模式,线下超算是这样,计算节点,文件存储、图形节点、头节点。我们需要把阿里云上可选的实例类型用高速互联的ROCE连在一起,形成网络之后,可以跟其他的文件存储产品登录节点连在一起。所有的超算都是这样,立项、OEM应标,最后只有一套配置,没法再改变,只能通过应用对它优化。但在阿里云上,你随时可以为超算变配。
另外一种是在云上提交,使用这份资源的时候,这一部分的机器公共云上。但是在VPC你是私有的,你不用的时候别人在用,这才是真正摊平成本最重要的事情。

E-HPC 让云超算强大易用

在阿里云上做高性能计算,实际上是在云原生基础设施上开发了一个PaaS平台,把所有的计算节点、登录节点、共享存储,通过软件栈变成一个并行计算和编程的环境。它和超算中心很不一样的地方是首先要付费,一般来讲大型的行业知道自己的工作模式,就会包年包月。但是很多的基因计算用户使用按量付费,因为它的科研和任务是变动的,这个时候需要能够自动伸缩保证它每次用的是正好够用的,像每次买电一样。还有就是在阿里云和公共云上都有一种竞价实例,这个适合搞科研的人。因为课题组不能保证每天算多少何时算,是博士们脑袋来灵感才算,所以竞价实例正好跟高性能计算行业长期形成的东西,叫断点续算可以结合 – 形成我们叫做“闲时计算”的模式,大部分的气象预算,超算中心硬件故障率发生时,算上几天突然间有一个节点坏了,不可以从头开始算,那就无法预报,那么应用本身带有checkpoint(断点续算)的话,隔绝故障后隔几分钟再从“断点“继续往下算,跟阿里云竞价实例在一起,这样大量节约成本,而性能基本上没有太大损失。通过几个键的点击就可以在公共云上形成自己的一套超算,最大的好处对于搞科研的人来讲,不需要学习怎么样构建集群等。

部署集群—基础配置

image.png

在公共云平台上,通过硬件配置、软件配置、基础配置最后形成一个拓扑,这是标准的拓扑,单个节点、单个实例,两台加上三台计算节点,计算过程中可以变配,形成一个集群。

任务提交和查看

image.png

我们把上面的文件导入导出,可以通过阿里云计算流数据流的方式,在自己的集群上编程是两种模式。

作业调度器

image.png

在高性能计算里面,不可或缺又容易被忽视的是并行调度器。在云上的高性能计算可以最大程度发挥调度器的能力,因为云资源切片粒度要细得多,资源的弹性和伸缩是云计算的精髓,调度最常用的是PBS、SLURM、SGE、OpenGrid、CUBE。我们可以在切片的力度上追踪每一个job排队有多少,现在有多少节点,有多少节点等待,可以通过资源编排和自动伸缩实现高密度的调度。我们有车厂的客户,包括上汽、吉利集团。吉利集团是国内最大的使用阿里云公共云的公司,公共云集群有一万七千多核,90%以上的利用率。上汽在扩容,90%以上的利用率已经用了一年多,这些靠的是底层的非常灵活的切片和调度。

上传数据

image.png

我们在用云上做计算的时候,很多人会忘记一件事情,上传数据的时候,永远是加密免费的。数据停留的时间和最后下拉要考虑时间和费用,通过类似云盘的方式,把数据上传到OSS上面去,导入并行文件系统再做计算。数据可以用私有包,因为可以建很多的集群,互相可以分享,也可以自己用。模式是这样的,可以用控制台。

作业运行性能分析:CloudMetrics|集谛

image.png

在高性能计算领域大部分的软件工程师做性能优化和并行工作,针对一个应用,针对某一平台的优化作用局限于特定的机器。作为公共云,大量的用户运行同样应用的时候,底层的 CPU利用率等指标怎么样,是可以进行“性能大数据”搜集和优化的,即通过搜集底层的行为,去优化系统配置和应用。简单来讲,像智能手机一样,越用越聪明,其实集群也应该这样,阿里云其他产品通过机器学习去优化热迁移。在云上有不同的侦测工具,很多工具像一个示波器,真正厉害的是使用示波器的工程师的经验。集谛就是把这个性能示波器在并行环境下,跟进程绑定,和进程起始和线程绑定,会找TOP的进程,会把所选择的指标进行时间对齐。很有意思的是,程序运行一遍之后,随时可以调出数据进行解剖,验试程序,看能不能跑更快。它跟高性能计算的领域,长期发展的一套优化的方法论是相关的。

客户应用云上优化: 优化方法

image.png

高性能计算的优化是分层的,最上面的都是大尺度的,相对容易一点。优化到底层需要一些工具,每一层的优化,处理器发展到现在,英特尔处理器大概几年前有四百个以上的PMU测试指标。但是我们真正关心的是头部几个指标,这几个是工程师的知识储备,这个知识,被设计到集谛的分层采集上。

应用级性能监控工具——集谛

image.png

把这种基于工程师的技术变得产品化,它会一层一层的,一开始看集群,整个的大盘上是均衡还是不均衡,哪里有问题,进入节点级,然后做时间对齐,进而进入时间进程,到函数一级。这些会选TOP指标,这些指标分布在四个象限 – CPU,内存,网络,IO存储,所有的性能,单节点,多节点,在四个象限上面,该选哪些指标是真正见功夫的。如果通过这个看搜索引擎,该选的指标不一样。搜索引擎在要在一定延迟内(比如8毫秒)最大能做到多少IPO,这个叫做顶级指标。在高性能计算有固定的顶级指标。所以形成在云上面一个应用有什么样的一个特征,通过它来判断该选什么样的集群。

基于作业负载的弹性伸缩

image.png

云超算可以做的最极致的就是弹性伸缩。做高性能计算到现在为止十多年来,有一个特点,很多人都是性能优化的高手,但是他们没有办法将此转化成产品。在云上看似没有门槛,但是真正能带来性能和资源的起点是弹性伸缩。比如,任务提交时是四个节点,接着提交四个节点,它应该会自动增加。现在画的是节点,可以做到VCPU。怎么做?弹性伸缩可以做成什么样?在十个节点,现在发八个节点上去,然后再四个节点上去,每两分钟,头节点上会有调度器侦测,在计算节点侦测它的使用率,它有两个控制。现在需要增加八个,只要增加六个就可以了。甚至可以做到额外节点,总会有一些调度出问题,所以会增加一些水位,会有一个扩容比例,不希望每个进去都不用排队马上做到,可以扩40%。其实就是排队,这些做法完全在云上全部自动,可以设置各种policy。

比如说学生经费比较少,可以容忍计算时间长,想算一个东西,那就可以买竞价实例,但是要规定好多少个节点。有些老师让过几天天马上交论文,那就找云上高密度计算节点和GPU异构资源,而找超算中心通常要排队。在自动缩容时,如果检测到连续几个节点一直没有工作,就把它放弃掉,这一部分就不用付钱了。我们很多的算法都是围绕着弹性伸缩来做的。这是云弹性计算产品的核心。

E-HPC闲时计算方案与混合云

image.png

闲时计算,大量超算应用和开源都有断点续算(Check-point)的功能,过去有一段时间国家气象局只考虑两家公司IBM和SGI,因为这两家的胖节点对checkpoint做得非常好。今天要预报24小时三公里,要算8个小时,算到6个小时的时候,存储出问题了,如果重新算,新闻联播就播不了。那怎么做呢?用阿里云抢占式资源,我们现在很多的资源放在一个大池子里,抢到以后,一个小时自动释放掉,这样下去,就会很便宜,一折。每次放掉以后,马上抢到下一个,抢到下一个之后从上次计算的断点算,这是可以的。分子动力学GROMACS,设置每两分钟把计算状态存到BT里面去,把每次计算的结果放到一个文件里面,算的时候就会发现闲时计算的成本比常规计算低了不止一半。

断点续算应用算例:GROMACS

image.png

已经生成集群后,作为用户登进去,自动伸缩的模式定下来,把作业提交上去,它是压缩的,上去之后展开。这是在分析它计算过程中,节点1被抢占释放,稍后自动扩容到节点2运行,我们可以看进程的方式,就是这个模式。第一个进程在算的过程中,一个小时被抢断,抢断之后,迅速抢到另外一个资源继续算。这个方式特别适合大的调研组或者学院,就用这个方式算。

数据全流程可视化

高性能计算还有一个很重要的环节,基本上做科学和工程计算,很重要的一点是有大量的处理网格,并且结果一定要有可视化,无论做流场、压力场等磁场,里面有一大类计算需要大量GPU或者远程桌面要求。在做整个产品的时候,一般在超算中心会把任务提交上去,算完再拉回来,把图形工作站,或者写一个程序给导下来。现在由于背后的计算资源越来越大,石油公司会用几十台的渲染集群去做,然后逐层解释,解释之后改回再算。这个过程完全可以上云,阿里云上除了做GPU加速计算,还有云图站。

控制台远程可视化

image.png

我们怎么做呢?
先去创建GPU集群,这个集群与存储和计算节点输出绑定,之后可以调用渲染的APP,或者直接在上面进行物理计算再输出,都是可以的。它的使用也是一样,把它看成一种计算资源,它是拿来做可视化的,它要交互。

HPC工作流与数据迁移

image.png

最后,我们总结在阿里云超算的流程,这个过程,首先按账户上传到OSS上。比较大的海量数据,比如石油中心,可以用闪电立方一下传过去,通过OSS下载在云上的并行文件系统,然后计算、可视化,这是流程,数据流和控制流的关系。

E-HPC 工业计算业务架构:被集成到SaaS

image.png

阿里云过去是以做IaaS为主,随着场景越来越复杂,高性能计算分成多个行业的场景,每个场景都不一样。我们把PaaS做出来,基本上不做SaaS。大量的应用本身是付费的,而工业ISV软件特别贵,我们和底层资源调度,尤其是弹性伸缩绑定在一起,怎么把license用的更高效。像石油行业,一套license可以几十万上百万。阿里云把我们的调度和整个的PaaS能力输出给第三方合作伙伴,他们跟阿里云最终用户做出他们的业务系统,这个业务系统调动的都是高性能计算并行的工业软件。

相关文章
|
1月前
|
存储 弹性计算 人工智能
2024阿里云开年采购优惠活动,云服务器99计划可领上云代金券
2024阿里云开年采购优惠活动,云服务器99计划可领上云代金券,2024年阿里云3月优惠「开年采购季」云服务器价格表和优惠券领取,99计划云服务器99元一年起、免费领取上云扶持优惠券,不只是云服务器、云数据库、存储、云电脑、域名等均有活动
|
2月前
|
弹性计算
2024年阿里云服务器优惠活动汇总_普惠上云_阿里云优惠
2024年阿里云服务器优惠活动汇总_普惠上云_阿里云优惠,2024阿里云服务器优惠活动政策整理,轻量2核2G3M服务器61元一年、2核4G4M带宽165元1年,云服务器4核16G10M带宽26元1个月、149元半年,阿里云ECS云服务器2核2G3M新老用户均可99元一年续费不涨价,企业用户2核4G5M带宽199元一年,阿里云百科整理2024阿里云优惠活动政策整理、云服务器CPU内存、带宽、系统盘收费价格表
74 0
|
2月前
|
弹性计算 安全 数据库
阿里云优惠活动中心_精选活动_产品优惠_上云首选_普惠好价
阿里云优惠活动中心_精选活动_产品优惠_上云首选_普惠好价
56 0
|
1月前
|
存储 安全 网络协议
2024阿里云上云采购季活动,云服务器计算型c8a、通用型g8i/g8a/g8y实例区别及价格参考
在阿里云2024年的上云采购季活动中,除了以往活动中有的轻量应用服务器和经济型e、通用算力型u1、计算型c7、通用型g7实例之外,阿里云还新增了计算型c8a、通用型g8i/g8a和g8y实例规格,这些都是具有超高性能的AMD&Intel&倚天第八代云服务器,那么这几个云服务器实例规格的性能及适用场景是怎样的呢?本文为大家介绍阿里云计算型c8a、通用型g8i/g8a和g8y实例规格性能及适用场景。
368 0
2024阿里云上云采购季活动,云服务器计算型c8a、通用型g8i/g8a/g8y实例区别及价格参考
|
3月前
|
关系型数据库 MySQL 分布式数据库
横琴人寿引入阿里云PolarDB云数据库支撑寿险核心业务上云
横琴人寿近年来启动了数字化转型,IT基础设施云化是转型的一个重要方向,数据库的云原生化是其中的核心工作之一,选型过程中重点考察了阿里云PolarDB MySQL数据库,三层解耦、极致弹性、100%兼容、高性价比等方面表现突出,在后续使用过程中对寿险的核心业务上云起到了很重要的作用。
|
3月前
|
存储 人工智能 安全
阿里云企业成长解决方案,含通用、企业上云、企业服务、教育等多场景
在数字化时代,企业的成长离不开云计算技术的支持。阿里云作为领先的云服务提供商,推出了全面的企业成长解决方案,涵盖通用场景、企业上云、新零售、企业服务、教育、游戏、医疗健康、文化传媒和工业制造等多个行业。这些解决方案旨在帮助企业轻松应对各种挑战,实现数字化转型和升级。
阿里云企业成长解决方案,含通用、企业上云、企业服务、教育等多场景
|
4月前
|
弹性计算 缓存 编解码
阿里云服务器价格真便宜了,多款特价云服务器助你优惠上云
本文将介绍阿里云的几款特价云服务器:轻量应用服务器2核2M3M带宽50GB 高效云盘63元1年,轻量应用服务器2核4M60GB 高效云盘165元1年,经济型e实例2核2G 40G Entry云盘,3M带宽99元,经济型e实例2核4G 40G Entry云盘,3M带宽30.06元3个月起,经济型e实例4核8G配置带宽按量付费模式下价格只要299元1年。
阿里云服务器价格真便宜了,多款特价云服务器助你优惠上云
|
4月前
|
弹性计算 安全 关系型数据库
阿里云上云解决方案参考,多种技术与行业解决方案助力企业上云
对于初次上云的用户来说,参考一份适合自己行业的解决方案可帮助自己快速上手,并根据方案的内容选择适合自己的云产品进行方案部署。阿里云发布各种解决方案是基于众多客户上云的成功案例萃取而成的最优化企业上云指导,涵盖前端Web和移动应用程序开发、网站搭建、网络组网、数据库、迁云等众多上云项目。本文为大家汇总了一些上云解决方案的详情入口,方便大家快速查询与自己场景相符的解决方案。
阿里云上云解决方案参考,多种技术与行业解决方案助力企业上云
|
4月前
|
物联网
阿里云企业用户专享上云补贴,区域补贴满10000元减5000元
阿里云为企业用户推出专属上云补贴优惠,企业提交申请内部评估及审批通过后,即可获取上云补贴金,使用补贴金购买指定云产品,满10000元即可立减5000元。
阿里云企业用户专享上云补贴,区域补贴满10000元减5000元
|
4月前
|
运维
高效运维,上云实践丨阿里云用户组北京站 12月15日等你来加入
阿里云的产品与技术专家,将结合案例展示CloudOps如何帮助企业降低IT运维成本,提升交付速度与系统可靠性;还会有企业的资深运维人员一起,探讨云上高效运维的最佳实践。

热门文章

最新文章