云原生计算引擎挑战与解决方案

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 云原生比较有前景的实现就是Kubernetes,所以有时候我们一提到云原生,几乎就等价于是Kubernetes。

云原生背景介绍与思考

图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层:

  • ECS物理资源层,也就是Iaas层
  • 数据接入层,例如实时的Kafka,离线的Sqoop
    存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS
  • 计算引擎层,包括熟知的Spark,Presto、Flink等这些计算引擎
  • 数据应用层,如阿里自研的Dataworks、PAI以及开源的Zeppelin,Jupyter

每一层都有比较多的开源组件与之对应,这些层级组成了最经典的大数据解决方案,也就是EMR的架构。我们对此有以下思考:

  • 是否能够做到更好用的弹性,也就是客户可以完全按照自己业务实际的峰值和低谷进行弹性扩容和缩容,保证速度足够快,资源足够充足
  • 不考虑现有状况,看未来几年的发展方向,是否还需要支持所有的计算引擎和存储引擎。这个问题也非常实际,一方面是客户是否有能力维护这么多的引擎,另一方面是是否某些场景下用一种通用的引擎即可解决所有问题。举个例子说Hive和Mapreduce,诚然现有的一些客户还在用Hive on Mapreduce,而且规模也确实不小,但是未来Spark会是一个很好的替代品。
  • 存储与计算分离架构,这是公认的未来大方向,存算分离提供了独立的扩展性,客户可以做到数据入湖,计算引擎按需扩容,这样的解耦方式会得到更高的性价比。

1.png
(图1 基于ECS的开源大数据解决方案)

基于以上这些思考,我们考虑一下云原生的这个概念,云原生比较有前景的实现就是Kubernetes,所以有时候我们一提到云原生,几乎就等价于是Kubernetes。随着Kubernetes的概念越来越火,客户也对该技术充满了兴趣,很多客户已经把在线的业务搬到了Kubernetes之上。并且希望在这种类似操作系统上,建设一套统一的、完整的大数据基础架构。所以我们总结为以下几个特征:

  • 希望能够基于Kubernetes来包容在线服务、大数据、AI等基础架构,做到运维体系统一化
  • 存算分离架构,这个是大数据引擎可以在Kubernetes部署的前提,未来的趋势也都在向这个方向走
  • 通过Kubernetes的天生隔离特性,更好的实现离线与在线混部,达到降本增效目的
  • Kubernetes生态提供了非常丰富的工具,我们可以省去很多时间搞基础运维工作,从而可以专心来做业务

EMR计算引擎 on ACK

图2是EMR计算引擎 on ACK的架构。ACK就是阿里云版本的Kubernetes,在兼容社区版本的API同时,在本文中不会区分ACK和Kubernetes这两个词,可以认为代表同一个概念。

基于最开始的讨论,我们认为比较有希望的大数据批处理引擎是Spark和Presto,当然我们也会随着版本迭代逐步的加入一些比较有前景的引擎。

EMR计算引擎提供以Kubernetes为底座的产品形态,本质上来说是基于CRD+Operator的组合,这也是云原生最基本的哲学。我们针对组件进行分类,分为service组件和批处理组件,比如Hive Metastore就是service组件,Spark就是批处理组件。

图中绿色部分是各种Operator,技术层面在开源的基础上进行了多方面的改进,产品层面针对ACK底座进行了各方面的兼容,能够保证用户在集群中很方便的进行管控操作。右边的部分,包括Log、监控、数据开发、ECM管控等组件,这里主要是集成了阿里云的一些基础设施。我们再来看下边的部分:

  • 引入了JindoFS作为OSS缓存加速层,做计算与存储分离的架构
  • 打通了现有EMR集群的HDFS,方便客户利用已有的EMR集群数据
  • 引入Shuffle Service来做Shuffle 数据的解耦,这也是EMR容器化区别于开源方案的比较大的亮点,之后会重点讲到。

这里明确一下,由于本身Presto是无状态的MPP架构,在ACK中部署是相对容易的事情,本文主要讨论Spark on ACK的解决方案。

2.png

(图2 计算引擎Kubernetes化)

Spark on Kubernetes的挑战

整体看,Spark on Kubernetes面临以下问题:

  • 我个人认为最重要的,就是Shuffle的流程,按照目前的Shuffle方式,我们是没办法打开动态资源特性的。而且还需要挂载云盘,云盘面临着Shuffle数据量的问题,挂的比较大会很浪费,挂的比较小又支持不了Shuffle Heavy的任务。
  • 调度和队列管理问题,调度性能的衡量指标是,要确保当大量作业同时启动时,不应该有性能瓶颈。作业队列这一概念对于大数据领域的同学应该非常熟悉,他提供了一种管理资源的视图,有助于我们在队列之间控制资源和共享资源。
  • 读写数据湖相比较HDFS,在大量的Rename,List等场景下性能会有所下降,同时OSS带宽也是一个不可避免的问题。

针对以上问题,我们分别来看下解决方案。

Spark on Kubernetes的解决方案

Remote Shuffle Service架构

Spark Shuffle的问题,我们设计了Shuffle 读写分离架构,称为Remote Shuffle Service。首先探讨一下为什么Kubernetes不希望挂盘呢,我们看一下可能的选项:

  • 如果用是Docker的文件系统,问题是显而易见的,因为性能慢不说,容量也是极其有限,对于Shuffle过程是十分不友好的。
  • 如果用Hostpath,熟悉Spark的同学应该知道,是不能够启动动态资源特性的,这个对于Spark资源是一个很大的浪费,而且如果考虑到后续迁移到Serverless K8s,那么从架构上本身就是不支持Hostpath的。
  • 如果是Executor挂云盘的PV,同样道理,也是不支持动态资源的,而且需要提前知道每个Executor的Shuffle数据量,挂的大比较浪费空间,挂的小Shuffle数据又不一定能够容纳下。

所以Remote Shuffle架构针对这一痛点、对现有的Shuffle机制有比较大的优化,图3中间有非常多的控制流,我们不做具体的讨论,具体架构详见文章《Serverless Spark的弹性利器 - EMR Shuffle Service》。主要来看数据流,对于Executor所有的Mapper和Reducer,也就是图中的蓝色部分是跑在了K8s容器里,中间的架构是Remote Shuffle Service,蓝色部分的Mapper将Shuffle数据远程写入service里边,消除了Executor的Task对于本地磁盘的依赖。Shuffle Service会对来自不同Mapper的同一partition的数据进行merge操作,然后写入到分布式文件系统中。等到Reduce阶段,Reducer通过读取顺序的文件,可以很好的提升性能。这套系统最主要的实现难点就是控制流的设计,还有各方面的容错,数据去重,元数据管理等等工作。

简而言之,我们总结为以下3点:

  • Shuffle数据通过网络写出,中间数据计算与存储分离架构
  • DFS 2副本,消除Fetch Failed引起的重算,Shuffle Heavy作业更加稳定
  • Reduce阶段顺序读磁盘,避免现有版本的随机IO,大幅提升性能
    4.png

( 图3 Remote Shuffle Service架构图)

Remote Shuffle Service性能

我们在这里展示一下关于性能的成绩,图4是Terasort的Benchmark成绩。之所以选取Terasrot这种workload来测试,是因为他只有3个stage,而且是一个大Shuffle的任务,大家可以非常有体感的看出关于Shuffle性能的变化。左边图,蓝色是Shuffle Service版本的运行时间,橙色的是原版Shuffle的运行时间。我们观察有2T,4T,10T的数据,可以看到随着数据量越来越大,Shuffle Service的优势就越明显。右图观察,作业的性能提升主要体现在了Reduce阶段,可以看到10T的Reduce Read从1.6小时下降到了1小时。原因前边已经解释的很清楚了,熟悉spark shuffle机制的同学知道,原版的sort shuffle是M*N次的随机IO,在这个例子中,M是12000,N是8000,而Remote Shuffle就只有N次顺序IO,这个例子中是8000次,所以这是提升性能的根本所在。

5.png
(图4 Remote Shuffle Service性能Benchmark)

其他方面的重点优化

这里讲一下EMR在其他方面做得优化

  • 调度性能优化,我们解决了开源的Spark Operator的一些不足,对于Executor pod的很多配置Spark Operator把他做到了Webhook里边,这个对调度来说是十分不友好的,因为相当于在API Server上绕了一圈,实际测试下来性能损耗很大。我们把这些工作直接做到spark内核里边,这样避免了这方面的调度性能瓶颈。然后从调度器层面上,我们保留了两种选择给客户,包括ACK提供的Scheduler FrameworkV2实现方式和Yunicorn实现方式
  • 读写OSS性能优化,我们这里引入了JindoFS作为缓存,解决带宽问题,同时EMR为OSS场景提供了Jindo Job Committer,专门优化了job commit的过程,大大减少了Rename和List等耗时操作
  • 针对Spark本身,EMR积累了多年的技术优势,也在TPCDS官方测试中,取得了很好的成绩,包括Spark性能、稳定性,还有Delta lake的优化也都有集成进来。
  • 我们提供了一站式的管控,包括Notebook作业开发,监控日志报警等服务,还继承了NameSpace的ResourceQuota等等。

总体来说,EMR版本的Spark on ACK,无论在架构上、性能上、稳定性上、易用性方面都有着很大的提升。

Spark云原生后续展望

从我的视角来观察,Spark云原生容器化后续的方向,一方面是达到运维一体化,另一方面主要希望做到更好的性价比。我们总结为以下几点:

  • 可以将Kubernetes计算资源分为固定集群和Serverless集群的混合架构,固定集群主要是一些包年包月、资源使用率很高的集群,Serverless是做到按需弹性。
  • 可以通过调度算法,灵活的把一些SLA不高的任务调度到Spot实例上,就是支持抢占式ECI容器,这样可以进一步降低成本。
  • 由于提供了Remote Shuffle Service集群,充分让Spark在架构上解耦本地盘,只要Executor空闲就可以销毁。配合上OSS提供的存算分离,必定是后续的主流方向。
  • 对于调度能力,这方面需要特别的增强,做到能够让客户感受不到性能瓶颈,短时间内调度起来大量的作业。同时对于作业队列管理方面,希望做到更强的资源控制和资源共享。
    6.png

(图5 Spark on Kubernetes混合架构)

大数据云原生的落地是十分具有挑战性的,EMR团队也会和社区和合作伙伴一起打造技术和生态,我们的愿景是:

  • 存算分离,按需扩展
  • 极致弹性,随用随得
  • 运维闭环,高性价比

更多数据湖技术相关的文章请点击:阿里云重磅发布云原生数据湖体系


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群
数据湖钉群.JPG

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
6月前
|
Prometheus Cloud Native 数据库
Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介
Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介
|
27天前
|
人工智能 Serverless API
云原生应用开发平台CAP:一站式应用开发及生命周期管理解决方案
阿里云的云应用开发平台CAP(Cloud Application Platform)是一款一站式应用开发及应用生命周期管理平台。它提供丰富的Serverless与AI应用模板、高效的开发者工具链及企业级应用管理功能,帮助开发者快速构建、部署和管理云上应用,大幅提升研发、部署和运维效能。
83 1
|
3月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
126 2
|
6月前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
460 0
|
运维 监控 Cloud Native
云原生技术解决方案
云原生技术解决方案
|
6月前
|
Cloud Native 容灾
云原生异地多活解决方案适合什么样的场景
云原生异地多活解决方案适合什么样的场景
|
6月前
|
负载均衡 监控 Cloud Native
云原生异地多活解决方案
云原生异地多活解决方案
|
6月前
|
Prometheus Kubernetes Cloud Native
kubernetes|云原生|Deployment does not have minimum availability 的解决方案(资源隐藏的由来)
kubernetes|云原生|Deployment does not have minimum availability 的解决方案(资源隐藏的由来)
2404 0
|
6月前
|
JSON Kubernetes Cloud Native
云原生|kubernetes|删除不掉的namespace 一直处于Terminating状态的解决方案
云原生|kubernetes|删除不掉的namespace 一直处于Terminating状态的解决方案
638 0
|
新零售 运维 Kubernetes
带你读《云原生架构白皮书2022新版》——加速 SaaS 规模化演进,餐道基于 K8s 的云上创新底座(上)
带你读《云原生架构白皮书2022新版》——加速 SaaS 规模化演进,餐道基于 K8s 的云上创新底座(上)
396 11