E-MapReduce 4.0产品新特性

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月,阿里巴巴将发布EMR4.0版本。本篇介绍EMR4.0的新特性,包括在EMR基础能力,技术栈,生态集成和数据迁移等方面的升级,EMR4.0为用户提供更高的计算性能和更低的产品价格,将技术的红利让给用户。

演讲嘉宾:王晓平,花名子关,高级产品经理

视频回放地址:https://developer.aliyun.com/live/1402?spm=a2c6h.12873587.0.0.560314b8CiquAr


以下内容根据演讲视频以及PPT整理而成。
本次的分享主要围绕以下三个方面:

一、EMR产品概述
二、EMR产品新特性
三、EMR Road Map

一、产品概述
1. E-MapReduce(EMR)是什么
E-MapReduce是阿里云上云原生的开源大数据平台,一款利用开源大数据解决用户分析问题的大数据产品。在2016年6月,E-MapReduce开始公测,2016年9月开始商业化,目前为止E-MapReduce已经商业化三年多的时间。在2019年8月,阿里发布了E-MapReduce (EMR)敏捷版。在2019年10月,阿里巴巴将发布EMR4.0版本。EMR4.0版本的Hadoop将会升级到3.1.x。
image.png

2. EMR产品特性
EMR产品特性主要展现在以下三个方面。
100%开源组件:EMR产品所使用的大数据组件为100%开源组件。对用户来说,学习成本和迁移成本都相对较低。此外,EMR会根据社区的进度和Bug Fix进行升级,保证产品是根据社区持续升级,实现较好的用户体验。还有,EMR对Spark、Hadoop、Kafka等组件均有性能和应用性的增强。以Spark为例,EMR比较早的集成了Spark AE,推测执行的自动化和特性,同时包括基于Spark来进行物化视图的自研的产品功能。
成本优势:EMR产品相对于用户自建Hadoop更具有成本优势。首先,EMR集群支持弹性伸缩。此处的弹性伸缩指两方面。比如可以根据一个时间点,大部分用户在用开源大数据Hadoop时在每天晚上12点定时跑一个较大的日报任务,而日报任务可能并不需要全天都跑,可能在早上就会跑完。此时使用弹性伸缩有利于节省计算资源。同时也可以采用按负载伸缩的方式,设置YARN Root的队列的某一个指标进行伸缩。用户可以根据自己实际的application排队情况及container分配的情况进行伸缩。其次,EMR支持OSS作为数据存储系统。除HDFS之外可以使用OSS,将HDFS的schema改为OSS路径直接读写OSS。相对来说,可以实现用户的数据分层存储,当用户的热数据放在HDFS里,冷数据则可以放在OSS中。同时实现OSS的生命周期的管理。比如说相对温数据放在一个标准型里,但如果用户的数据是一年前或者几年前的数据,则可以放到归档型或者低频型的更便宜的OSS存储中。第三个特性是EMR在弹性伸缩的基础上同时支持竞价实例。ECS提供了一种比较便宜的实例类型,即竞价实例。用户可以自己出一个价格来实现成本节省。考虑到数据可靠性的影响,竞价实例只能用在计算节点上,若上面有HDFS的数据存储,则不允许使用竞价实例或者弹性伸缩。最后,EMR可以通过作业来拉起一个临时集群。当用户只是想要跑一个大数据的任务,可以通过集群模板设置集群的配置。当作业被触发时,EMR会先创建好临时集群,作业执行完毕,临时集群会被释放掉。通过临时集群的方式实现比较灵活的集群创建和管理。
企业级特性:EMR采用了MIT Kerberos和Apache Ranger实现用户鉴权和用户权限管理。同时提供了EMR APM实现集群和作业的监控。
3. EMR开源软件栈
下图是EMR目前支持的开源软件栈。最底部是EMR的Docker和ECS。通过ECS是目前在公有云上的主要形态,专有云可以通过Docker的方式,在ECS之上部署一个EMR Agent,主要负责集群管理和集群运行数据的采集,检测集群端前是否出现问题。数据导入时EMR提供了Sqoop,使用开源的DataX组件、Flume组件或SLS将数据导入到EMR上。数据存储这一块EMR支持HDFS和OSS。在OSS之上又开发了jindoFS,jindoFS可以用OSS作为数据湖的概念,通过jindoFS catch的方式做数据加速,提升OSS读取数据的效率。EMR最新版本支持Kudu和Delta Lake,帮助用户有效的构建实时数仓。用户利用Kudu或Delta Lake+流式计算,如Spark或Flink实现实时用户画像、实时推荐等功能。资源调度方面,EMR目前主要使用YARN。计算引擎方面,EMR提供了较多的计算引擎,如Spark、Flink、TensorFlow、Storm、Impala和Presto等。同时在顶部的应用层面提供了NoteBook、Jupyter和Zepplin以及开源的Hue。EMR是一个半托管的形态,用户自建的系统也可以无缝迁移。阿里自研的EMR-Flow可实现工作流的调度。
image.png

4. EMR集群特性
目前EMR支持五种集群类型。目前五种集群类型的购买是独立的,在购买集群的首页可以选择一个集群类型,如Hadoop,Kafka,或者ZooKeeper集群。
Hadoop大数据平台:一般用户都会购买一个Hadoop平台,然后再实现批计算、流式计算、数据仓库、Ad hoc查询、NoSQL和HBase等。
Kafka:若用户希望实现一个半托管的Kafka,可以购买EMR Kafka系统实现消息系统。
TensorFlow:TensorFlow目前在深度学习、机器学习方面非常受欢迎。EMR可以实现TensorFlow,既On YARN的执行和TensorFlow On Spark的运行。
Druid:EMR对于实时OLAP有一个独立的集群类型druid。
ZooKeeper:在集群功能较大的情况下,用户可以购买独立的ZooKeeper集群实现分布式协调系统。如Kafka、Druid、HDFS、YARN或HBase等都需要ZooKeeper。
image.png

5. EMR半托管形态
如下图,EMR目前是半托管形态。用户可以通过ssh login的方式登录ECS节点,在ECS节点上部署EMR的服务,如工作流调度、智能诊断、弹性伸缩、资源池等功能。EMR有更低的迁移成本。如果用户是Hadoop基础体系,可拥有更低的迁移成本和学习成本。在用户人力资源不充沛的情况下可以通过EMR有效实现运维成本的节省。
image.png

6. EMR集群节点类型
EMR集群节点类型主要分以下四种。
Master节点:Master节点部署了HDFS Name Node和YARN Resource Manager。此外,相应的HDFS、YARN、Hive、HBase等组件均已实现了HA机制。
Core节点:Core节点主要部署YARN NodeManager和DataNode。Core节点不支持弹性伸缩。
Task节点:用户可以使用Task进行弹性伸缩或者使用竞价实例的购买方式。如果用户有深度学习需求,可以通过YARN调度GPU资源,同时也可以在Task节点选择购买GPU实例。
Gateway节点:Gateway节点部署Haddop、Spark、Flink等组件的客户端,支持部署不同部门采用不同的参数和配置。因为用户可能会在不同客户端采用不同配置,从而实现用户隔离,用户可以购买Gateway节点实现资源配置上的隔离,同时减轻Master节点上的工作压力。

image.png

二、产品新特性
1. EMR基础能力升级
计算能力升级:阿里云刚刚发布了第六代企业级实例,既CPU从Skylake升级到Cascade Lake,睿频从2.7GHz加速提升到3.2GHz。由下图可发现,相对于第五代企业级实例,第六代企业级实例CPU性能和内存读写性能都有显著提升。阿里云在2019年九月底上线第六代企业级实例,提供更高的计算性能和更低的产品价格,将技术的红利让给用户。
存储能力升级:EMR已支持ESSD云盘。ESSD云盘全称是企业级SSD云盘。ESSD云盘的单盘IOPS有较大提升,在EMR Kudu,HBase等场景下有较好的表现和性能。ESSD云盘分为PL1、PL2、PL3三种,目前EMR支持PL1级的ESSD云盘,从性能上PL1级已经基本满足用户需求。下图右下对比图分别是ESSD云盘和SSD云盘在块存储方面官网的标称的性能指标。通过对比图可以发现ESSD在单盘IOPS和单盘吞吐性能上都有较大幅度的提升。

image.png

2. EMR软件栈升级
EMR Hadoop目前支持Hadoop2.7.2和Hadoop2.8.5两个版本,社区EMR3.0版本逐渐成熟之后EMR4.0会将版本升级到Hadoop3.1.2版本。同时,EMR 4.0 新增支持Kudu1.1.0和Delta Lake 0.3。EMR4.0中Apache Flink升级至1.8.1。在Apache社区Flink升级至1.9.0或1.9.1后,EMR会再考虑Apache Flink升级。EMR4.0支持OpenLDAP。如果用户使用的是OpenLDAP,则可以进行平滑迁移。下图右侧是当前EMR已经支持的一些版本,这些版本在EMR 4.0发布后会实时保持和社区更新同步,当前用户已经购买的Hadoop2.7.2和Hadoop2.8.5两个版本也会进行升级更新,保证用户平稳使用。
image.png

3. EMR生态集成
EMR+DataWorks:EMR作为一个云原生软件,在云上有一系列生态集成,如OSS的集成和ES的集成。一部分用户同时使用了EMR和Elastic Research或云Elastic Research。EMR已经集成了Elastic Research组件,可实现数据的打通。如下图左侧,创建DataWorks项目时选择计算引擎,之前只能选择Maxcompute和实时计算,现在多了两个选择,一个是EMR,另一个是刚开始公测的交互式分析。用户在创建DataWorks作业时,可以将作业运行在一个已经存在的Hadoop集群上。在写的时候只要相应的输入accessKey和accessID,输入EMR的集群id,则可以将这个任务调度到EMR集群上。下图右侧展示了若用户目前以EMR作为计算引擎,只要用户购买了DataWorks相应付费版软件,就可以实现数据血缘跟踪,表和相应列的源数据信息的查看。

image.png

EMR+PAI:生态集成的另外一方面是阿里云上非常受欢迎的深度学习平台PAI。目前大数据+AI是一个非常重要的场景。EMR已经能够实现TensorFlow On YARN和 TensorFlow On Spark,可以通过YARN实现对TensorFlow作业的调度,作业可以跑在CPU以及GPU上。同时,TensorFlow也可以跑在Spark RDD上进行计算。EMR+PAI集成主要体现在将PAI这一个企业级分布式的深度学习计算框架部署在EMR上。因为PAI TensorFlow完全兼容于开源的TensorFlow,同时在显存和分布式通信方面有深度优化。另一方面,PAI的计算模型PAI-FastNN集成了11种经典的神经网络模型,能够跑在EMR上,实现开箱即用的效果。
image.png

4、EMR数据迁移
EMR正在与阿里云上另一款灾备产品HDR-BD进行集成实现数据灾备和迁移。目前支持社区Hadoop2.7.x/3.1.x,HDP,CDH版本。Source和Target集群双活,实现HDFS和Hive数据的迁移,同时支持迁移到OSS上。
image.png

三、Road Map
EMR在未来几个月的主要工作首先是在本地盘实例运维。大部分用户会使用ECS的大数据实例。大数据实例最大的特点是存储成本相对较低,对于数据量比较大的用户是一种比较好的成本优化方式。对于大数据来说,几千或者几万块盘在管理时如果出现单盘的损坏,对作业的稳定性会产生比较大的影响。EMR的主动运维能力主要体现在用户单键点击便可实现对磁盘的隔离,确定对坏盘的较为安全的处理方式。此外,EMR与PAI和DataWorks会有比较深入的融合,构建开源的大数据AI平台以及开源大数据数据仓库。在未来,EMR同时会基于Kudu,Delta以及目前较为流行的Flink,Spark Streaming等计算框架实现实时数仓的构建。在2019年底或2020年初,EMR会推出第二代企业级大数据实例。第二代企业级大数据实例的计算性能会大幅提升,同时成本会持平或小幅节省,将更大的成本优化的空间贡献给客户。

image.png

欢迎加入EMR产品交流钉钉群
image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
5月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之在DataWorks中,在MapReduce作业中指定两个表的所有分区如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
68 0
|
存储 运维 资源调度
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
667 1
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
|
存储 分布式计算 运维
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-3月刊
开源大数据EMR产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
48532 4
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-3月刊
|
SQL 弹性计算 分布式计算
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
开源大数据平台 EMR 产品技术月刊,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解开源大数据最新动态。
10171 8
阿里云开源大数据平台E-MapReduce 产品新动态及开源大数据前沿技术分享 2023-2月刊
|
SQL 运维 监控
开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍
本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。 主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部 分介绍 StarRocksManager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍 在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划。
6875 0
|
SQL 弹性计算 分布式计算
【月刊】E-MapReduce 2021-11 产品月刊
11月 E-MapReduce 产品月刊为您带来 1.重要功能 2.版本发布 3.产品文档更新 4.十一月精选文章推荐。欢迎持续关注更多精彩内容!
【月刊】E-MapReduce 2021-11 产品月刊
|
SQL 人工智能 弹性计算
【月刊】E-MapReduce 2021-10 产品月刊
10月 E-MapReduce 产品月刊为您带来 1.相关活动:云栖大会、开源主题直播回顾 2.版本发布 3.产品文档更新 4.十月精选文章推荐 。欢迎持续关注更多精彩内容!
【月刊】E-MapReduce 2021-10 产品月刊
|
SQL 弹性计算 运维
【月刊】E-MapReduce 2021-09 产品月刊
9月 E-MapReduce 产品月刊为您带来 1.相关活动:E-MapReduce 海量日志分析 实操体验 ;2.产品功能更新:G-SCD的具体解决方案及如何通过G-SCD处理维度的数据介绍;3.最佳实践:SparkSQL自适应执行 4.新增视频专区 。欢迎持续关注更多精彩内容!
【月刊】E-MapReduce 2021-09 产品月刊
|
SQL 弹性计算 人工智能
【月刊】E-MapReduce 2021-06/07 产品月刊
6-7月 E-MapReduce 上线EMR-3.36.x版本、EMR-5.2.x版本,同步对SmartData 3.6.x版本进行更新;最佳实践案例发表《云原生数据湖构建、分析与开发治理最佳实践及案例分享》、《StarLake:汇量科技云原生数据湖的探索和实践》、《DLF +DDI 一站式数据湖构建与分析最佳实践》;首届 E-MapReduce 极客挑战赛正式启动。欢迎持续关注更多精彩内容!
【月刊】E-MapReduce 2021-06/07 产品月刊
|
SQL 分布式计算 DataWorks
【月刊】E-MapReduce 2021-04/05 产品月刊
4-5月 E-MapReduce 上线EMR-3.35.x版本、EMR-4.9.x版本,同步对SmartData 3.5.x版本进行更新;客户实践案例发表《Databricks 数据洞察 Delta Lake 在基智科技(STEPONE)的应用实践》与《Databricks数据洞察在美的暖通与楼宇的应用实践》;【数据湖 JindoFS+OSS 实操干货36讲】 公开课重磅上线。欢迎持续关注更多精彩内容!
【月刊】E-MapReduce 2021-04/05 产品月刊