紧跟科技步伐!全面剖析 助力云上Hadoop-EMR新特性

简介: 摘要:在大数据上云特惠活动系列直播中,来自阿里巴巴的产品专家雷彪为现场的听众带来了《助力云上Hadoop-EMR新特性解读与展望》的精彩分享。在本次分享中,他重点介绍了来自阿里云的产品EMR,运维方如何进行大数据的良好管理,EMR在哪些方面进行了性能的增强,具有哪些新的能力以及对EMR未来的展望。

摘要:在大数据上云特惠活动系列直播中,来自阿里巴巴的产品专家雷彪为现场的听众带来了《助力云上Hadoop-EMR新特性解读与展望》的精彩分享。在本次分享中,他重点介绍了来自阿里云的产品EMR,运维方如何进行大数据的良好管理,EMR在哪些方面进行了性能的增强,具有哪些新的能力以及对EMR未来的展望。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
直播视频请点击
PPT下载请点击
以下内容根据现场分享整理而成。

EMR简介

目前在阿里云上负责整个Hadoop生态的运行和维护的,是来自阿里云的产品EMR。
E-MapReduce 是基于开源大数据生态系统,提供包括 Hadoop、Hive、Spark、Kafka、Storm,Impala等等开源软件,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

_1

如上图所示,是在开源基础上额外发展出来的体系,它的目标是让大家能够在云上更好的使用大数据产品。

更好的运维

勿在浮沙筑高台,大数据的良好管理是上层业务的基本保证。运维方要保证大数据平台具有服务稳定性,运维易用性,数据可靠性,并且可持续发展。

界面化

我们希望集群的运维、管理是通过Web界面来做,而不需要再登录到集群上去做一些命令行的操作。举例来说,Web化的管理可以创建集群,扩容集群,释放集群,编辑作业,调度作业,修改配置等。
简化资源管理,按量转包年。在阿里云上做测试的时候按量测一天,如果结果满足需求,就可以选择集群包年。这样可以做到快速尝试,然后转为低成本的模式。
下面为一个界面化的例子。

_2

上图为资源调度配置,可以看到整个配置都被界面化,所有的参数都被列出来,并且会有一些值的提示。会非常方便的达到资源管理的目的,这是界面化的一些好处。

自动化

集群做维护的时候,很多都可以被自动平台替换。比如说集群的服务的核心指标监控。集群组件版本的升级。

_3

上图为一个自动化的例子,核心指标监控。
每一个集群都会有自己核心的指标,我们会对核心指标进行监控和报警。控制集群的稳定性,保证核心作业的资源。还是需要了解相关的知识,但是不再需要在命令行下去配置多个master节点。也不需要担心修改错误的值,会协助进行校验。
在集群使用方式上,我们使用Gateway方式进行提交。

_4

这种方式的优点主要有:更好的控制负载,多租户的环境隔离,高可用的组件支持。

更安全

随着大数据的发展,数据量越来越多,业务部门越来越复杂。大数据并不是人人都能看的数据,仍然需要数据安全等级。根据用户的权限,以及数据重要级别的不同,对不同的用户进行不同的权限控制,包括:计算资源;HDFS、Hive数据;HBase;Kafka等等。
我们现在使用的是社区Kerberos的方案。这种方案存在的问题主要有:
·使用成本高;配置和管理麻烦
·只支持用户名密码的认证方式
·无法集成已有的认证系统

_5

上图为HAS(Hadoop Authentication Service)系统。这个系统能够解决上面社区Kerberos方案存在的三个问题。它直接集成在EMR中,默认提供一套基于RAM的认证。
在阿里云的EMR里面,引入了一个更细化的权限管理的工具—Ranger。
Ranger在多租户场景下,可以对Hadoop生态中的HDFS/Hive/YARN/Kafka/Storm等组件进行细粒度的权限访问控制,并且提供了UI方便管理员进行操作。
它有以下好处:
·中心化的管理所有组件权限,且通过Web UI的方式
·支持实现更加细粒度的权限控制,比如hive表中固定列的权限控制
·可以进行复杂的多个组件间的组合授权
·统一定义了一套授权的规则

性能增强

阿里云在前期满足了大部分用户组件平台或者说功能性需求之后,发现用户对性能是有要求的,特别是一些常见场景。我们在Hadoop基础上做了一些深度性能优化。

_6

通过对共用的Metastore、缓存设施、索引等这些数据组件的优化,提供多数据源的统一的性能改良。实测在读OSS的场景下,能获得平均30%以上的性能提升。
SmartData是开源大数据部门目前正在开发进行的一个大数据项目,其主要目标为 EMR 各大计算组件和Serverless产品,提供优化的数据访问和基础性的数据服务能力;对开源大数据生态系统和阿里云线上产品的各种数据组件,例如Hadoop/HDFS,Hive,OSS,ODPS,能够敏捷地连接、迁移、同步、比对,并提供优化的读写访问操作。

新的能力

更好用的Kafka

它主要解决社区版本监控不完善的问题。包括以下几部分:
·Kafka的监控和预警
·Schema Registry支持
·Kafka connect支持
·数据的ReBalance

新组件Druid

它是高性能的海量数据实时查询和分析系统,支持实时数据的分析和查询。支持超大数据量,可以到100PB;支持毫秒级的查询性能。
适合场景有:广告平台数据分析,实时指标监控以及用户行为分析。
这些场景的特点都是拥有大量的数据,且对数据查询的时延要求非常高。例如在广告程序化交易中,广告平台的出价策略来源于广告流量数据的分析,整个过程要求实时,因为市场变动很快,根据第一天的流量计算第二天的出价是没有意义的,这里的联动需要做到秒级。实时指标监控类似,在一些重要的场合,系统问题需要在出现的一刻被检测到,并被反馈随后被解决。商业上一分钟的宕机就是非常严重的损失。在用户行为分析中,分析人员需要在多个维度分析数据提炼用户行为,这是一种探索式分析,要求每一次探索时间尽可能短,以便于分析人员通过不断的分析快速修改模型。

深度学习

在新的版本中,我们会提到深度学习。深度学习在硬件上,支持各种GPU机型,组成一个CPU+GPU的异构集群。在软件方面,支持在EMR集群中,基于Yarn来统一调度所有的计算引擎,包括Spark和TensorFlow。

_7

数据在一起,会特别的方便。结合EMR的TAKS机制,可以在已有的大数据上,快速的进行一次深度学习的探索。

Spark Adaptive Execution

SQL在大数据领域使用越来越广泛,很多开源组件都提供了SQL引擎,大大降低了用户对大数据进行挖掘和探索的成本,如Hive/SparkSQL/Presto/Impala等。
但是在实际SQL使用过程中,针对各种各样的数据集,用户还是需要花费大量的精力进行调优,从而能够更快的执行,花更少的资源拿到更快的结果。
SparkSQL的Adaptive Execution自适应执行框架在SQL的易用性和性能等方面做了相关的优化工作,主要针对以下问题:
·动态调整reducer个数
·动态优化物理执行计划
·动态处理数据倾斜

展望

EMR后续会向什么方向发展?Hadoop会做什么更高级的东西?

智能集群

能够做到真正的智能,体现在集群能够自我优化。自助的对集群进行分析,并给出建议,就像一个医生一样。

_8

智能集群的功能包括以下几点:
·服务日志监控,oom exception
·系统日志的异常,包括了内核异常,磁盘异常
·系统指标分析,内存使用情况,cpu使用情况
·失败作业分析,优化建议

不断变化的弹性集群

在云上,我们希望EMR能够提供更强的弹性集群。

_9

用最少的管理成本,最小的动态的资源,来更加高效的完成计算任务。

工作流

原来的工作流不支持DAG,管理上很麻烦,列表也不是可视化的操作方式。

_10

上图为新的工作流的界面。它能够更好的解决用户问题,对比社区的oozie更加好用,它不支持DAG,分布在集群上。
Hadoo 3.x现在越来越稳定,我们会在后续版本中跟上社区步伐,推出最新版本,让一些有尝鲜精神的用户感受到新版本的能力。
大家如果有任何需求与咨询可以点击链接提交:
https://market.tianchi.aliyun.com/outsource/offer/publish.htm?type=PROJECT
相关文章
|
5月前
|
关系型数据库 MySQL BI
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
616 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
|
9月前
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
SQL 存储 监控
水滴筹基于阿里云 EMR StarRocks 实战分享
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
5815 3
水滴筹基于阿里云 EMR StarRocks 实战分享
|
SQL 存储 弹性计算
阿里云EMR 2.0:重新定义新一代开源大数据平台
本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
2178 0
阿里云EMR 2.0:重新定义新一代开源大数据平台
|
5天前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
|
2月前
|
分布式计算 运维 大数据
阿里云 EMR Serverless Spark 版免费邀测中
阿里云 EMR Serverless Spark 版,以 Spark Native Engine 为基础,旨在提供一个全托管、一站式的数据开发平台。诚邀您参与 EMR Serverless Spark 版免费测试,体验 100% 兼容 Spark 的 Serverless 服务:https://survey.aliyun.com/apps/zhiliao/iscizrF54
435 0
阿里云 EMR Serverless Spark 版免费邀测中
|
4月前
|
存储 分布式计算 Apache
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
64642 1
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
|
9月前
|
存储 分布式计算 大数据
CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享
阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。
567 0
|
存储 人工智能 运维
免费公测|阿里云EMR Serverless StarRocks 公测正式开启!
阿里云EMR Serverless StarRocks 免费公测已开启,向所有用户开放!您可通过EMR控制台直接创建实例,轻松体验全托管、免运维的服务。
4021 1
免费公测|阿里云EMR Serverless StarRocks 公测正式开启!
|
SQL 分布式计算 监控
阿里云EMR自定义日志投递与使用实践分享
EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。
346 0
阿里云EMR自定义日志投递与使用实践分享