视频-《 EMR 数据开发》|学习笔记(三)

本文涉及的产品
对象存储 OSS,20GB 3个月
实时计算 Flink 版,5000CU*H 3个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习视频-《 EMR 数据开发》

开发者学堂课程企业运维训练营之大数据 EMR 原理与实践视频-《 EMR 数据开发》学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1242/detail/18468


视频-《EMR 数据开发》

12、快速分析服务——数据快速使用

快速分析服务、SQL 查询,等等。

image.png

上图是 SQL 查询的示意图,当一个语句可能查出一些数据之后,想要它像类似 excel 那种拖拽的可视化建表的一个能力,这里进行字段的勾选,最后,再进行一些聚合操作,设计一些指标,来通过各种类型的像折线图、柱状图,上面这个是柱状图,下面的这个是饼图,分别对不同的指标进行一些可视化的展示,这是非常方便的。

image.png

这个动图是近期支持的 emr HBASE 的数据服务 API 的开发和测试,当 EMR HBASE 里面的数据设计存储好之后,可能需要提供一些 API 查询的能力,借助于数据服务这个模块,可以快速的选定需要查询的参数,以及通过参数能查询到的值,返回是什么,并且还可以在数据服务模块里面进行快速的测试,得到一个数据的返回,这就是快速分析服务。

13、EMR 产品核心能力

image.png

(1)EMR 最首要要去提的就是它云原生的一些特性,叫做灵活弹性。上节课也介绍过它的弹性伸缩目前已经支持了按集群负载和按时间两种模式,并且在每一个伸缩组里支持各种各样多种的实例规格,抢占式实例也是支持的。最新的还支持了成本优化模式,他是属于按量和抢占式搭配使用的方式。

(2)第二个核心点是稳定可靠的开源组件,社区的开源组件可能会存在比较多的问题,它的更新迭代也是比较快的,EMR 100%采用社区的组件,同时也跟随版本的升级 doctor fix 进行迭代,能有效和快速及时的修复社区漏洞,并且还做了一定的增强,在阿里云的环境里,远高于开源版本性能的优势。

(3)第三点是强大的运维和存储能力。基于云原生知道有无限量的对象存储,也就是数据湖,并且提供了数据湖管理的 DLF 产品,这就是存储层的能力。运维支持强大的 EMR 的管控台,可以方便地创建和扩容集群,无需像以前黑屏化的登录到各个节点上进行手动部署和服务的启动、配置等等。监控和告警体系不仅覆盖了 ECS 层面,还对所有的引擎服务也都支持了监控和告警,并且支持告警模板的配置。

14、EMR 服务支持情况

image.png

上图主要罗列了 DataWorks 模块对于 EMR 服务的支持情况,在后面使用到的时候可以进行参照和选情。EMR Shell 没有列出来,但是是支持的,可以通过 DataWorks 提供 shell 节点,shell 任务把它发布到 emr 集群上执行。数据质量和建模目前只支持到了 EMR Hive,血缘地图支持了 Hivespark 2和 spark 3 所产出的数据血缘,ranger 主要是开源生态 ranger 这个组件,基于它的 plug king,几乎是所有的 EMR 组件支持的除了 NPP 的 Clickhouse,用ranger 来覆盖数据安全、组件安全的使用这个功能。

15、EMR 全新平台体验

image.png

目前发布了 EMR 2.0全新的平台体验。首先,在弹性能力上有大幅度的提升,包括了集群创建和弹性伸缩,支持了异构实例和竞价实例,满足用户不同的个性化的一些弹性的需。稳定性上也有很大的提升,支持了节点迁移和故障节点主动的补偿。对于主机层面,是有一定的宕机率的,不可能是100%的零故障,会遇到一些故障迁移的情况的出现,并且有组件的状态巡检和事件的通知。在智能化上也有所提升,如集群的资源诊断、风险的预警和实时的检测。提效方向最新支持了配置的导出导入,以及集群的克隆的能力,这种的比较适用于像数据迁移,甚是版本的升级等等这样的场景。

16、数据湖构建 DLF——Data Lake Formation

image.png

DLF 处于四层架构里的第二层,就是湖管理优化,负责数据管理优化元数据等等。他是数据湖开发里不可或缺的一环,他提供了数据入湖的探索、统一元数据的服务、数据管理优化和权限安这方面,DLF 它的权限安全目前还处在白名单灰度开放,有需要使用的用户可以提交申请,不管是公单还是企业都可以提交申请来使用到 DLF 它的权限管控的能力。统一元数据很多时候认为数据库管理工具是很好的替代了 Have maintain store,在第一节课的内容也讲到了一般如果是生产集群会推荐用户去使用 DLF,而不是 Maintain store。作为 DLF 它是全托管免运维的形态,它的稳定性远远高于Maintain store 所依赖的MySQL。DLF 不仅是支持了 EMR,他其实还有对 Data breaks、Frank、Mass computer 以及 Hello Grace,不管是开源还是阿里云自研都有一定的这种适配能力。

17、数据湖存储——OSS/OSS-HDFS

image.png

第四个产品是存储层,是处在最底层的。目前他有两种方案,分别是 OSS 和 OSS-HDFS,两种方案都提供了11个九的可靠性和99.995%的 SLA 可用性,并且它的数据量支持 EB 级别,文件数目支持数十亿级别,相较于 HDFS 联邦 Federation 的易用性提升了许多,避免了它的复杂另外,产品具有多层次安全访问规格和访问控制的能力,这是 GBOX 本身的功能。前面在降本的优势中也讲到了,可以支持冷热的分层,高密度的存储和高压缩比,来帮助用户去进行成本的优化。

18、任务搬站迁移

搬站迁移有 EMR 的迁移助手的产品,图是迁移助手的界面

image.png

目前支持了主流的 Airflow、Oozie、Azkaban 等工作流引擎的迁移,近期还支持了 DolphinScheduler,这也是现在发展比较快速的开源调动引擎。

19、EMR 数据开发迁移到 DataWorks

不得不考虑到从以往的 EMR 数据开发工作流,想要迁移到 DataWorks的场景,因为 emr 本身的数据开发工作流已经不在维护了,可能会遇到这种迁移的场景。在项目管理里,选择 DataWorks 的工作空间,就可以以向导的方式一步步的进行迁移

image.png

支持到所有类型,从 EMR 到 DataWorks 数据节点、任务类型的 Mapping,最后点击确定,整个迁移的工作就会完成,具体可以参阅以下文档

 https://help.aliyun.com/document_detail/291426.html

 

五、DataWorks on EMR 产品优势

这一章主要讲  这个产品有哪些核心优势,主要分为五部分。

1、优势一:基于弹性伸缩的机器成本优化

五大优势中最重要是云原生的特性,它可以提供极致的弹性伸缩,一个是速度快,一个是它的方案比较的灵活多样。反复的提及到它支持两种的模式,一个是负载,一个是按时间。

image.png

右图可以看到像传统的离线计算类型的数仓数据湖,在零点后会有大批量的作业负载,八点到中午这段时间,其实是处于一个比较大规模的下降,很明显这张图里的使用形态会推荐按时间去进行,就相对固定,可以推荐按时间方式的这种弹性伸缩。举个例子,比如说有100台 ECS 算力的需求,而在这里可以快速的缩到50台,成本就节省了一半,第一点是弹性伸缩节约成本。

2、优势二:基于 OSS 的分层存储成本优化

image.png

前面讲弹性来节省计算成本,这里想用 OSS 来节约存储成本,OSS 本身也是体现云计算的核心优势的产品之一。OSS 有不同的类型的存储,根据 SLA 的不同,它会分为标准型、低频和深度归档类型。随着 SLA 能力的降低,它的单价也会随着降低,以 Hive 为例子,对于越老旧的数据兴趣度会越低,计算作业中涉及到这些数据的可能性也就越低,就是它的热度会慢慢的变低,所以这类数据可以将它移到低频甚至是归档的存储类型上,来节约存储成本。像0.12到0.15其实差了将近十倍的差距,这里结合 Hive 的分区 partition 做了一个冷热的分层,具体是单副本,是 PB 的数据为例,通过计算这张图里的方案相较于 HDFS 本地盘的方案是需要125万每个月,而如果是采用了这张胶片里的方案,会把整体的成本降到80万每个月,这里面其实节约了45万,占到了40%、30%+的节省的力度,是十分的可观的。

3、优势三:核心开源引擎性能优化

第三个优势对于开源引擎,在性能上是有一定优势的。据 spark 和 flink 的两个例子,EMR Spark SQL 在2.4.3这个版本上相较于开源的 Spark SQL 有三倍的提升,这通过了 TPC 官方性能的认证。云原生 K8S 场景,调度性能会比开源原生的 k8s 提升4倍以上。Flink 主要是基于 Nexmark 流计算标准性能测试,性能约为开源 Flink 的2~3倍,另外 ,EMR 的 Flink 也支持了企业版 GeminiStateBackend,作为状态存储它的性能比开源提升了3~5倍。在去年的信通院六月份的评测中 DataWorks on EMR 数据湖解决方案,通过了专项的能力测评,荣获云原生数据湖基础能力专项测评证书,测评满分,中国第一。

4、优势四:集群健康检查评分&优化建议

image.png

优势四是 EMR Doctor 新的产品模块所提供的,它能提供整个集群的健康检查的评分,并且会分模块进行评测和给出优化建议。分为整体分析,会分析集群的整体层面的问题,给出一个直观的分数。另外,还会分计算和存储,对不同的计算引擎,不同的存储类型,进行单独的分析,然后给出一个报告,

image.png

去帮助用户去优化自己的计算和存储的效率。

5、优势五:开箱即用的数据开发治理平台 DataWorks

image.png

最后,在 EMR 基础上使用 DataWorks 其实是可以把阿里巴巴大数据建设最佳实践方法论的12年的结晶,客户可以一日的拥有。像 DataWorks+MaxComputer 的这样的组合,12年前就开始在阿里集团内部开发和通常使用。主要有四方面的核心优势,第一个是功能健全,从这节课所讲述的内容也可以看出来,提供了一站式的全域的数据平台的能力,并且性能是十分卓越的,有几个数字每天是 PB 级别的数据同步,每天是千万级别的任务调度,性能卓越。第二点是简单易用,几乎所有的功能都提供了白屏的图形化界面的操作,在阿里内部,其实有很多的运营的小二都在使用,可能并不是有一些技术开发基础的,一小时就可以上手进行开发,简单易用。同时他是产品是云原生全托管开箱即用的特点,对于那些相比自研和开源工具,能有效的去降低平台研发和运维的成本,让用户更加专注于自己业务需求的开发。稳定性已经通过了数十年的双11的稳定性的考验,具备了金融级的数据安全的保障,这个是第五点的核心优势。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
SQL 存储 监控
水滴筹基于阿里云 EMR StarRocks 实战分享
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
6171 3
水滴筹基于阿里云 EMR StarRocks 实战分享
|
2月前
|
分布式计算 Hadoop Serverless
数据处理的艺术:EMR Serverless Spark实践及应用体验
阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台,融合云原生弹性与自动化,提供任务全生命周期管理,让数据工程师专注数据分析。它内置高性能Fusion Engine,性能比开源Spark提升200%,并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理,实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景,简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。
|
4月前
|
存储 SQL 资源调度
实时计算 Flink版产品使用合集之企业级本地部署如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
Serverless 开发者
《开发者评测》之EMR Serverless StarRocks获奖名单
EMR Serverless StarRocks评测活动获奖名单出炉啦!
459 0
|
大数据
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
《阿里云产品手册2022-2023 版》——开源大数据平台 E-MapReduce
|
存储 SQL 运维
视频-《 EMR 数据开发》|学习笔记(一)
快速学习视频-《 EMR 数据开发》
247 0
视频-《 EMR 数据开发》|学习笔记(一)
|
SQL 存储 DataWorks
视频-《 EMR 数据开发》|学习笔记(四)
快速学习视频-《 EMR 数据开发》
219 0
视频-《 EMR 数据开发》|学习笔记(四)
|
数据采集 存储 SQL
视频-《 EMR 数据开发》|学习笔记(二)
快速学习视频-《 EMR 数据开发》
192 0
视频-《 EMR 数据开发》|学习笔记(二)
|
存储 分布式计算 大数据
《Databricks数据洞察:从入门到实践》电子版下载
Delta Lake 作为数据湖核心存储引擎方案能给企业带来诸多的优势。本书从技术基础介绍到场景应用实践,从大数据平台架构的演进、Delta Lake关键特性、实现原理,以及数据仓库、数据湖的优劣势,湖仓一体架构的应用等多方面解析Lakehouse架构和Delta Lake的应用优势。帮助读者入门数据湖Lakehouse以及部分spark相关应用。
102 0
《Databricks数据洞察:从入门到实践》电子版下载
|
存储 SQL 弹性计算
走进开源大数据平台 EMR | 学习笔记
快速学习走进开源大数据平台 EMR
574 0
走进开源大数据平台 EMR | 学习笔记