阿里云EMR 2.0：重新定义新一代开源大数据平台-阿里云开发者社区

阿里云EMR 2.0：重新定义新一代开源大数据平台

2023-02-03 2841

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 本次分享主要介绍了阿里云E-MapReduce的开发历程，EMR 2.0的新特性、产品架构，以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新，重新定义新一代开源大数据平台。

摘要：本文整理自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：

开源大数据的痛点及EMR产品历程

EMR2.0 新特征

总结

点击查看直播回放

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

如何提升性能，降低资源成本

全面的性能优化需要大量的研发投入且门槛较高；大数据资源使用量大，广大用户都在不断探索降本方案。

如何降低运维成本

开源大数据组件众多，开发上手相对容易，但是一旦业务规模和业务复杂度上升以后，所带来的运维难度和开销也随之急剧上升。

如何保障数据和任务的可靠性

数据是公司的无形资产，数据的丢失往往是灾难性的，尽管有多副本，但是动辄几十台，甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事，而成千上万的任务实时或周期性的运行，也会消耗大量的运维投入。

如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据，也需要有方法论的支撑和产品支持。

EMR产品历程

如下图所示，自2016年阿里云推出EMR以来，阿里云EMR团队一直致力于解决以上痛点。

通过一系列的性能优化，阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩，推出了全托管的元数据和数据湖产品，大大降低了运维难度和运维成本。

通过 DataWorks on EMR 以及 EMR Studio 等产品，大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特征

概述

基于云原生的理念和阿里云上日益成熟的设施，阿里云推出 EMR 2.0，构建新一代开源大数据的基础设施。

EMR 2.0的新特征包括：

全新平台体验

集群创建速度2倍以上优化；
集群扩容速度3倍以上提升；
弹性规模支持千台以上；
故障节点迁移；
集群诊断工具；

全新数据开发

全托管EMR Notebook (Jupyter)；
Workflow (Dolphinscheduler)；
数据开发治理平台Dataworks on EMR；

全新资源形态

EMR on ECS，支持倚天g8，性价比提升超过40%；
EMR on ACK(K8s)；
EMR Serverless；

全新分析场景

新版数据湖
数据分析
数据服务
实时数据流
数据科学

EMR 2.0产品架构

如下图所示，EMR 2.0产品架构自下而上包括：

硬件资源

EMR 2.0支持ECS（Intel, AMD, 倚天）/神龙/ECI；

存储资源

在存储资源上，数据湖架构已经已经逐步成为业界的共识，阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API；

调度资源

支持 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

监控告警；

弹性调度；

集群诊断；

故障补偿；

权限&安全；

组件管理；

分析场景

新版数据湖 Datalake；

数据分析 OLAP；

实时数据流 Dataflow；

数据服务 DataServing；

数据科学 DataScience；

开发工具

开源解决方案 EMR Studio (Notebook, Workflow) ；

企业级开发平台 DataWorks on EMR

元数据管理和湖管理

在原有的数据湖构建DLF上新增了权限生命周期管理、湖管理等新特性。

全新平台体验

阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。

Elasticity 弹性

集群创建，弹性性能大幅提升；

异构实例，竞价实例满足个性化弹性需求；

Stability 稳定性

节点迁移，故障节点自动补偿；

组件状态巡检，事件通知；

Intelligence 智能

集群资源诊断；

风险预警；

实时检测；

Efficiency 效率

交互式数据开发；

一键任务提交；

配置导出&集群克隆。

全新数据开发

EMR 2.0提供两套解决方案供不同用户选择，分别是：基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案，和阿里云自研的企业级数据开发与治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

基于 Jupyter 的全托管SaaS化的 Notebook

直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联，几分钟内就可以开始对数据进行分析，无需担心代码的保存以及计算资源维护；
对 Jupyter Notebook 进行了优化：如支持 StarRocks 快速指定引擎类型；

基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

开箱即用，一键关联集群；

EMR Studio 提供了全新的开源数据开发体验，在EMR服务费之外，不收取额外费用。

DataWorks on EMR，企业级数据开发与治理

DataWorks 是一套在阿里内部历经几万用户十几年打磨的产品，能够满足企业一站式数据开发和数据治理的诉求。DataWorks 支持数据集成、数据开发调度、数据建模、数据质量、数据地图、数据安全、数据分析、数据服务以及开放的API等能力：

数据集成：基于DataX，支持几十种数据源作为 source 和 sink 进行数据同步；
数据开发：线上的 IDE，支持 Spark、Hive、Presto、ClickHouse 的开发；
数据质量：根据任务配置的规则，对任务的产出结果进行正确性验证；
数据地图：采集字段级粒度的数据血缘；
数据安全：提供表和字段级别的权限管理；
数据分析：提供快速交互式的分析和可视化分析能力；
数据服务：简化数据查询服务的开发，通过写 SQL 就可以提供数据查询的接口；
开发平台：提供一系列的 API 供用户进行二次开发。

全新资源形态

随着云原生技术越来越成熟，EMR 也提供了各种资源管理形态。

EMR on ECS

支持组件最全，自定义能力最强；
跟传统模式最接近，便于快速迁移；

EMR on ACK

完全兼容 K8S，10秒级资源调度；
支持 Spark, Flink, Presto, RSS 组件；
配合 ECI，自动弹性，秒级扩容；
完整的任务提交、管理、监控能力；

EMR Serverless

首先推出的是 StarRocks；
全托管，最小化的运维成本；
高可用，SLA 99.99%；
开箱即用，对接 EMR Notebook；
成本低，按需扩容资源。

新硬件，倚天性价比提升40%以上

在2022年云栖大会上，阿里云推出了中国首个云上大规模应用自研CPU倚天710，EMR2.0 也将推出倚天机型。倚天采用最先进的ARM架构和生产工艺，在通用智能性能提升的基础上，降低了整体的资源成本：

在ECS价格方面，倚天G8系列较X86的机器系列价格降低20%以上，计算型系列价格降低超过30%，大幅降低企业成本；
在性能方面，物理核的倚天机型性能更高，CPU占用率更低；在EMR对倚天机型适配后，进行了 TPC-DS 的 Benchmark 测试，在G8Y与G7的对比中，同样采用了六台8core 32G的机型，倚天的TPC-DS耗时减少25%。

全新分析场景

EMR结合自身的技术优势和实践经验，对大数据场景进行了分类，方便用户快速构建适合业务的大数据集群：

数据湖

数据湖集群包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件；支持用户构建数据仓库，进行数据 ETL 以及数据湖分析；

实时数据流

实时数据流包含 Flink、Kafka 等组件；支持用户进行实时计算，构建在线决策、实时监控、实时计算等系统；

数据分析

数据分析主要包含 StarRocks、Doris、ClickHouse 等组件；广泛应用于用户画像分析，交互式分析，构建BI报表系统和对接业务系统；

数据服务

数据服务主要包含 Hbase、Phoenix 组件；支持时序数据分析、feeds流推送和用户行为收集；

数据科学

数据科学主要包含 Tensorflow、PyTorch 组件；
面向机器学习、数据挖掘、特征建模等场景；

对于部分客户出于成本控制的考虑，希望将多种业务混部在一个集群，EMR 还支持自定义集群，可以将多种场景下的组件混合部署在一起。

以用户使用最多的数据湖场景为例，EMR 在计算、存储和治理方面都做了大量的优化。

在存储层面，EMR 推出 OSS-HDFS，可完全兼容 HDFS API，用户可以平滑的将 HDFS 迁移到 OSS 上；
在计算层面，计算任务无需二次开发，可以直接运行在存算分离的数据湖架构上；
在1PB的场景下测算，经过合理的冷热分层，可以节省40%的资源成本，同时计算资源也可以实现按需或者按负载弹性使用，大大降低了资源消耗；
在计算引擎层面，EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化，ETL 和分析场景下性能有明显提升；
在数据湖管理层面，DLF湖管理实现湖数据生命周期管理，包括：元数管理与服务、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化、全新数据迁移入湖。

总结

EMR2.0 从管控到引擎，从资源形态到应用场景都在积极创新，希望更好的解决用户在开源大数据遇到的痛点问题。

EMR2.0 的控制台入口也升级到了emr-next，欢迎前往使用新版EMR：https://emr-next.console.aliyun.com/

欢迎对EMR感兴趣的朋友加入EMR钉钉交流群，一起交流和学习。

阿里云EMR 2.0：重新定义新一代开源大数据平台

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

EMR产品历程

二、EMR2.0 新特征

概述

EMR 2.0产品架构

全新平台体验

全新数据开发

全新资源形态

全新分析场景

总结

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景