阿里云EMR 2.0:重新定义新一代开源大数据平台

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。


摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:

  1. 开源大数据的痛点及EMR产品历程
  2. EMR2.0 新特征
  3. 总结


点击查看直播回放


一、开源大数据的痛点及EMR产品历程  

开源大数据的痛点  

  • 如何提升性能,降低资源成本

全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。  


  • 如何降低运维成本

开源大数据组件众多,开发上手相对容易,但是一旦业务规模和业务复杂度上升以后,所带来的运维难度和开销也随之急剧上升。  


  • 如何保障数据和任务的可靠性

数据是公司的无形资产,数据的丢失往往是灾难性的,尽管有多副本,但是动辄几十台,甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事,而成千上万的任务实时或周期性的运行,也会消耗大量的运维投入。  


  • 如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据,也需要有方法论的支撑和产品支持。  


EMR产品历程  

如下图所示,自2016年阿里云推出EMR以来,阿里云EMR团队一直致力于解决以上痛点。  


通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维成本。  


通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。

1.png

二、EMR2.0 新特征  

概述  

基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。  


EMR 2.0的新特征包括:  

全新平台体验  

  • 集群创建速度2倍以上优化;
  • 集群扩容速度3倍以上提升;
  • 弹性规模支持千台以上;
  • 故障节点迁移;
  • 集群诊断工具;  


全新数据开发  

  • 全托管EMR Notebook (Jupyter);
  • Workflow (Dolphinscheduler);
  • 数据开发治理平台Dataworks on EMR;  


全新资源形态  

  • EMR on ECS,支持倚天g8,性价比提升超过40%
  • EMR on ACK(K8s);
  • EMR Serverless;  


全新分析场景  

  • 新版数据湖
  • 数据分析
  • 数据服务
  • 实时数据流
  • 数据科学  


EMR 2.0产品架构  

如下图所示,EMR 2.0产品架构自下而上包括:

2.png

硬件资源  

EMR 2.0支持ECS(Intel, AMD, 倚天)/神龙/ECI;  


存储资源  

在存储资源上,数据湖架构已经已经逐步成为业界的共识,阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API;  


调度资源  

支持 EMR on ECS、EMR on ACK、EMR Serverless  


管控平台  

监控告警;

弹性调度;

集群诊断;

故障补偿;

权限&安全;

组件管理;  


分析场景  

新版数据湖 Datalake;

数据分析 OLAP;

实时数据流 Dataflow;

数据服务 DataServing;

数据科学 DataScience;  


开发工具  

开源解决方案 EMR Studio (Notebook, Workflow) ;

企业级开发平台 DataWorks on EMR  


元数据管理和湖管理  

在原有的数据湖构建DLF上 新增了权限生命周期管理、湖管理等新特性。    


全新平台体验  

阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。

 

Elasticity 弹性  

集群创建,弹性性能大幅提升;

异构实例,竞价实例满足个性化弹性需求;  


Stability 稳定性  

节点迁移,故障节点自动补偿;

组件状态巡检,事件通知;  


Intelligence 智能  

集群资源诊断;

风险预警;

实时检测;  


Efficiency 效率  

交互式数据开发;

一键任务提交;

配置导出&集群克隆。  


全新数据开发  

EMR 2.0提供两套解决方案供不同用户选择,分别是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案,和阿里云自研的企业级数据开发与治理 DataWorks on EMR。  


EMR Studio (Notebook, Workflow)  

  • 基于 Jupyter 的全托管SaaS化的 Notebook
  • 直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联,几分钟内就可以开始对数据进行分析,无需担心代码的保存以及计算资源维护;
  • 对 Jupyter Notebook 进行了优化:如支持 StarRocks 快速指定引擎类型;


  • 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow
  • 开箱即用,一键关联集群;

EMR Studio 提供了全新的开源数据开发体验,在EMR服务费之外,不收取额外费用。

3.png


DataWorks on EMR,企业级数据开发与治理  

DataWorks 是一套在阿里内部历经几万用户十几年打磨的产品,能够满足企业一站式数据开发和数据治理的诉求。DataWorks 支持数据集成、数据开发调度、数据建模、数据质量、数据地图、数据安全、数据分析、数据服务以及开放的API等能力:


  • 数据集成:基于DataX,支持几十种数据源作为 source 和 sink 进行数据同步;

  • 数据开发:线上的 IDE,支持 Spark、Hive、Presto、ClickHouse 的开发;

  • 数据质量:根据任务配置的规则,对任务的产出结果进行正确性验证;

  • 数据地图:采集字段级粒度的数据血缘;

  • 数据安全:提供表和字段级别的权限管理;

  • 数据分析:提供快速交互式的分析和可视化分析能力;

  • 数据服务:简化数据查询服务的开发,通过写 SQL 就可以提供数据查询的接口;

  • 开发平台:提供一系列的 API 供用户进行二次开发。  

4.png

全新资源形态  

随着云原生技术越来越成熟,EMR 也提供了各种资源管理形态。  


EMR on ECS  

  • 支持组件最全,自定义能力最强;
  • 跟传统模式最接近,便于快速迁移;  


EMR on ACK  

  • 完全兼容 K8S,10秒级资源调度;
  • 支持 Spark, Flink, Presto, RSS 组件;
  • 配合 ECI,自动弹性,秒级扩容;
  • 完整的任务提交、管理、监控能力;  


EMR Serverless  

  • 首先推出的是 StarRocks;
  • 全托管,最小化的运维成本;
  • 高可用,SLA 99.99%;
  • 开箱即用,对接 EMR Notebook;
  • 成本低,按需扩容资源。  

5.png

新硬件,倚天性价比提升40%以上

在2022年云栖大会上,阿里云推出了中国首个云上大规模应用自研CPU倚天710,EMR2.0 也将推出倚天机型。倚天采用最先进的ARM架构和生产工艺,在通用智能性能提升的基础上,降低了整体的资源成本:


  • 在ECS价格方面,倚天G8系列较X86的机器系列价格降低20%以上,计算型系列价格降低超过30%,大幅降低企业成本;

  • 在性能方面,物理核的倚天机型性能更高,CPU占用率更低;在EMR对倚天机型适配后,进行了 TPC-DS 的 Benchmark 测试,在G8Y与G7的对比中,同样采用了六台8core 32G的机型,倚天的TPC-DS耗时减少25%。  

6.png

全新分析场景  

EMR结合自身的技术优势和实践经验,对大数据场景进行了分类,方便用户快速构建适合业务的大数据集群:

 

数据湖  

  • 数据湖集群包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件; 支持用户构建数据仓库,进行数据 ETL 以及数据湖分析;  


实时数据流  

  • 实时数据流包含 Flink、Kafka 等组件; 支持用户进行实时计算,构建在线决策、实时监控、实时计算等系统;  


数据分析  

  • 数据分析主要包含 StarRocks、Doris、ClickHouse 等组件; 广泛应用于用户画像分析,交互式分析,构建BI报表系统和对接业务系统;  


数据服务  

  • 数据服务主要包含 Hbase、Phoenix 组件; 支持时序数据分析、feeds流推送和用户行为收集;  


数据科学  

  • 数据科学主要包含 Tensorflow、PyTorch 组件;
  • 面向机器学习、数据挖掘、特征建模等场景;  


对于部分客户出于成本控制的考虑,希望将多种业务混部在一个集群,EMR 还支持自定义集群,可以将多种场景下的组件混合部署在一起。  

7.png

以用户使用最多的数据湖场景为例,EMR 在计算、存储和治理方面都做了大量的优化。


  • 在存储层面,EMR 推出 OSS-HDFS,可完全兼容 HDFS API,用户可以平滑的将 HDFS 迁移到 OSS 上;

  • 在计算层面,计算任务无需二次开发,可以直接运行在存算分离的数据湖架构上;
  • 在1PB的场景下测算,经过合理的冷热分层,可以节省40%的资源成本,同时计算资源也可以实现按需或者按负载弹性使用,大大降低了资源消耗;

  • 在计算引擎层面,EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化,ETL 和分析场景下性能有明显提升;

  • 在数据湖管理层面,DLF湖管理实现湖数据生命周期管理,包括:元数管理与服务、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化、全新数据迁移入湖。

9.png


总结  

EMR2.0 从管控到引擎,从资源形态到应用场景都在积极创新,希望更好的解决用户在开源大数据遇到的痛点问题。  


EMR2.0 的控制台入口也升级到了emr-next,欢迎前往使用新版EMR:https://emr-next.console.aliyun.com/  


欢迎对EMR感兴趣的朋友加入EMR钉钉交流群,一起交流和学习。

10.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1天前
|
敏捷开发 API 持续交付
阿里云云效产品使用问题之流水线编译docker时,如何把已经定义好的token传入编译参数
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
阿里云云效产品使用问题之流水线编译docker时,如何把已经定义好的token传入编译参数
|
9天前
|
人工智能 分布式计算 DataWorks
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
75 5
首批!阿里云 MaxCompute 完成中国信通院数据智能平台专项测试
|
19天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
|
1天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
4天前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
1天前
|
敏捷开发 jenkins 测试技术
阿里云云效产品使用问题之流水线如何在不同级别定义超时时间
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
1月前
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
1992 12
|
1月前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
388 0
|
1月前
|
存储 弹性计算 大数据
【阿里云弹性计算】阿里云ECS在大数据处理中的应用:高效存储与计算实践
【5月更文挑战第23天】阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,尤其大数据型实例适合离线计算。通过集成分布式文件系统如OSS,实现大规模存储,而本地存储优化提升I/O性能。弹性扩容和计算优化实例确保高效运行,案例显示使用ECS能提升处理速度并降低成本。结合阿里云服务,ECS构建起强大的数据处理生态,推动企业创新和数字化转型。
51 0
|
8天前
|
存储 弹性计算 Linux
阿里云账号注册、完成实名认证、试用云服务器和购买云服务器流程参考
本文为大家介绍新手用户从注册阿里云账号,完成实名认证,然后试用云服务器和购买云服务器的主要流程,适合初次购买和试用阿里云服务器的新手用户参考。
阿里云账号注册、完成实名认证、试用云服务器和购买云服务器流程参考