EMR on ACK 全新发布,助力企业高效构建大数据平台

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

  阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。


一、背景介绍

技术趋势  

  • 存储与计算分离,向云原生演进
  • 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率
  • 统一运维入口,统一运维工具链,统一监控体系
  • 以集群为中心->以作业为中心
  • 多版本支持,例如可以同时跑 Spark2.x、Spark3.x


云原生面临挑战

  • 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统

• 需要完全兼容现有的 HDFS

• 性能对标 HDFS,成本降低

  • 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型

• 异构机型没有本地盘

• 社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识

  • ACK 调度能力:如何解决调度性能瓶颈

• 性能对标 Yarn

• 多级队列管理

  • 错峰调度

• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷


EMR on ACK 优势

  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案

• 可以使计算节点无需本地盘和云盘

• 支持打开 Spark 动态资源功能,Spark-25299 终极方案

  • JindoFS 针对 OSS 存储提供湖加速解决方案

• Block 模式1TB TPCDS 场景下有15%以上的性能提升

  • 调度层面支持 Scheduler Framework V2

• 调度性能比社区提升3x以上

• 提供多级队列管理

  • 引擎能力增强

• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升

• Hudi、DeltaLake 比社区功能性能增强

  • 完整的错峰调度方案


二、EMR 容器化架构

EMR on ACK 架构

B6E96596-E258-479c-B9EE-1ADE827BEA73.png

  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 管理异构机型集群,灵活性好


三、产品介绍

产品首页

参考链接https://www.aliyun.com/product/emapreduce

EMR on ACK Beta 版,前往体验>>

image.png

新建集群

  • 地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)
  • 集群类型:Spark 、Shuffle Service、Presto
  • Spark — 通用的分布式大数据处理引擎

     • 提供了 ETL、离线批处理、数据建模等能力

  • Shuffle Service针对 EMR 计算引擎提供优化的 Shuffle 服务

解决 Kubernetes 下对本地盘的依赖问题

解决大规模计算集群的网络和磁盘的 IO 瓶颈

支持计算与存储分离的架构,可服务多个 EMR 集群

  • Presto 基于内存的分布式 SQL 交互式查询引擎

     • 支持多种数据源

适合 PB 级海量数据的复杂分析,以及跨数据源的查询

  • 组件版本:Spark (3.1.1)
  • 专属节点:

• 现有 ACK 集群,share 部分节点给到 EMR

• 新建 ACK 集群,可选择整个集群为专属节点

  • OSS Bucket:用于存储作业、日志、jar 包等信息

image.png

集群管理

image.png

  • 集群 ID/名称:点击进入作业管理

image.png

  • 集群状态:检测集群是否可用
  • 所属 ACK 集群:可关联到现有 ACK 集群
  • 配置:Spark 作业配置
  • 释放:释放空间





点击以下链接,直接观看公开课视频,获取讲师实例讲解:

https://developer.aliyun.com/learning/course/837/detail/13999




第一时间掌握产品发布动态,资深技术专家在线答疑,欢迎扫码加入钉钉交流群!

lADPD4BhuZTMXG7NA97NAu4_750_990.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10月前
|
SQL 存储 监控
大数据Flume企业开发实战
大数据Flume企业开发实战
43 0
|
14天前
|
机器学习/深度学习 数据采集 大数据
大数据技术下的企业智能决策支持系统
大数据技术下的企业智能决策支持系统
20 0
|
2月前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
2月前
|
存储 分布式计算 Apache
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
65064 1
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
|
2月前
|
存储 人工智能 安全
AI大数据分析对企业安全隐私的保护非常重要
AI大数据分析在提供企业发展和决策支持的同时,也涉及到大量的企业数据和用户隐私信息。因此,保护企业安全隐私是非常重要的。
|
2月前
|
分布式计算 大数据 数据处理
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
46 0
|
9月前
|
存储 Cloud Native 大数据
浅谈传统企业的大数据平台如何上云
浅谈传统企业的大数据平台如何上云
|
10月前
|
机器学习/深度学习 大数据 数据挖掘
大数据及其影响:企业如何充分利用它
大数据及其影响:企业如何充分利用它
|
11月前
|
存储 分布式计算 大数据
CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享
阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。
597 0
|
边缘计算 运维 监控
《云原生架构容器&微服务优秀案例集》——04 交通/物流——申通 基于 ACK@Edge 构建边缘 PaaS 实现业务全面提效
《云原生架构容器&微服务优秀案例集》——04 交通/物流——申通 基于 ACK@Edge 构建边缘 PaaS 实现业务全面提效
208 0
《云原生架构容器&微服务优秀案例集》——04 交通/物流——申通 基于 ACK@Edge 构建边缘 PaaS 实现业务全面提效