基于 Kubernetes 的企业级大数据平台,EMR on ACK 技术初探

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
可观测可视化 Grafana 版,10个用户账号 1个月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 通过阿里云容器服务 ACK 运行开源大数据任务,将以集群为中心的视角切换成以作业为中心视角,还可以实现在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率。并且,实现了运维入口、运维工具链、监控体系的三重统一。此外,还支持多版本,如同时运行 Spark2.x 和 Spark 3.x 任务。

作者:容器服务团队


云上大数据的 Kubernetes 技术路线


当前,大数据与机器学习领域颇为关注存储与计算分离架构,逐渐向云原生演进。以Spark 为例,云下或自有服务器可以选择 Hadoop 调度支持 Spark,云上的 Spark 则会考虑如何充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark on Kubernetes 的优秀实践。


1.png


大数据云原生化面临的挑战


存储和计算分离的架构,同时又带来挑战,例如:怎样构建以阿里云对象存储 OSS 为底座的 HDFS 文件系统?需要完全兼容现有的 HDFS,还要实现在性能对标 HDFS的同时降低成本;计算引擎 shuffle 数据存算分离,又要考虑如何解决 ACK 混合异构机型的支持问题,以及业界非常关注如何支持 Spark 动态资源。


引入 Kubernetes 之后, 如何调度优化性能瓶颈?性能对标 Yarn、实现多级队列管理。还有,如何借助 K8s,编排组织各种业务的波峰波谷,实现错峰调度?等等。


通过阿里云容器服务 ACK 运行开源大数据任务,将以集群为中心的视角切换成以作业为中心视角,还可以实现在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率。并且,实现了运维入口、运维工具链、监控体系的三重统一。此外,还支持多版本,如同时运行 Spark2.x 和 Spark 3.x 任务。


EMR on ACK 的架构与优势


12月,阿里云 EMR 2.0 正式发布,从平台体验、数据开发、资源形态、分析场景等方面实现全面创新。其中在资源形态侧,EMR 可以部署在阿里云容器服务 ACK 平台, 减少对底层集群资源的运维投入,以便于用户更加专注大数据任务本身。


EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。


EMR on ACK 架构如下


2.png


  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 管理异构机型集群,灵活性好


EMR on ACK 具备以下优势


  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案
  • 可以使计算节点无需本地盘和云盘
  • 支持打开 Spark 动态资源功能,Spark-25299
    终极方案
  • JindoFS 针对 OSS 存储提供湖加速解决方案
  • Block 模式1TB TPCDS 场景下有15%以上的性能提升
  • 调度层面支持 Scheduler Framework V2
  • 调度性能比社区提升3x以上
  • 提供多级队列管理
  • 引擎能力增强
  • 10TB TPCDS Benchmark 场景下,EMR Spark
    比社区有3x性能提升
  • Hudi、DeltaLake 比社区功能性能增强
  • 完整的错峰调度方案


国内知名广告营销服务商汇量科技已使用 EMR 产品4年。在业务快速增长的大好形势下,汇量科技面临越来越多的困扰:如数据来源复杂、数据量大、数据维度多、实时运营业务秒级数据新鲜度需求等业务需求;本次升级后,汇量科技在素材平台、热力引擎等业务的大数据平台搭建上,数据同步和及查询效率有数倍提升,系统稳定性显著提升,未再出现之前cpu、mem、io负载高等情况。

EMR on ACK

https://help.aliyun.com/document_detail/280450.html


点击此处移步阿里云 EMR 2.0 发布会,了解更多

相关实践学习
Docker镜像管理快速入门
本教程将介绍如何使用Docker构建镜像,并通过阿里云镜像服务分发到ECS服务器,运行该镜像。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
18天前
|
Kubernetes 监控 安全
Kubernetes实战:集群管理与自动化技术详解
【6月更文挑战第27天】Kubernetes实战聚焦集群自动化管理,涵盖核心概念如主从架构、API Server及工作节点,强调自动扩缩容、RBAC安全控制与日志监控。通过IaC工具如Helm实现配置自动化,结合Prometheus等进行持续监控,强调安全策略与资源优化,展现K8s在现代应用管理中的威力。
|
2月前
|
Kubernetes 调度 Docker
深入探讨容器编排技术:从Docker到Kubernetes
容器编排在现代IT中日益关键,从Docker到Kubernetes,助力应用的自动化部署和扩展。Docker提供容器技术,打包应用及环境为镜像,通过引擎、镜像、容器、网络和存储组件实现隔离运行。Kubernetes作为高级容器编排平台,管理Pod(多容器集合),其核心包括API服务器、控制器管理器、调度器和Kubelet。Kubernetes集群由Master和Worker节点构成,实现Pod的高效调度和运行。
|
13天前
|
Kubernetes 负载均衡 调度
Kubernetes等容器化技术
【7月更文挑战第2天】Kubernetes等容器化技术
18 2
|
27天前
|
运维 Kubernetes Cloud Native
云原生时代的技术革命:Kubernetes与容器编排
【6月更文挑战第17天】在数字化转型的浪潮中,云原生技术正成为推动企业IT架构现代化的核心力量。本文将深入探讨Kubernetes作为云原生生态中的佼佼者,如何引领容器编排的技术革命,并分析其在现代应用部署、管理和扩展中的关键作用。通过实例和案例分析,我们将揭示Kubernetes如何助力企业实现更高效、灵活和可靠的云原生应用管理。
|
1月前
|
运维 Kubernetes 持续交付
Docker与Kubernetes:容器化技术的黄金搭档
【6月更文挑战第10天】Docker和Kubernetes是容器化技术的黄金组合,Docker提供轻量级、可移植的容器引擎,简化应用部署,而Kubernetes作为容器编排系统,实现自动化部署、扩展和管理,确保高可用性和可扩展性。两者的协作使得容器化应用更高效、可靠,共同推动软件开发和运维的创新。
|
18天前
|
Kubernetes Shell API
技术笔记:K8s中大量Pod是Evicted状态,这是咋回事?
技术笔记:K8s中大量Pod是Evicted状态,这是咋回事?
45 0
|
2月前
|
Kubernetes 持续交付 调度
为什么是容器编排技术
**容器编排**是自动化容器部署、管理和扩展的技术,它使得构建跨容器应用、集群调度、健康检查和弹性伸缩变得自动化。Kubernetes是最流行的容器编排平台,提供自动化部署、服务发现、故障恢复和扩展性。学习Kubernetes时,理解其作为面向终态系统的理念很重要,从单个容器开始,结合实践进行学习能提高效率。Kubernetes是Google开源的容器编排引擎,支持自动化部署、可伸缩性和容器管理,其核心概念包括Pod、Controller、Workload、Service、PV/PVC、Namespace和etcd。
|
2月前
|
存储 Kubernetes 监控
使用Kubernetes进行容器编排:技术详解与实践
【5月更文挑战第16天】Kubernetes,简称K8s,是开源容器编排系统,用于自动化部署、扩展和管理容器化应用。核心概念包括节点、Pod(最小部署单元)、服务、标签和副本集。其特点有高可用性、可扩展性、自动化和可移植性。实践使用涉及安装配置集群、编写YAML部署清单、应用部署、监控管理和扩展更新。Kubernetes帮助提升应用的可用性、可扩展性和可移植性。
|
2月前
|
SQL Kubernetes 调度
【技术解析 | 实践】部署Kubernetes模式的Havenask集群
本次分享内容为havenask的kubernetes模式部署,由下面2个部分组成(部署Kubernetes模式Havenask集群、 Kubernetes模式相关问题排查),希望可以帮助大家更好了解和使用Havenask。
59663 9
|
2月前
|
Kubernetes 物联网 区块链
未来技术的脉动:区块链、物联网和虚拟现实的新纪元Kubernetes 集群性能优化实践
【5月更文挑战第27天】 随着科技的飞速发展,新兴技术如区块链、物联网(IoT)和虚拟现实(VR)正在重塑我们的世界。这些技术不仅在逐步成熟,而且在各个行业中找到了创新的应用。区块链技术以其不可篡改和去中心化的特性,为金融交易、供应链管理和身份验证提供了新的解决方案。物联网通过智能设备和系统的互联互通,优化了资源管理并提升了生活品质。而虚拟现实技术则在娱乐、教育和医疗等领域创造了沉浸式体验。本文将深入探讨这些技术的发展趋势和多样化应用场景,展望它们如何共同塑造未来社会的面貌。

热门文章

最新文章

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多