Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

image.png

点击预约直播

2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。

近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。

经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable),其中的计算引擎经历了多重演进,计算引擎 MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!

众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。可以通过管理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,这不会让工程师头疼,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。

Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,能够在各种任务类别中提供具有可视化的任务调度,去中心化的设计保证了调度系统的高稳定性和可用性,可支持百万级数据和任务同时运行。

为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache DolphinScheduler 社区推出的这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让用户能更快更好更便捷的使用 Apache Spark + Apache DolphinScheduler。

无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!


议程介绍

image.png

欢迎大家参加 1 月 11 日 Apache Spark 联合 Apache DolphinScheduler 举办的 Meetup 活动,下午 14:00,我们不见不散!


报名通道

Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

时间:2023 年 1 月 11 日 14:00-16:20

PC 端https://developer.aliyun.com/live/251090

移动端:建议扫码预约👇

image.png


image.png

点击预约直播

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
29天前
|
存储 分布式计算 Java
|
15天前
|
消息中间件 监控 数据挖掘
基于RabbitMQ与Apache Flink构建实时分析系统
【8月更文第28天】本文将介绍如何利用RabbitMQ作为数据源,结合Apache Flink进行实时数据分析。我们将构建一个简单的实时分析系统,该系统能够接收来自不同来源的数据,对数据进行实时处理,并将结果输出到另一个队列或存储系统中。
60 2
|
23天前
|
Java 持续交付 项目管理
Maven是一款基于Apache许可的项目管理和构建自动化工具,在Java开发中极为流行。
Maven是一款基于Apache许可的项目管理和构建自动化工具,在Java开发中极为流行。它采用项目对象模型(POM)来描述项目,简化构建流程。Maven提供依赖管理、标准构建生命周期、插件扩展等功能,支持多模块项目及版本控制。在Java Web开发中,Maven能够自动生成项目结构、管理依赖、自动化构建流程并运行多种插件任务,如代码质量检查和单元测试。遵循Maven的最佳实践,结合持续集成工具,可以显著提升开发效率和项目质量。
36 1
|
29天前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
159 4
|
29天前
|
存储 缓存 分布式计算
|
29天前
|
SQL 存储 分布式计算
|
28天前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
35 1
|
23天前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
32 0
|
2月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
91 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
27天前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
140 0

推荐镜像

更多