Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流-阿里云开发者社区

Apache Spark + 海豚调度：PB 级数据调度挑战，教你如何构建高效离线工作流

2023-01-05 1019

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Spark Meetup | 1 月线上直播报名通道已开启，赶快报名预约吧！

点击预约直播

2010 年，我国进入移动互联网，数据规模成几何式增长。在大数据开源技术领域，以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代，大数据处理流程中的各个开源组件，也一起开启了狂飙突进的大数据时代，推动了整个行业开启了数字化变革之路。

近年来，大数据行业的开发者都在感慨：技术迭代更新速度的太快了，今年还在流行，明年就可能被雪藏！其实我们非常清楚，技术永远是在“更新”或“替换”中得到发展。

经过十余年发展，曾经的一些老牌开源项目已风光不在，大数据三驾马车（分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable），其中的计算引擎经历了多重演进，计算引擎 MapReduce 逐渐发展到 Spark 时代，对于大数据调度新星 Apache DolphinScheduler 来说，集成优秀的开源项目之后，如何打破数据孤岛，如何降本增效，如何应对大规模的数据离线调度也成为了新的挑战！

众所周知，由于各种原因，遇到 Apache Spark 应用程序的失败是不可避免的。最常见的故障之一是 OOM（驱动程序或执行程序级别的内存不足）。可以通过管理（调度、重试、警报等）Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务，这不会让工程师头疼，也不需要 Apache DolphinScheduler 生态系统之外的任何代码，并且还支持拖拉拽 Spark 任务解决一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具，它提供了 Java、Python、Scala 和 R 的高级 API，以及一个优化的引擎，支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力，您可以放心，在出现资源故障的情况下，您的部署可以保持一致。

Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台，能够在各种任务类别中提供具有可视化的任务调度，去中心化的设计保证了调度系统的高稳定性和可用性，可支持百万级数据和任务同时运行。

为了让两个社区的共同用户既有地方反馈，还有地方学习，我们联合 Apache DolphinScheduler 社区推出的这个主题活动：洞悉 Spark 任务调度新能力｜Apache Spark + DolphinScheduler Meetup，如果你也是接触开源“计算引擎+调度”的用户，想了解最新 Spark 迷人的特性，那这次的分享你一定不要错过了，特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ，通过他们的分享让用户能更快更好更便捷的使用 Apache Spark + Apache DolphinScheduler。

无论你是热衷于钻研开源技术的开发者，还是关注大数据最新技术动态的小伙伴，我都建议你来听听，从中获得全新的灵感。我相信社区花费精力筹备的活动，你一定能听到一手的分享，得到一手的收获！