2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。
近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。
经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable),其中的计算引擎经历了多重演进,计算引擎 MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!
众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。可以通过管理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,这不会让工程师头疼,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决一些问题。
Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。
Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,能够在各种任务类别中提供具有可视化的任务调度,去中心化的设计保证了调度系统的高稳定性和可用性,可支持百万级数据和任务同时运行。
为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache DolphinScheduler 社区推出的这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让用户能更快更好更便捷的使用 Apache Spark + Apache DolphinScheduler。
无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!
议程介绍
欢迎大家参加 1 月 11 日 Apache Spark 联合 Apache DolphinScheduler 举办的 Meetup 活动,下午 14:00,我们不见不散!
报名通道
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
时间:2023 年 1 月 11 日 14:00-16:20
PC 端:https://developer.aliyun.com/live/251090
移动端:建议扫码预约👇