Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

简介: Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

image.png

点击预约直播

2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。

近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。

经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable),其中的计算引擎经历了多重演进,计算引擎 MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!

众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。可以通过管理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,这不会让工程师头疼,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。

Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,能够在各种任务类别中提供具有可视化的任务调度,去中心化的设计保证了调度系统的高稳定性和可用性,可支持百万级数据和任务同时运行。

为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache DolphinScheduler 社区推出的这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让用户能更快更好更便捷的使用 Apache Spark + Apache DolphinScheduler。

无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!


议程介绍

image.png

欢迎大家参加 1 月 11 日 Apache Spark 联合 Apache DolphinScheduler 举办的 Meetup 活动,下午 14:00,我们不见不散!


报名通道

Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

时间:2023 年 1 月 11 日 14:00-16:20

PC 端https://developer.aliyun.com/live/251090

移动端:建议扫码预约👇

image.png


image.png
点击预约直播

目录
相关文章
|
4月前
|
机器学习/深度学习 负载均衡 网络架构
Mixture of Experts架构的简要解析
Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。
614 8
|
10月前
|
存储 SQL 人工智能
DeepSeek开源周第五弹之二!Smallpond:构建于3FS之上的轻量级数据处理框架,高效处理PB级数据
Smallpond 是 DeepSeek 开源的轻量级数据处理框架,基于 DuckDB 和 3FS 构建,支持 PB 级数据处理,提供高性能的数据加载、查询和转换功能,适合大规模数据预处理和实时分析。
854 1
DeepSeek开源周第五弹之二!Smallpond:构建于3FS之上的轻量级数据处理框架,高效处理PB级数据
|
缓存 边缘计算 安全
全面进化:边缘安全加速平台的演进(暨新产品ESA发布会)
全面进化:边缘安全加速平台(ESA)发布会。ESA融合了全球3200个节点、TP级防护、四层和七层安全加速,提供一站式的CDN与安全服务。产品具备高性能双向传输、智能调度、免费SSL证书、DNS管理及边缘计算能力,支持电商、游戏等多场景。发布会还介绍了行业标准及价格体系,涵盖从个人开发者到大型企业的多种套餐,助力用户享受高效、稳定的边缘加速与安全防护体验。
573 3
|
11月前
|
数据采集 数据可视化 Apache
Qwen2.5-Coder全系列来咯!强大、多样、实用
Qwen2.5-Coder全系列来咯!强大、多样、实用
|
Web App开发 机器人 Linux
什么是GN?以及顺便学点构建系统。
什么是GN?以及顺便学点构建系统。
925 0
|
数据挖掘
R语言笔记丨数据的合并、拆分、整合
R语言笔记丨数据的合并、拆分、整合
|
分布式计算 大数据 Java
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!
818 0
Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
|
测试技术
【ZYNQ】ZYNQ7000 私有定时器及其驱动应用示例
【ZYNQ】ZYNQ7000 私有定时器及其驱动应用示例
401 0
|
人工智能 前端开发 API
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目
1073 1
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目
|
IDE 开发工具 Android开发
在Windows和macOS平台,自主编译Qt Creator和Qt Designer源码
在Windows和macOS平台,自主编译Qt Creator和Qt Designer源码
971 0