Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

简介: Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

image.png

点击预约直播

2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。

近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“替换”中得到发展。

经过十余年发展,曾经的一些老牌开源项目已风光不在,大数据三驾马车(分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable),其中的计算引擎经历了多重演进,计算引擎 MapReduce 逐渐发展到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成优秀的开源项目之后,如何打破数据孤岛,如何降本增效,如何应对大规模的数据离线调度也成为了新的挑战!

众所周知,由于各种原因, 遇到 Apache Spark 应用程序的失败是不可避免的。最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。可以通过管理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其他类型的任务,这不会让工程师头疼,也不需要 Apache DolphinScheduler 生态系统之外的任何代码,并且还支持拖拉拽 Spark 任务解决一些问题。

Apache Spark 是用于大规模数据处理的统一分析引擎。是一个强大的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析和不同工作负载的通用计算图。Spark 另一个有趣的特性是它的快速处理能力和容错能力,您可以放心,在出现资源故障的情况下,您的部署可以保持一致。

Apache DolphinScheduler 是一个分布式和可扩展的开源工作流协调平台,能够在各种任务类别中提供具有可视化的任务调度,去中心化的设计保证了调度系统的高稳定性和可用性,可支持百万级数据和任务同时运行。

为了让两个社区的共同用户既有地方反馈,还有地方学习,我们联合 Apache DolphinScheduler 社区推出的这个主题活动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎+调度”的用户,想了解最新 Spark 迷人的特性,那这次的分享你一定不要错过了,特邀- 阿里云 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、阿里云 EMR Spark 引擎负责人周克勇 ,通过他们的分享让用户能更快更好更便捷的使用 Apache Spark + Apache DolphinScheduler。

无论你是热衷于钻研开源技术的开发者,还是关注大数据最新技术动态的小伙伴,我都建议你来听听,从中获得全新的灵感。我相信社区花费精力筹备的活动,你一定能听到一手的分享,得到一手的收获!


议程介绍

image.png

欢迎大家参加 1 月 11 日 Apache Spark 联合 Apache DolphinScheduler 举办的 Meetup 活动,下午 14:00,我们不见不散!


报名通道

Apache Spark Meetup | 1 月线上直播报名通道已开启,赶快报名预约吧!

时间:2023 年 1 月 11 日 14:00-16:20

PC 端https://developer.aliyun.com/live/251090

移动端:建议扫码预约👇

image.png


image.png
点击预约直播

目录
相关文章
|
Linux API 数据安全/隐私保护
|
1月前
|
存储 人工智能 运维
AgenticDB:源自阿里云AnalyticDB,为AI-Native企业而生
AgenticDB是面向AI-Native企业的智能数据基座,以AnalyticDB PostgreSQL为核心,提供上下文服务、多租户隔离、数据沙箱、RAG引擎与Serverless后端,支持Single/Multi-Agent系统敏捷开发与安全运维。
308 2
|
9月前
|
机器学习/深度学习 负载均衡 网络架构
Mixture of Experts架构的简要解析
Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。
1568 8
|
数据挖掘
R语言笔记丨数据的合并、拆分、整合
R语言笔记丨数据的合并、拆分、整合
|
Web App开发 机器人 Linux
什么是GN?以及顺便学点构建系统。
什么是GN?以及顺便学点构建系统。
1249 0
|
监控 算法 测试技术
量化交易软件开发 | 搭建区块链数字货币量化交易系统规则解析
在数字货币领域,量化交易已经成为投资者获取稳定收益的一种重要策略。而开发一款高效可靠的量化交易软件,则是实现量化交易的关键。本文从零开始,以搭建区块链数字货币量化交易系统为主题,从理论框架、领域案例和工作流程三个角度出发,为您详细介绍量化交易软件开发的过程。
|
存储 人工智能 编解码
在Data-Driven时代下,如何打造下一代智能数据体系?
本文源自2024外滩大会“Data+AI”论坛,由蚂蚁集团数据平台与服务部负责人骆骥演讲整理。文章回顾了数据技术发展历程,指出生成式AI正推动数据技术从成本效率中心向价值中心转变。
|
存储 SQL JSON
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(一)
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(一)
|
IDE 开发工具 Android开发
在Windows和macOS平台,自主编译Qt Creator和Qt Designer源码
在Windows和macOS平台,自主编译Qt Creator和Qt Designer源码
1238 0
|
人工智能 前端开发 API
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目
1282 1
手把手带你用Python和文心一言搭建《AI看图写诗》网页项目