Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目

简介: Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目

全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021 年 4 月 9 日在官方渠道宣布 Apache DolphinScheduler 毕业成为 Apache 顶级项目这是首个由国人主导并贡献到 Apache 的大数据工作流调度领域的顶级项目

DolphinScheduler™ 已经是联通、IDG、IBM、京东物流、联想、新东方、诺基亚、360、顺丰和腾讯等 400+ 公司在使用的分布式可视化大数据工作流调度系统。

DolphinScheduler 于 2019 年 8 月 29 日由易观捐赠给 Apache 并启动孵化。之后在导师的指导下,由孵化器管理委员会成员进行辅导和孵化,在 2021 年 2 月 19 日在 Apache 孵化器以 8 票支持一次性通过毕业提案投票。3 月 18 日,Apache 董事会通过  DolphinScheduler 毕业决议,结束了为期 18 个月的孵化,正式确定 DolphinScheduler 成为 Apache 顶级项目。

2021 年 4 月 9 日由 Apache 市场副总裁 Sally Khudairi 在 Apache 软件基金会各渠道官号上发布官方通告。


关于 Apache DolphinScheduler

Apache DolphinScheduler 是一个分布式易扩展的带有强大可视化 DAG 界面的新一代工作流调度平台,自 17 年在立项之初就确定了使命 - “解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程直观可见”,从此配置工作流程再也不需要写代码啦!yy.png

DolphinScheduler 架构

作为强大的带有有向无环图(DAG)可视化界面的分布式大数据工作流调度平台,Dolphin Scheduler 解决了复杂的任务依赖关系和简化了数据任务编排的工作。它以开箱即用的、易于扩展的方式将众多大数据生态组件连接到可处理 100,000 级别的数据任务调度系统中来。

Apache DolphinScheduler 是全球顶尖架构师与社区认可的数据调度平台,把复杂性留给自己,易用性留给用户,整体有如下特征:

  • 云原生设计:支持多云、多数据中心的跨端调度,同时也支持K8s Docker部署与扩展,性能上可以线性增长,在用户测试情况下最高已经支持10万的并行任务控制;
  • 高可用:去中心化的多Master/Worker的架构,可以自动任务平衡,自动高可用,确保任务在任何节点死机的情况下可以具有完整性完成整体调度;
  • 用户友好的界面:可视化的DAG图,包括子任务,条件调度、脚本管理、多租户等方便功能,并具有让运行任务实例与任务模板分开,让你的平台维护人员和数据科学家都有一个方便易用的开发和管理平台;
  • 支持多种数据场景:支持流数据处理,批数据处理,暂停、回复、多租户等,对于spark,hive,MR,flink,clickhouse等等平台都可以方便直接调用。

DolphinScheduler 在短短 1 年半孵化时间里就能收获如此多用户和其一直倡导的 Slogan 是分不开的:

yy.png

是的,调用用的对,半夜真能安心睡!最终 Apache Dolphin Scheduler 获得大量用户,例如中国联通、IBM中国,京东物流,联想,新东方,顺丰快递等等,400 多个用户都在线上使用:

yy.png

DolphinScheduler 在设计之初就秉承着大道至简、产品易用易维护的核心理念,以高可用、易扩展作为架构底座,经过诸多打磨,获得了用户群体的肯定,然后才在 2019年 3 月正式对外开源,8 月 29 日成功进入到 Apache 孵化器,成为国内首个 Apache 大数据调度项目,多次登陆 github 月度趋势榜并引起 Hacker News 上的热烈讨论。在 2020 年, DolphinScheduler 也获得了诸多赞誉,InfoQ 中国技术力量年度榜单评其为 “十大开源新锐项目” 和 “最具人气开源新锐项目”,荣获开源中国年度 “最佳技术团队” 等称号。DolphinScheduler社区已经有庞大的 4000+ 人的用户群,据不完全统计,截止 2020 年 10 月,已经有 400+ 家公司将 DolphinScheduler 用在生产环境,DolphinScheduler 在各个领域上持续发光发热!


DolphinScheduler 发展历程

在 Apache 孵化过程中,学习并实践 Apache Way, 真正体会到了 Apache 文化的精髓 “Comuunity Over Code”,社区基于代码,却又大于代码,需要在代码之上去思考如何协作、如何沟通,如何让 Community 健康持续的向前发展。正是这不断的思考,使得 DolphinScheduler 在结束孵化投票上没有遇到任何 challenge,可以说是出乎意料的顺利。

毕业成为顶级项目见证了过去一年半以来来自 Apache DolphinScheduler 社区众多贡献者和用户的日日夜夜的努力,自从进入 Apache 孵化器以来,DolphinScheduler 社区共加入了 14 位 Commiter、2 位 PMC,也在社区的共同努力下发布了 8 个 Apache Releases,感谢给予辛勤支持和无数帮助的各位导师、贡献者、用户和及 Apache 孵化器的支持。

成为顶级项目,只是 Apache DolphinScheduler 新的起点,还有更多的挑战等待着各位社区的小伙伴和用户多多的支持,我们希望未来可以让中国优秀的开源项目走向世界,让世界都了解国内也有顶尖的开源项目,最后也感谢各位大咖对于 Apache DolphinScheduler 项目的帮助和祝福。我们也在此拜谢各位,也希望各位一如既往的支持 Apache DolphinScheduler 项目走向全球!


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
1月前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1412 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
|
1月前
|
分布式计算 大数据 Apache
大数据技术变革正当时,Apache Hudi了解下?
大数据技术变革正当时,Apache Hudi了解下?
25 0
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
74 0
|
2月前
|
SQL 分布式计算 数据库
离线数仓--大数据技术之DolphinScheduler
离线数仓--大数据技术之DolphinScheduler
141 2
|
2月前
|
存储 分布式计算 调度
MaxCompute资源问题之删除调度资源如何解决
MaxCompute资源指的是在MaxCompute项目中使用的计算资源和存储资源;本合集旨在向用户展示如何高效管理MaxCompute资源,包括资源包管理、配额调整和性能优化等方面。
30 0
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
496 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
3月前
|
SQL 关系型数据库 Apache
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门
671 1
|
3月前
|
Apache 调度 数据库
Apache DolphinScheduler VS WhaleScheduler
Apache DolphinScheduler VS WhaleScheduler
125 2

推荐镜像

更多