Hadoop生态圈一览
根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解。
这是Hadoop生态从Google的三篇论文开始的发展历程,现已经发展成为一个生态体系,并还在蓬勃发展中....
这是官网上的Hadoop生态图,包含了大部分常用到的Hadoop相关工具软件
这是以体系从下到上的布局展示的Hadoop
Spark修炼之道(高级篇)——Spark源码阅读:第五节 Stage提交
Stage提交
调用流程:
1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted
2. org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage
3. org.apache.spark.scheduler.DAGSch
来!PyFlink 作业的多种部署模式
关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。
HDFS部署体验
体验一把 HDFS 部署。不涉及复杂功能。当作自动文件备份工具使用。
你应该知道的 HBase 基础,都在这儿了
2006 年10 月Google 发布三架马车之一的《Bigtable:A Distributed Storage System for Strctured Data》论文之后,Powerset 公司就宣布 HBase 在 Hadoop 项目中成立,作为子项目存在。