Hive SQL汇总
创建数据库create database if not exists sopdmcomment 'this is test database'with dbproperties('creator'='gxw','date'='2014-11-12') --数据库键值对属性信息location '/my/preferred/directory';显示所有表show tables ;显示表的描述
Hadoop生态圈一览
根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解。
这是Hadoop生态从Google的三篇论文开始的发展历程,现已经发展成为一个生态体系,并还在蓬勃发展中....
这是官网上的Hadoop生态图,包含了大部分常用到的Hadoop相关工具软件
这是以体系从下到上的布局展示的Hadoop
Spark的几种运行模式
应用场景
spark是基于内存计算的计算框架,性能很强悍,但是它支持单机模式,同时也支持集群模式,它的运行模式有好多种,为了不混淆方便区分,这里进行一些总结。
Spark修炼之道(高级篇)——Spark源码阅读:第五节 Stage提交
Stage提交
调用流程:
1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted
2. org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage
3. org.apache.spark.scheduler.DAGSch