hadoop:
大规模数据处理软件系统(谷歌的三篇论文中受到启发)
MapReduce :
并行计算框架
HDFS:
分布式文件系统
HBase:
非关系型分布式数据库
Hive:
数据仓库,用于管理存储于HDFS或HBase中的结构化/半结构化数据(Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到 HDFS 中 Hive 设定的目录下,因此 Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。)
Spark:
基于内存计算的大数据并行计算框架
Spark SQL :
即席查询(以单独的SQL语句的形式执行的查询就是即席查询,立马生效的查询。)
SparkStreaming :
实时处理应用