Hive引擎包括:默认MR、spark、tez
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
Spark on Hive:Hive只作为存储元数据(提供数据源),Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。
mr,基于磁盘进行计算,比较慢
spark,基于内存进行计算,速度比较快
对于超大数据量的话,hiveOnSpark可能会有内存溢出情况