Hive应该是最有名气的数据仓库工具了吧,他将HDFS上的数据组织成关系型数据库的形式,并提供了HiveSQL进行结构化查询,使得数据分析人员可以从传统的关系型数据库几乎无缝的过渡到HDFS上,但其个别函数和传统SQL还是有区别的,并且默认也不支持update和delete操作。但开发人员可以开发UDF,为HiveSQL扩充属于自己的功能函数。Hive本身的计算是基于MapReduce的,后来为了应对SparkSQL的出现,开发组推出了Hive on Spark,使得SQL的解释、分析、优化还是在Hive上,而执行阶段交由Spark去完成,从而以达到和SparkSQL近似的速度。
Tez是对Hive的另一项优化,为其引入了DAG的概念,增加任务并行度从而提升Hive的查询速度,但其本质仍旧是MapReduce,所以提升效果相比Hive on Spark来讲并不足够明显。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。