开发者社区> 问答> 正文

介绍一下Apache Hive & Tez工具?

介绍一下Apache Hive & Tez工具?

展开
收起
张柠檬 2022-05-12 11:42:37 453 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • Hive应该是最有名气的数据仓库工具了吧,他将HDFS上的数据组织成关系型数据库的形式,并提供了HiveSQL进行结构化查询,使得数据分析人员可以从传统的关系型数据库几乎无缝的过渡到HDFS上,但其个别函数和传统SQL还是有区别的,并且默认也不支持update和delete操作。但开发人员可以开发UDF,为HiveSQL扩充属于自己的功能函数。Hive本身的计算是基于MapReduce的,后来为了应对SparkSQL的出现,开发组推出了Hive on Spark,使得SQL的解释、分析、优化还是在Hive上,而执行阶段交由Spark去完成,从而以达到和SparkSQL近似的速度。

    Tez是对Hive的另一项优化,为其引入了DAG的概念,增加任务并行度从而提升Hive的查询速度,但其本质仍旧是MapReduce,所以提升效果相比Hive on Spark来讲并不足够明显。

    2022-05-12 12:26:22
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载

相关镜像