Hive on Tez 的安装配置

2023-01-03 449

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive on Tez 的安装配置

Hive on Tez 的安装配置

0. 写在前面

Hadoop：Hadoop-2.9.2
Hive：Hive-2.3.7
Tez：Tez-0.9.0

1. 起源

Hortonworks在2014年左右发布了Stinger Initiative，并进行社区分享，为的是让Hive支持更多SQL，并实现更好的性能。

让Hive的查询功能更强大。增加类似OVER子句的分析功能，支持WHERE子查询，以及调整Hive的样式系统更多的符合标准的SQL模型；
优化Hive的请求执行计划，增加 Task 每秒处理记录的数量；
引入新的列式文件格式（ORC文件），提供一种更现代、高效和高性能的方式来储存Hive数据；
引入新的runtime框架——Tez，消除Hive的延迟以及吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job；

2. Tez概述

Tez是Apache开源的支持 DAG （有向无环图）作业的计算框架，是支持Hadoop 2.x的重要引擎。它源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

Tez将 Map task 和 Reduce task 进一步拆分为如下图所示：

Tez的task由Input、processor、output阶段组成，可以表达所有复杂的map、

reduce操作，如下图：

Tez可以将多个有依赖的作业转换为一个作业（只需写一次HDFS，中间环节较

少），从而大大提升DAG作业的性能。Tez已被Hortonworks用于Hive引擎的优化，

经测试一般小任务比Hive MR 的2-3倍速度左右，大任务7-10倍左右，根据情况不同

可能不一样。

Hive-on-MR is deprecated in Hive 2 and may not be available in
the future versions. Consider using a different execution
engine (i.e. spark, tez) or using Hive 1.X releases.

Tez+Hive仍采用`MapReduce`计算框架，但对DAG的作业依赖关系进行了 裁剪 ，并将多个小作业合并成一个大作业，不仅 减少了计算量，而且写HDFS次数也大大减少 。

3. 安装部署

前置芝士

官方推荐使用 Tez 和包中包含的预打包 Hadoop 库 的安装方式。包含所有依赖项的完整 tarball 是确保现有作业在集群滚动升级期间继续运行的更好方法。

安装

1、下载软件包：apache-tez-0.9.2-bin.tar.gz
2、解压缩

tar -zxvf apache-tez-0.9.0-bin.tar.gz
cd apache-tez-0.9.0-bin/share

3、将tez的压缩包放到hdfs上

hdfs dfs -mkdir-p /user/tez
hdfs dfs -put tez.tar.gz /user/tez

4、$HADOOP_HOME/etc/hadoop/ 下创建 tez-site.xml 文件，做如下配置：保存后将文件复制到集群所有节点

<?xmlversion="1.0" encoding="UTF-8"?><configuration><!-- 指定在hdfs上的tez包文件 --><property><name>tez.lib.uris</name><value>hdfs://hadoop1:9000/user/tez/tez.tar.gz</value></property></configuration>

保存后将文件分发到集群所有节点

5、增加客户端节点的配置(/etc/profile)

exportTEZ_CONF_DIR=$HADOOP_CONF_DIRexportTEZ_JARS=/opt/apps/tez/*:/opt/apps/tez/lib/*
exportHADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH

6、Hive设置Tez执行

hive> set hive.execution.engine=tez;

7、如果想默认使用Tez，可在$HIVE_HOME/conf目录下 hive-site.xml 中增加

<property>
  <name>hive.execution.engine</name>
  <value>tez</value>
</property>

4. 解决日志Jar包冲突

rm /opt/apps/tez/lib/slf4j-log4j12-1.7.10.jar

结束！

Hive on Tez 的安装配置

Hive on Tez 的安装配置

0. 写在前面

1. 起源

2. Tez概述

3. 安装部署

4. 解决日志Jar包冲突

热门文章

最新文章

相关课程

相关电子书

相关实验场景