Hive 关于merge的几个参数

简介:

hive.mergejob.maponly

hive.merge.mapfiles

hive.merge.mapredfiles

这三个参数是merge以哪种方式的输出文件,以及以哪种方merge.听起来是不是很绕J

hive.merge.mapfiles(defaulttrue):这个参数是用来控制是否merge MAP-ONLYJob的文件输出(如果在Hive里设置了支持DP的话,并且涉及到含有DP列的表,如果Hadoop不支持CombineInputFormat,即版本pre-0.20的话那么这个参数和下个参数是不生效的,即都是false

hive.merge.mapredfiles(defaultfalse):这个参数是用来控制merge MAP-REDUCEJob的文件输出

hive.mergejob.maponly(defaulttrue):这个参数是用来控制是以MAP-ONLY的形式来进行merge(这里有个前提条件就是需要Hadoop支持CombineInputFormat0.20之前的即使设置了这个参数true也不会生效)或者以MAP-REDUCE的形式来进行merge.不过关于这个参数还有一个未修复的Bughttps://issues.apache.org/jira/browse/HIVE-2869)因此默认值是true



本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1319296,如需转载请自行联系原作者



相关文章
|
SQL 分布式计算 Hadoop
55 Hive Shell参数
55 Hive Shell参数
141 0
|
SQL 分布式计算 算法
Hive关联时丢失数据问题和常用的Hive SQL参数设置
针对结果的发生,本文从以下方面分析原因及提供解决方案: - 右表没有匹配的数据 - 关联键数据类型不匹配 - 受count列null值影响 - Hive版本问题,在某些版本中,左连可能导致右表为null - 数据倾斜 并在文末附属了`Hive SQL常用参数设置`的说明。
Hive关联时丢失数据问题和常用的Hive SQL参数设置
|
SQL 分布式计算 关系型数据库
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
Hadoop-13-Hive 启动Hive 修改启动参数命令行启动测试 几句简单的HQL了解Hive
310 2
|
SQL 分布式计算 资源调度
一文看懂 Hive 优化大全(参数配置、语法优化)
以下是对提供的内容的摘要,总长度为240个字符: 在Hadoop集群中,服务器环境包括3台机器,分别运行不同的服务,如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化,如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数,以及Map-Side聚合优化、Map Join和Bucket Map Join。
987 0
|
SQL Java Shell
Hive【非交互式使用、三种参数配置方式】
Hive【非交互式使用、三种参数配置方式】
|
SQL 存储 分布式计算
大数据Hive参数配置
大数据Hive参数配置
405 0
|
SQL 分布式计算 负载均衡
如何从语法与参数层面对Hive进行调优
作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如电商、金融等行业。Hive在企业云计算平台发挥的作用和影响愈来愈大。因此,如何优化提速已经显得至关重要。
|
SQL 负载均衡 Java
【Hive】(十九)Hive 常用参数优化汇总
【Hive】(十九)Hive 常用参数优化汇总
536 0
|
SQL 分布式计算 HIVE
Hive----优化参数
优化参数
506 0
|
SQL 分布式计算 负载均衡
hive 参数设置大全
hive 参数设置大全