开发者社区数据库文章正文

hive优化

2017-11-07 1081

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1、set hive.auto.convert.join=true

设置此参数可以在最大表通过mapper的时候将小表完全放入内存中，从而省略掉常规reduce过程，有时可以减少map过程步骤,启动时执行优化放入 $HOME/.hiverc文件中

用户可以配置小表大小（字节）

hive.mapjoin.smalltable.filesize=25000000

hive对于右外连接和全外链接不支持这个优化

2、set mapred.reduce.tasks=300

限制reduce个数为300，等于-1取消限制，限制reduce的个数可以减少内存的使用，防止内存溢出

本文转自 yntmdr 51CTO博客，原文链接：http://blog.51cto.com/yntmdr/1718614，如需转载请自行联系原作者

文章标签：

SQL

HIVE

关键词：

Hive优化

余二五

赵广陆

7月前

SQL 分布式计算监控

Hive性能优化之计算Job执行优化 2

Hive性能优化之计算Job执行优化

赵广陆

98 1 1

赵广陆

7月前

SQL 存储分布式计算

Hive性能优化之表设计优化1

赵广陆

36 1 1

爱吃糖的范同学

1天前

SQL 存储分布式计算

【Hive】Hive优化有哪些？

【4月更文挑战第16天】【Hive】Hive优化有哪些？

爱吃糖的范同学

35 7 8

诸葛子房

4月前

SQL 分布式计算 Hadoop

Hive SQL 优化

诸葛子房

48 1 1

赵广陆

7月前

SQL 分布式计算资源调度

Hive性能优化之计算Job执行优化 1

Hive性能优化之计算Job执行优化

赵广陆

97 0 0

赵广陆

7月前

SQL 存储分布式计算

Hive性能优化之表设计优化2

赵广陆

52 1 1

osc_06552749

9月前

SQL 分布式数据库 HIVE

Hive 优化

osc_06552749

63 0 0

Maynor

SQL 存储负载均衡

工作常用之Hive 调优【四】HQL 语法优化

列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。当列很多或者数据量很大时，如果 select * 或者不指定分区，全列扫描和全表扫描效率都很低。

Maynor

170 0 0

Maynor

存储 SQL 分布式计算

工作常用之Hive 调优【三】 Explain 查看执行计划及建表优化

在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多，所以我们需要把常常用在 WHERE 语句中的字段指定为表的分区字段。

Maynor

283 0 0

chad_chang

SQL 分布式计算 Hadoop

【Hadoop技术篇】hive的优化，经典面试

1）开启配置：set hive.optimize.bucketmapjoin = true; 2）一个表的bucket数是另一个表bucket数的==整数倍== 3） bucket列 == join列 4）满足map join条件

chad_chang

253 0 0

hive优化

热门文章

最新文章

相关课程

相关电子书

相关实验场景