备案控制台

开发者社区数据库文章正文

hive join

2017-11-13 982

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

hive0.11之前，默认的join方式是reduce端join，即shuffle join(hive.auto.convert.join默认为false),其原理是map的输出数据通过hash进行partition，然后shuffle至对应的reduce端,执行join.如果join key分布不均匀，则会造成一定的数据倾斜，比较明显的现象就是某一个reduce会一直运行在99%，在join运行完毕后，可以通过job的counter看到，reduce处理的数据量相差很大。

join中还有一个方式是map join，即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。这种方式比较适合表中有一个小表的情况（比如过比较大，可能会出现oom的情况），hive是rbo的方法来执行操作的，所以需要把小表放在前面，不过也可以手动指定hint,比如/*+ mapjoin(a)*/。

hive 0.11之后，在表的大小符合设置时（hive.auto.convert.join.noconditionaltask=true ,hive.auto.convert.join.noconditionaltask.size=10000,hive.mapjoin.smalltable.filesize=25000000），默认会把join转换为map join（认 hive.ignore.mapjoin.hint为true，hive.auto.convert.join为true）,不过hive0.11的map join bug比较多，可以通过在默认关闭map join convert,在需要时再设置hint：
hive.auto.convert.join=false

hive.ignore.mapjoin.hint=false.

还有另外的一些join方式，以后再说。。。

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1376183，如需转载请自行联系原作者

文章标签：

SQL

HIVE

关键词：

Hive join

科技小先锋

目录

相关文章

阿甘兄

|

8月前

|

SQL 缓存分布式计算

54 Hive的Join操作

54 Hive的Join操作

阿甘兄

74 0 0

赵广陆

|

10月前

|

SQL 存储大数据

大数据Hive Join连接查询

大数据Hive Join连接查询

赵广陆

62 0 0

琦彦

|

SQL HIVE

hive：条件查询、join关联查询、分组聚合、子查询

hive：条件查询、join关联查询、分组聚合、子查询

琦彦

656 0 0

hive：条件查询、join关联查询、分组聚合、子查询

晓之以理的喵~~

|

SQL HIVE

Hive中的in、exists和left semi join

Hive中的in、exists和left semi join

晓之以理的喵~~

498 0 1

Hive中的in、exists和left semi join

阿里云实时计算Flink

|

SQL 消息中间件监控

实战：Flink 1.12 维表 Join Hive 最新分区功能体验

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求，其中 Hive 表是分区表，业务上需要关联上 Hive 最新分区的数据。上周 Flink 1.12 发布了，刚好支撑了这种业务场景，我也将 1.12 版本部署后做了一个线上需求并上线。对比之前生产环境中实现方案，最新分区直接作为时态表提升了很多开发效率，在这里做一些小的分享。

阿里云实时计算Flink

2346 0 0

实战：Flink 1.12 维表 Join Hive 最新分区功能体验

青夜之衫

|

SQL 分布式计算大数据

[Hadoop大数据]——Hive连接JOIN用例详解

青夜之衫

1125 0 0

科技小先锋

|

SQL HIVE 关系型数据库

hive中join的on和where

科技小先锋

1294 0 0

长征2号

|

SQL HIVE

HIVE中join、semi join、outer join举例详解

长征2号

1419 0 0

晴天哥

|

SQL HIVE 测试技术

Hive连接JOIN用例详解（转载）

转自： https://my.oschina.net/iamchenli/blog/845850 http://www.cnblogs.com/xing901022/p/5804836.html

晴天哥

803 0 0

自娱

|

SQL 缓存分布式计算

[Hadoop]Hive r0.9.0中文文档（二）之联表查询Join

自娱

1914 0 0

热门文章

最新文章

白话 uni-app，细说 uni-app 和传统 H5 的区别

Hive架构优点及使用场景

Spring Boot 集成 MyBatis和 SQL Server实践

阿里双11 同款，流量防卫兵 Sentinel go 源码解读

【资料下载】Python 第十讲——xpath元素定位获取及爬虫中使用实例

Hive之数据倾斜的原因和解决方法

原来MaxCompute还能这么玩系列（2）—— 利用HiveServer2 Proxy实现MaxCompute与Hive生态工具的互通

17.4. HiveQL - Hive查询语言

hive0.13用户自建表无权限bug fix

hive导入nginx日志

Hive函数全解——思维导图 + 七种函数类型

Hive UDF UDTF UDAF 自定义函数详解

Hive的查询、数据加载和交换、聚合、排序、优化

Hive详解、配置、数据结构、Hive CLI

Hive精选10道面试题

Hive 拉链表详解及实例

Hive 数仓及数仓设计方案

Hive 优化总结

Hive实战 —— 电商数据分析(全流程详解真实数据)

DataWorks操作报错合集之DataWorks连接Hive数据库时出现连接超时的问题如何解决

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Comparison of Spark SQL with Hive

Hive Bucketing in Apache Spark

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）