文档备案控制台

开发者社区数据库文章正文

hive join

2017-11-13 1165

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

hive0.11之前，默认的join方式是reduce端join，即shuffle join(hive.auto.convert.join默认为false),其原理是map的输出数据通过hash进行partition，然后shuffle至对应的reduce端,执行join.如果join key分布不均匀，则会造成一定的数据倾斜，比较明显的现象就是某一个reduce会一直运行在99%，在join运行完毕后，可以通过job的counter看到，reduce处理的数据量相差很大。

join中还有一个方式是map join，即在map 端进行join，其原理是broadcast join，即把小表作为一个完整的驱动表来进行join操作。这种方式比较适合表中有一个小表的情况（比如过比较大，可能会出现oom的情况），hive是rbo的方法来执行操作的，所以需要把小表放在前面，不过也可以手动指定hint,比如/*+ mapjoin(a)*/。

hive 0.11之后，在表的大小符合设置时（hive.auto.convert.join.noconditionaltask=true ,hive.auto.convert.join.noconditionaltask.size=10000,hive.mapjoin.smalltable.filesize=25000000），默认会把join转换为map join（认 hive.ignore.mapjoin.hint为true，hive.auto.convert.join为true）,不过hive0.11的map join bug比较多，可以通过在默认关闭map join convert,在需要时再设置hint：
hive.auto.convert.join=false

hive.ignore.mapjoin.hint=false.

还有另外的一些join方式，以后再说。。。

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1376183，如需转载请自行联系原作者

文章标签：

SQL

HIVE

关键词：

Hive join

科技小先锋

目录

相关文章

阿甘兄

|

SQL 缓存分布式计算

54 Hive的Join操作

54 Hive的Join操作

阿甘兄

541 0 0

顾翔

|

SQL 分布式计算 JavaScript

Hive的JOIN连接

Hive的JOIN连接

顾翔

388 5 5

萤火AI百宝箱

|

SQL HIVE

hive：条件查询、join关联查询、分组聚合、子查询

hive：条件查询、join关联查询、分组聚合、子查询

萤火AI百宝箱

973 0 0

hive：条件查询、join关联查询、分组聚合、子查询

阿里云实时计算Flink

|

SQL 消息中间件监控

实战：Flink 1.12 维表 Join Hive 最新分区功能体验

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求，其中 Hive 表是分区表，业务上需要关联上 Hive 最新分区的数据。上周 Flink 1.12 发布了，刚好支撑了这种业务场景，我也将 1.12 版本部署后做了一个线上需求并上线。对比之前生产环境中实现方案，最新分区直接作为时态表提升了很多开发效率，在这里做一些小的分享。

阿里云实时计算Flink

3214 0 0

实战：Flink 1.12 维表 Join Hive 最新分区功能体验

晓之以理的喵~~

|

SQL HIVE

Hive中的in、exists和left semi join

Hive中的in、exists和left semi join

晓之以理的喵~~

1991 0 1

Hive中的in、exists和left semi join

赵广陆

|

SQL 存储大数据

大数据Hive Join连接查询

大数据Hive Join连接查询

赵广陆

1032 0 0

青夜之衫

|

SQL 分布式计算大数据

[Hadoop大数据]——Hive连接JOIN用例详解

青夜之衫

1367 0 0

科技小先锋

|

SQL HIVE 关系型数据库

hive中join的on和where

科技小先锋

1583 0 0

长征2号

|

SQL HIVE

HIVE中join、semi join、outer join举例详解

长征2号

1684 0 0

晴天哥

|

SQL HIVE 测试技术

Hive连接JOIN用例详解（转载）

转自： https://my.oschina.net/iamchenli/blog/845850 http://www.cnblogs.com/xing901022/p/5804836.html

晴天哥

927 0 0

热门文章

最新文章

hive中将单行拆分成多行总结

Hive电商数仓实战

Hive SQL优化思路

Atlas 2.1.0 实践（3）—— Atlas集成HIve

hive：建库建表、表分区、内部表外部表、数据导入导出

Hive教程（07）- Hive自定义用户名密码验证(已开源）

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

DataGrip连接Hive执行DDL操作报错：「FAILED: ParseException line 1:5 cannot recognize input near 'show' 'indexes' 'on' in ddl statement」

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

大数据Hive多字节分隔符

网易云信 x Doris：降本70%、提速11倍，统一 ES/InfluxDB/Hive 多技术栈的落地实践

大数据新视界 --大数据大厂之Hive与大数据融合：构建强大数据仓库实战指南

Hive的基础操作指南

分布式存储数据恢复—hbase和hive数据库数据恢复案例

【YashanDB知识库】DataX迁移Hive到崖山分布式

【YashanDB知识库】Hive 命令工具insert崖山数据库报错

【YashanDB 知识库】Hive 命令工具 insert 崖山数据库报错

【YashanDB知识库】hive初始化崖山报错YAS-04209

【YashanDB知识库】hive初始化崖山报错YAS-04209

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！