文档备案控制台

开发者社区问答正文

Hive 的 join 有几种方式，怎么实现 join 的？

Hive 的 join 有几种方式，怎么实现 join 的？

展开

收起

芯在这 2021-12-06 00:09:23 829 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

3 种 join 方式：

1）在 reduce 端进行 join，最常用的 join 方式。

Map端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。

reduce端的主要工作：在reduce 端以连接字段作为key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开，最后进行笛卡尔。

2）在 map 端进行 join，使用场景：一张表十分小、一张表很大：

在提交作业的时候先将小表文件放到该作业的 DistributedCache 中，然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表，看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录，如果有则直接输出结果

3）SemiJoin，semijoin 就是左边连接是 reducejoin 的一种变种，在 map 端过滤掉一些数

据，在网络传输过程中，只传输参与连接的数据，减少了 shuffle的网络传输量，其他和 reduce 的思想是一样的。

2021-12-06 00:09:43

赞同展开评论

问答分类：

SQL HIVE

问答标签：

Hive join

问答地址：

开发者社区 > 数据库 > 问答

相关问答

在Flink中将流表数据与Hive维表进行JOIN时，数据是如何被分配到对应subtask的？

222

1

0

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

283

2

0

为什么通过spark 写 hudi 同步 hive 设置的主键是通过join写过来的

550

1

0

loop up join 支持hive吗？

353

1

0

有用过flink streaming去lookup join一个一亿条数据的hive维表的经验的吗？

693

1

0

Flink每天有很多本地excel文件，每天想放到hive里面各种join，有什么办法？

432

1

0

hive当中join 连接怎么做？

502

1

0

kafka流与hive表join问题

840

1

0

用flink 1.11.2 查询hive表自关联(self inner join) 结果不正确

1245

1

0

如果不指定MapJoin或不符合MapJoin的条件，Hive解析器会将Join操作进行怎样的转换？

527

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

总是提示您已达到配额使用上限，请升级订阅计划，以获得更多使用资源。问题反馈。但已经购买了资源

新人遇到两个问题，关于使用和白嫖

Qoder的搜索/索引进程rg.exe占满CPU

秒悟Meoo官网登录入口在哪？

相关文章

Bidfans接口参数精准校验体系杜绝非法请求风险

数据目录和数据字典有什么区别？一文讲清

执行计划进阶：读懂filtered和rows的组合，精准判断索引设计质量

API 接口慢调用根因定位：从 TCP 建连到数据库 IO 的全栈排查实战

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

还有其他疑问?