备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

一个简单的 join 的例子，目的是获取 60 岁以上用户花费大于 1000 的详细信息，由于年纪和

已解决

一个简单的 join 的例子，目的是获取 60 岁以上用户花费大于 1000 的详细信息，由于年纪和花费在两张表中，所以此时需要做一次 join。一般来说 join 有哪两种实现方式？

展开

收起

游客lmkkns5ck6auu 2022-08-10 10:46:43 356 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

一是 Sorted Merge Join：也就是对于 a 和 b 两个子句执行后的数据按照 join key (userid) 进行分区，然后在下游节点按照相同的 key 进行Merge Join 操作，实现 Merge Join 需要对两张表都要做 shuffle 操作——也就是进行一次数据交换，特别的如果有数据倾斜（例如某个 userid 对应的交易记录特别多），这时候 MergeJoin 过程就会出现长尾，影响执行效率；

二是 Map join (Hash join) 的方式：上述 sql 中如果 60 岁以上的用户信息较少，数据可以放到一个计算节点的内存中，那对于这个超小表可以不做 shuffle，而是直接将其全量数据 broadcast 到每个处理大表的分布式计算节点上，大表不用进行 shuffle 操作，通过在内存中直接建立 hash 表，完成 join 操作，由此可见 map join 优化能大量减少 (大表) shuffle 同时避免数据倾斜，能提升作业性能。但是如果选择了 map join 的优化，执行过程中发现小表数据量超过了内存限制（大于 60 岁的用户很多），这个时候 query 执行就会由于 oom 而失败，只能重新执行。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 17:46:14

赞同展开评论打赏

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

每来一条商品记录，我都想要统计它前30秒的数量，这个要怎么做

371

1

0

信息超载中的少即是多的效果是什么？

570

1

0

信息超载中的多即是少的效果是什么？

533

1

0

你好，adb分组group by统计@，查询日期范围增加，时而查出结果，时而查不出结果，什么原因？

350

0

0

我想查所有表记录数。有地方可查吗除了我自己去count(*)

381

1

0

这样创建的表数据集的表没有按照操作时间倒序，是因为什么呢？

3329

1

0

有没有基线那种压测呀，举个例子，由于历史原因，业务上跑的机器数量50台，但是实际上30台就可以搞定，

467

1

0

元组数目对于阅读性的影响？

959

1

0

能举一些例子来介绍下find按时间查找的常规用法吗？

491

1

0

时间范围查询如何理解？

570

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

MaxCompute中执行SQL报错ODPS-0130071

大数据计算MaxCompute钉钉机器人发报警webhook调用量到上限了，这个怎么处理？

大数据知识图谱包括哪些内容？

大数据计算MaxCompute odps怎么查询所建所有表的更新频率？

maxcomputer 和 dataworks 有什么区别？

大数据计算MaxCompute如果一个字段超过8mb，mc有办法存储吗？

Maxcompute中如何处理expect equality expression (i.e., o

大数据计算MaxCompute中如果说我这边的程序接收到用户上传文件的请求，应该调用哪个API接口？

Maxcompute中如何处理the number of input partition colum

MaxCompute整个空间查询都查不了，这是什么原因？

展开全部

阿里云开源离线同步工具DataX3.0介绍

盘古：阿里云飞天分布式存储系统设计深度解析

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

优酷背后的大数据秘密

使用 odps-jdbc 接入 ODPS，不再从零开始

品《阿里巴巴大数据实践-大数据之路》一书（上）

干货：解码OneData，阿里的数仓之路。

阿里数据仓库实践分享

【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute（原ODPS）的N种方式

展开全部

相关电子书

更多

4个迭代，从批量交...1573957773.pdf 立即下载

十分钟上线-使用函数计算构建支付宝小程序服务 立即下载

低代码开发师（初级）实战教程 立即下载

相关实验场景

更多