文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

一个简单的 join 的例子，目的是获取 60 岁以上用户花费大于 1000 的详细信息，由于年纪和

已解决

一个简单的 join 的例子，目的是获取 60 岁以上用户花费大于 1000 的详细信息，由于年纪和花费在两张表中，所以此时需要做一次 join。一般来说 join 有哪两种实现方式？

展开

收起

游客lmkkns5ck6auu 2022-08-10 10:46:43 514 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

一是 Sorted Merge Join：也就是对于 a 和 b 两个子句执行后的数据按照 join key (userid) 进行分区，然后在下游节点按照相同的 key 进行Merge Join 操作，实现 Merge Join 需要对两张表都要做 shuffle 操作——也就是进行一次数据交换，特别的如果有数据倾斜（例如某个 userid 对应的交易记录特别多），这时候 MergeJoin 过程就会出现长尾，影响执行效率；

二是 Map join (Hash join) 的方式：上述 sql 中如果 60 岁以上的用户信息较少，数据可以放到一个计算节点的内存中，那对于这个超小表可以不做 shuffle，而是直接将其全量数据 broadcast 到每个处理大表的分布式计算节点上，大表不用进行 shuffle 操作，通过在内存中直接建立 hash 表，完成 join 操作，由此可见 map join 优化能大量减少 (大表) shuffle 同时避免数据倾斜，能提升作业性能。但是如果选择了 map join 的优化，执行过程中发现小表数据量超过了内存限制（大于 60 岁的用户很多），这个时候 query 执行就会由于 oom 而失败，只能重新执行。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 17:46:14

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

92900

50

0

this xml file does not appear to have any style in

61446

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

142254

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1629

1

0

#支付宝授权提示请在支付宝客户端打开链接

24983

19

0

阿里云怎样设置二级域名以及域名解析？

66944

14

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

284844

11

0

基础语言百问-Python

69758

30

0

C语言中default使用注意事项是什么？

1657

1

0

搭建dnf私服需要大概啥配置的

10473

2

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347743

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

MaxCompute SQL AI 实操：业务员外呼备注有效性判断

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

金融行情系统中，API 接入常见的 5 个工程问题

#Nginx教程 Nginx作为目前最流行的高性能Web服务器和反向代理服务器，凭借其高并发、低内存消耗的特点，被广泛应用于各类生产环境。本文将从零开始，带你快速掌握Nginx的核心配置与实战技巧。

Spark SQL 函数分类导航

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

大数据计算MaxCompute作业运维排序报错，如何解决？

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

优酷背后的大数据秘密

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

展开全部

还有其他疑问?