文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

map join有何局限？

已解决

map join有何局限？

展开

收起

游客lmkkns5ck6auu 2022-08-10 11:19:24 609 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

其局限性也同样显著：如果"超小表"实际不小，无法fit进单机内存，那么在试图建立内存中的 hash 表时就会因为 OOM 而导致整个分布式作业的失败，而需要重跑。所以虽然 map join 在正确使用时，可以带来较大的性能提升，但实际上优化器在产生 map join 的 plan 时需要偏保守，很多情况下需要用户显式的提供 map join hint 来产生这种优化。此外不管是用户还是优化器的选择，对于非源表的输入都无法做很好的判断，因为中间数据的大小往往需要在作业运行过程中才能准确得知。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:21:54

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答标签：

Map join

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

在何种情况下建议使用Distributed Map Join？

219

1

0

Distributed Map Join是如何工作的？

200

1

0

大数据计算MaxCompute DataFrame在调用完join后调用map_reduce会报?

237

1

0

map join是指什么？

1270

1

0

Join倾斜优化需要读取范围Map，例如读Map1-2的数据，常规的做法是哪两种？

467

1

0

如何手写一个map端join的案例？

521

1

0

什么是map但join？

552

1

0

Map Join函数不支持什么类型的使用？

743

1

0

map join和common join有什么必要的联系吗？

744

1

0

可以使用什么方式去实现 Map Join ？

674

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347743

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

金融行情系统中，API 接入常见的 5 个工程问题

#Nginx教程 Nginx作为目前最流行的高性能Web服务器和反向代理服务器，凭借其高并发、低内存消耗的特点，被广泛应用于各类生产环境。本文将从零开始，带你快速掌握Nginx的核心配置与实战技巧。

Spark SQL 函数分类导航

大模型长文本处理实践：基于分段提取与结果合并生成结构化摘要

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

在大数据计算MaxCompute有碰到不同的字段顺序，存储大小差很多的例子吗？

大数据计算MaxCompute存储按量付费 100T一天要400元有没有包月的?

请问一下大数据计算MaxCompute，支持的records数据类型是什么？

问一下我现在使用大数据计算MaxCompute，容量不足，申请了存储空间，发给我一个tenanid?

大数据计算MaxCompute的trunc函数怎么不能用？

在导航栏无法定位到相关文件，在运维中心点击编辑节点，可以定位，但无法保存提交，请问是什么原因导致

为什么大数据计算MaxCompute执行函数，一直无法出结果？即使是内置的sum函数都出不来结果。

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

优酷背后的大数据秘密

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

品《阿里巴巴大数据实践-大数据之路》一书（上）

展开全部

还有其他疑问?