文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

在大数据计算MaxCompute中，这个hash join 内存超了的问题是什么场景产生的？

在大数据计算MaxCompute中，这个hash join 内存超了的问题是什么场景产生的？
异常的logview：https://logview.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=ytdw&i=20240812164210930gesw8j3pgtb&token=Nzd6VW5oWDdSR1Fhd2loNUxiNUk0OEdRUlNjPSxPRFBTX09CTzpwNF8yODk3NDczNTU3MDU2OTE5MDcsMTcyNjA3MjkzMSx7IlN0YXRlbWVudCI6W3siQWN0aW9uIjpbIm9kcHM6UmVhZCJdLCJFZmZlY3QiOiJBbGxvdyIsIlJlc291cmNlIjpbImFjczpvZHBzOio6cHJvamVjdHMveXRkdy9pbnN0YW5jZXMvMjAyNDA4MTIxNjQyMTA5MzBnZXN3OGozcGd0YiJdfV0sIlZlcnNpb24iOiIxIn0=
表成功的log view
https://logview.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=ytdw&i=20240813060410932g4fivz1f19g&token=UDhpRy8va2c3STZTWnB0eUpYS3lqblBhRVB3PSxPRFBTX09CTzpwNF8yODk3NDczNTU3MDU2OTE5MDcsMTcyNjEyMTA1MSx7IlN0YXRlbWVudCI6W3siQWN0aW9uIjpbIm9kcHM6UmVhZCJdLCJFZmZlY3QiOiJBbGxvdyIsIlJlc291cmNlIjpbImFjczpvZHBzOio6cHJvamVjdHMveXRkdy9pbnN0YW5jZXMvMjAyNDA4MTMwNjA0MTA5MzJnNGZpdnoxZjE5ZyJdfV0sIlZlcnNpb24iOiIxIn0=

展开

收起

我睡觉不困 2024-08-16 13:53:22 283 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

我吃饭不饿

这个问题是这样，产品有auto mapjoin的机制（跟手动指定的mapjoin不一样），因为没有自动分配大小导致oom了，这种oom的预期会回退到merge join上，但是这个没回退；---- 这个问题是已知问题，在优化了已经；所以目前出于性能考虑，建议调大mapjoin的内存（odps.sql.mapjoin.memory.max），让automapjoin不要报错；

后来你把报错表手动指定了一下mapjoin，看起来是和auto mapjoin的大小表互换了一下，执行计划重新生成了，就没走到上边说的问题上。此回答整理自钉群“MaxCompute开发者社区2群”

2024-08-16 15:20:42

赞同 4 展开评论
小Lee

MaxCompute中的Hash Join操作在处理大数据时，如果Join的两个表数据量过大或者一个表的数据分布不均，可能导致内存消耗超过预期。异常日志显示内存溢出，可能是因为Join过程中缓存的数据超过了可用内存。您可以通过优化Join条件、减少Join数据量，或者调整作业的内存资源分配来解决。参考链接标题

2024-08-16 14:06:54

赞同 3 展开评论

问答分类：

分布式计算 MaxCompute 大数据云原生大数据计算服务 MaxCompute

问答标签：

内存场景云原生大数据计算服务 MaxCompute场景云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute内存

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute 4张表做left join，为什么数据越关联越少？

186

1

0

大数据计算MaxCompute在执行distmap join时，频繁报错ODPS，怎么解决？

303

2

0

把mc的外表映射到hologres里面，然后往另外一张holo表写数据，报内存不足，有啥好办法？

305

1

0

在大数据计算MaxCompute中，内存限制为8g，能够突破吗？

157

1

0

ADB的自研向量化执行引擎是如何提升大数据量分析场景的性能的？

176

1

0

大数据计算MaxCompute 预留弹性CU 什么场景会自动用到，会一直是收费吗？

187

1

0

大佬，oracle单表增量同步时候源库服务器额外占用内存近2g，这不正常吧

692

1

0

服务器硬件中的内存宽带是指什么呢？

1057

1

0

TSDB查询性能以及服务器内存

1078

0

0

是否可以升级自定义镜像开通的云服务器ECS的CPU、内存、带宽、硬盘等？

1363

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

Dataphin功能Tips系列（92）如何方便快速地通过SQL取数实现定制化数据同步

Java ZGC：亚毫秒级停顿的低延迟GC 革命性底层设计

阿里云第九代ECS云服务器（c9i、g9i、r9i）CPU采用Intel® Xeon® Granite Rapids处理器，主频3.2 GHz

景区日接待量大：基于阿里云AI技术，智能语音机器人如何实现高峰期咨询自动分流与问题预判？

别再盲目上 Serverless 了：聊聊 Serverless 数据分析的真相、成本和适用场景

热门讨论

热门文章

请问下大数据计算MaxCompute dataworks是否有全局变量？

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

DataWorks 智能数据建模-业务痛点有哪些？

请教个大数据计算MaxCompute问题，有什么方法可以解决这个问题呢?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

我看MaxCompute能where查单个分区，不加where查分区表所有分区条数不行，有啥办法查询

如何查询MaxCompute某个表的分区数有多少呢？

MaxCompute有没有参数突破呢？

请问MaxCompute和DataWorks有啥区别？

阿里云和腾讯云服务器哪个好！

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

优酷背后的大数据秘密

吴刚专访--大数据和 MaxCompute 技术和故事

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

大数据阿里云产品的简单介绍理解

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

展开全部

还有其他疑问?