备案控制台

开发者社区问答正文

MaxCompute SQL中避免一些消耗资源的操作有哪些？

MaxCompute SQL中避免一些消耗资源的操作有哪些？

展开

收起

游客k7rjnht6hbtk6 2021-12-08 11:48:54 467 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客daliwbfb2wo66

1.少用distinct，容易触发数据倾斜

2.count（distinct）处理的时间会很长可以转换成count（）+ group by。因为如果原先只用count(distinct)来处理表的数据，只会开启一个reduce任务来完成所有的计算，而改成count/sum + group by后，除了count/sum会开启一个reduce计算之外，group by也会单独开启另一个reduce来计算，因此数据量大时可以明显提升查询速度。

3.尽量避免Order by，order by会触发全局排序，只能单点运行，效率低，如果业务允许，可以改成distribute by + sort by

4.将full outer join 改为left outer join + union all 并对小表使用上mapjoin。

5.多个表join时，join顺序很重要，优先选择join结果输出小的表先关联，能有效减少中间数据量，节省IO和计算资源。

6.读取相同源表时可以合并成一条sql，系统会优化只读取一次。

2021-12-08 11:49:39

赞同展开评论

问答分类：

SQL 分布式计算 MaxCompute 云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute sql maxcompute SQL 云原生大数据计算服务 MaxCompute资源云原生大数据计算服务 MaxCompute消耗 SQL资源

问答地址：

开发者社区 > 大数据 > 问答

相关问答

大数据计算MaxCompute这里的911除以27分钟，就是任务消耗的core，大概33core对吗

83

1

0

大数据计算MaxCompute这个能不能这么理解，UDF，包在apply里面，就能使用集群计算资源？

135

1

0

dataworks的SQL如何查询使用独享资源？

101

0

0

大数据计算MaxCompute这里资源变成这样了，哪里有问题？

64

1

0

我在dataworks里面跑一条maxcompute的sql有地方可以设置这条sql要用多少资源吗？

119

1

0

dataworks 跑一个mc的sql任务，我怎么看这个sql用了多少资源，我可以配置用多少资源吗？

85

1

0

DataWorks整库离线同步mysql->maxCompute，54张表，这个资源组能支撑的住吗？

121

1

0

在dataworks执行sql语句为什么需要“正在等待在云端的gateway资源”？

203

13

0

在哪里可以查看指定时间大数据计算MaxCompute CU消耗情况？

82

1

0

DataWorks数据计算 mc sql，我想这个任务分配少点资源，独享计算资源的话，怎么设置？

132

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

PolarDB这个PXD部署这个端口可以指定吗？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

相关文章

MaxCompute SQL AI 超轻体验

MaxCompute SQL AI 超轻体验：

告别代码焦虑：MaxCompute SQL AI 让你的数据“开口说话”

只靠国产算力与开源数据，端侧模型预训练行不行？我们做到了全流程开源

分析用户评论正面性

还有其他疑问?