文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute为什么 odps spark 任务运行那么慢,？

大数据计算MaxCompute为什么 odps spark 任务运行那么慢, 正常sql在 odps sql 运行只需要十几秒, 在 spark 要四五分钟, 而且形同数据量 spark 写入表里的存储大小, 是 sql 写的 10倍大？

展开

收起

真的很搞笑 2023-12-24 14:13:03 321 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

我理解这个不能这么比，底层运行机制、环境都不一样。SQL正常来讲是比较快，这是正常的。MaxComputeSQL的性能本身是要比spark快的，因为存储的问题。可以看一下1029和1030的对比。命令：desc extended sale_detail partition (sale_date='2013');
，此回答整理自钉群“MaxCompute开发者社区2群”

2023-12-25 03:31:58

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
这个问题可能有多种原因，以下是一些可能导致 ODPS Spark 任务运行缓慢的原因：
1. 数据类型转换：在将数据从 SQL 转换为 Spark 时，可能会发生数据类型转换。这可能会导致性能下降，因为 Spark 需要对数据进行额外的处理。
2. 分区和重分布：Spark 需要将数据分成多个分区进行处理，并且可能需要在不同的节点之间重新分配数据。这可能会导致性能下降，特别是在处理大型数据集时。
3. 缓存和持久化：Spark 使用缓存和持久化来提高性能，但这也可能会导致性能下降。如果缓存或持久化的数据量过大，或者缓存或持久化的级别过高，都可能导致性能下降。
4. 网络传输：如果 Spark 需要从远程节点获取数据，那么网络传输可能会成为瓶颈。在这种情况下，可以考虑使用本地模式或将数据复制到本地节点上进行处理。
5. 其他因素：还有其他一些因素可能会导致 Spark 任务运行缓慢，例如硬件配置、软件版本等。因此，建议仔细检查任务的配置和日志，以确定问题的根本原因。
2023-12-24 19:04:33

赞同展开评论

问答分类：

分布式计算 Spark MaxCompute SQL 大数据存储云原生大数据计算服务 MaxCompute

问答标签：

apache spark任务云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute任务云原生大数据计算服务 MaxCompute spark

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

请问大数据计算MaxCompute中有没有类似mysql中这样的设置事务级别的变量的方法？

702

3

0

帮看看大数据计算MaxCompute这是为啥？

188

1

0

大数据计算MaxCompute允许全表扫描，不加分区，怎么设置set语句呢？

286

2

0

请问大数据计算MaxCompute这个报错是什么问题？

295

2

0

大数据计算MaxCompute 看下这个什么原因，是opds没有权限吗？

367

2

0

大数据计算MaxCompute这个报错是啥意思？

462

2

0

在大数据计算MaxCompute中，提示参数不支持，还是白天手动补数据才可以怎么回事？

252

2

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

998

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

1072

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2091

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

大模型幻觉治理：从机理到生产级缓解方案

阿里云 RDS MySQL 降本增效实战：从规格选型到成本优化，月成本降低64%全攻略

数据库性能调优怎么做、性能上不去怎么办：阿里云 RDS MySQL 性能优化实战指南

Temu店铺搬家实操：30分钟搞定300万1688商品详情数据

视频点播上传后无法播放？阿里云国际站：转码模板与播放凭证排查指南

相关解决方案

更多

海量异构数据预处理破局之道

GLM-5.2：长任务时代开源旗舰模型

Agent 赋能企业数据治理

基于 Spark 和 PyTorch 的模型训练方案

AI 时代的分布式多模态数据处理实践

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

MaxCompute这个yaml资源在生产环境中无法找到,什么原因？

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute failed：odps-0110999怎么办？

删除，和变动的数据，hive分区要怎么处理呢？

在大数据计算MaxCompute怎么将字符串日期快速转成timestamp类型？

大数据计算MaxCompute有没有SQL可以列出项目下已有的外表呢？

dataworks 如何导出maxcomputer的数据为文本？

展开全部

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

【转载】时隔一年多，我又用起了 Superset

阿里云MaxCompute 2019-5月刊

MaxCompute常见错误汇总（更新ing）

品《阿里巴巴大数据实践-大数据之路》一书(下)

大数据阿里云产品的简单介绍理解

展开全部

还有其他疑问?