文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute为什么 odps spark 任务运行那么慢,？

大数据计算MaxCompute为什么 odps spark 任务运行那么慢, 正常sql在 odps sql 运行只需要十几秒, 在 spark 要四五分钟, 而且形同数据量 spark 写入表里的存储大小, 是 sql 写的 10倍大？

展开

收起

真的很搞笑 2023-12-24 14:13:03 311 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

我理解这个不能这么比，底层运行机制、环境都不一样。SQL正常来讲是比较快，这是正常的。MaxComputeSQL的性能本身是要比spark快的，因为存储的问题。可以看一下1029和1030的对比。命令：desc extended sale_detail partition (sale_date='2013');
，此回答整理自钉群“MaxCompute开发者社区2群”

2023-12-25 03:31:58

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
这个问题可能有多种原因，以下是一些可能导致 ODPS Spark 任务运行缓慢的原因：
1. 数据类型转换：在将数据从 SQL 转换为 Spark 时，可能会发生数据类型转换。这可能会导致性能下降，因为 Spark 需要对数据进行额外的处理。
2. 分区和重分布：Spark 需要将数据分成多个分区进行处理，并且可能需要在不同的节点之间重新分配数据。这可能会导致性能下降，特别是在处理大型数据集时。
3. 缓存和持久化：Spark 使用缓存和持久化来提高性能，但这也可能会导致性能下降。如果缓存或持久化的数据量过大，或者缓存或持久化的级别过高，都可能导致性能下降。
4. 网络传输：如果 Spark 需要从远程节点获取数据，那么网络传输可能会成为瓶颈。在这种情况下，可以考虑使用本地模式或将数据复制到本地节点上进行处理。
5. 其他因素：还有其他一些因素可能会导致 Spark 任务运行缓慢，例如硬件配置、软件版本等。因此，建议仔细检查任务的配置和日志，以确定问题的根本原因。
2023-12-24 19:04:33

赞同展开评论

问答分类：

分布式计算 Spark MaxCompute SQL 大数据存储云原生大数据计算服务 MaxCompute

问答标签：

apache spark任务云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute任务云原生大数据计算服务 MaxCompute spark

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute Spark中ak信息的配置？有文档么？

208

1

0

大数据计算MaxCompute Spark节点，是不是不可以跨数据库读写？

182

1

0

大数据计算MaxCompute odps-spark任务可以帮忙看下报错吗?

147

1

0

大数据计算MaxCompute on spark 可以在硅谷节点使用吗？

176

1

0

大数据计算MaxCompute 想申请加到spark公网访问白名单，可以从哪边申请？

222

1

0

大数据计算MaxCompute的odps-spark-datasource版本在哪查看？

196

1

0

大数据计算MaxCompute如何进行 spark 3.X 快速开发呢？是要用模版开发么？

188

1

0

大数据计算MaxCompute的spark on mc，要在dw上配置的话，里面的参数都有哪些呢？

156

1

0

有本地spark 读取大数据计算MaxCompute读取成功的吗？

206

1

0

spark 读取大数据计算MaxCompute 本地需要依赖什么包？

168

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

Quick BI使用案例29：MaxCompute含JSON字段表同步失败解决方案

制造业ERP系统TDE透明加密实战：等保三级合规+防勒索攻击

政务云密钥管理系统落地实战：等保三级合规+全链路密钥生命周期管理

TK 矩阵多店铺数据隔离存储架构跨境海量订单素材低成本分层存储方案

煤炉(Mercari)爬虫踩坑实录：动态Token逆向、频率封禁、数据脏数据清洗方案

相关解决方案

更多

海量异构数据预处理破局之道

GLM-5.2：长任务时代开源旗舰模型

Agent 赋能企业数据治理

基于 Spark 和 PyTorch 的模型训练方案

AI 时代的分布式多模态数据处理实践

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

请问下大数据计算MaxCompute dataworks是否有全局变量？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

大数据计算MaxCompute作业运维排序报错，如何解决？

大数据计算MaxCompute这个海外版什么时候可以体验到4.0啊?

展开全部

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

优酷背后的大数据秘密

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

品《阿里巴巴大数据实践-大数据之路》一书（上）

干货：解码OneData，阿里的数仓之路。

品《阿里巴巴大数据实践-大数据之路》一书(下)

大数据阿里云产品的简单介绍理解

展开全部

还有其他疑问?