开发者社区问答正文

Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？

Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？

展开

收起

芯在这 2021-12-11 22:28:55 704 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

1）因为输入数据有很多task，尤其是有很多小文件的时候，有多少个输入block就会有多少个task启动；

2）spark中有partition的概念，每个partition都会对应一个task，task越多，在处理大规模数据的时候，就会越有效率。不过task并不是越多越好，如果平时测试，或者数据量没有那么大，则没有必要task数量太多。

3）参数可以通过spark_home/conf/spark-default.conf配置文件设置:spark.sql.shuffle.partitions 50 spark.default.parallelism 10第一个是针对spark sql的task数量第二个是非spark sql程序设置生效

2021-12-11 22:29:09

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark程序 apache spark Task apache spark执行 apache spark修改

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

82

0

0

在大数据计算MaxCompute中，云下的spark程序如何才能访问oss外表数据呢？

149

2

0

DataWorks 运行spark节点，程序logger日志无法展示

73

0

0

请问我再dataworks中建了ODPS Spark任务，任务对应的spark程序中调用了我们自己？

128

3

0

Dataworks运行scala-spark程序一直不动？

126

1

0

在表格存储中spark写入ots程序没有报错，但是为什么查询ots的时候，发现没有数据？

135

2

0

MaxCompute中spark程序里查询和处理的数据量有限制吗？

121

3

0

大数据计算MaxCompute在spark程序里面操作表数据，应该一次查询多少条 ?

97

1

0

大数据计算MaxCompute spark 程序里如何访问redis?

103

2

0

大数据计算MaxCompute通过spark程序访问lindorm，连接不成功是什么原因呢？

106

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何用"乐高式开发"实现前后端分离？

阿里云短信服务工程师连我方发送记录只会收阿里云错误码都不知道吗？

调用Dashscope接口时报错

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

我就想把本地的 vm 虚拟机迁移到 ECS，整的这些文档又臭又长，有这精力你录个视频不行吗？

相关文章

Python学习之旅：从基础到实战第三章

零售数据湖的进化之路：滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践

mRMR算法实现特征选择-MATLAB

六、Sqoop 导出

七、Sqoop Job：简化与自动化数据迁移任务及免密执行

还有其他疑问?