开发者社区> 问答> 正文

Spark程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

Spark程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

展开
收起
芯在这 2021-12-11 22:28:55 644 0
1 条回答
写回答
取消 提交回答
  • 1)因为输入数据有很多task,尤其是有很多小文件的时候,有多少个输入block就会有多少个task启动;

    2)spark中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。

    3)参数可以通过spark_home/conf/spark-default.conf配置文件设置:spark.sql.shuffle.partitions 50 spark.default.parallelism 10第一个是针对spark sql的task数量第二个是非spark sql程序设置生效

    2021-12-11 22:29:09
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载