开发者社区 问答 正文

Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

展开
收起
茶什i 2019-10-28 16:11:39 1796 分享 版权
1 条回答
写回答
取消 提交回答
  • 答:1)因为输入数据有很多task,尤其是有很多小文件的时候,有多少个输入 block就会有多少个task启动;2)spark中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。3)参数可以通过spark_home/conf/spark-default.conf配置文件设置: spark.sql.shuffle.partitions 50 spark.default.parallelism 10 第一个是针对spark sql的task数量 第二个是非spark sql程序设置生效

    2019-10-28 16:31:45
    赞同 展开评论
问答地址: