开发者社区> 问答> 正文

Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?

展开
收起
茶什i 2019-10-28 16:11:39 1748 0
1 条回答
写回答
取消 提交回答
  • 答:1)因为输入数据有很多task,尤其是有很多小文件的时候,有多少个输入 block就会有多少个task启动;2)spark中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。3)参数可以通过spark_home/conf/spark-default.conf配置文件设置: spark.sql.shuffle.partitions 50 spark.default.parallelism 10 第一个是针对spark sql的task数量 第二个是非spark sql程序设置生效

    2019-10-28 16:31:45
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载