开发者社区> 问答> 正文

对于spark处理小文件,有没有什么优化方法

我有个问题想请教一下,+对于spark处理小文件,有没有什么优化方法

本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。 https://developer.aliyun.com/article/706511 点击链接欢迎加入感兴趣的技术领域群

展开
收起
茶什i 2019-09-06 15:03:36 2324 0
2 条回答
写回答
取消 提交回答
  • 通过分区聚合,避免任务过多,导致资源浪费

    2020-03-19 19:48:01
    赞同 展开评论 打赏
  • 为了避免启动很多task,每个task又执行时间很短,运行时间比低,可以尝试让每个task处理多个小文件,把每个split包含多少文件数的参数调大。

    2020-03-06 20:39:31
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载