开发者社区 问答 正文

对于spark处理小文件,有没有什么优化方法

我有个问题想请教一下,+对于spark处理小文件,有没有什么优化方法

本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。 https://developer.aliyun.com/article/706511 点击链接欢迎加入感兴趣的技术领域群

展开
收起
茶什i 2019-09-06 15:03:36 2412 分享 版权
2 条回答
写回答
取消 提交回答
  • 通过分区聚合,避免任务过多,导致资源浪费

    2020-03-19 19:48:01
    赞同 展开评论
  • 为了避免启动很多task,每个task又执行时间很短,运行时间比低,可以尝试让每个task处理多个小文件,把每个split包含多少文件数的参数调大。

    2020-03-06 20:39:31
    赞同 展开评论