开发者社区> 问答> 正文

处理 Spark Streaming 小文件的典型方法的增加 batch 大小是什么意思?

处理 Spark Streaming 小文件的典型方法的增加 batch 大小是什么意思?

展开
收起
游客ahv54x37wvm7u 2021-12-13 20:08:59 933 0
1 条回答
写回答
取消 提交回答
  • 这种方法很容易理解,batch 越大,从外部接收的 event 就越多,内存积累的数据也就越多,那么输出的文件数也就会变少,比如上边的时间从10s增加为100s,那么一个小时的文件数量就会减少到1152个。但别高兴太早,实时业务能等那么久吗,本来人家10s看到结果更新一次,现在要等快两分钟,是人都会骂娘。所以这种方法适用的场景是消息实时到达,但不想挤压在一起处理,因为挤压在一起处理的话,批处理任务在干等,这时就可以采用这种方法。

    2021-12-13 20:09:11
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载