SparkStreaming 用于流式数据的处理,是一个准实时(延迟:秒,分钟级别),微批次(时间)的数据处理框架。
在 SparkStreaming 中,数据处理是按批进行的,而数据采集是逐条进行的。因此在 SparkStreaming 中会先设置好批处理间隔,当超过批处理间隔的时候就会把采集到的数据汇总起来作为一批数据进行处理。
因为来一条处理一条太浪费资源,所以 sparkStreaming 做不到流式,但批量的话,又成了离线,所以 sparkStreaming 介于流式和批量之间,做微批次,就是屯几秒的数据再进行处理。