开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Sparkstreaming 介绍-特点 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/692/detail/12128
Sparkstreaming 介绍-特点
内容介绍:
一、批量计算和流计算的区别
二、Sparkstreaming 的特点
一、批量计算和流计算的区别
批量计算也叫做离线计算,是针对一整个数据集进行计算
流计算是针对一条数据来进行计算,流计算从结构和定义上是来一部分数据处理一部分数据,但 Sparkstreaming 属于流计算,也叫做小批量
二、Sparkstreaming 的特点
1. Sparkstreaming 是 spark core api 的扩展
说明:
Spark streaming 代表 1.0 时代的处理方案,2.0 有更好的方案,具有类似 rdd 的api 易于使用并可和现有系统共用相似代码。
Sparkstreaming 可以在流上使用基于 spark 的机器学习和计算,是一个一战式的平台,以往进行机器学习时常常必需要计算数据集,而无法进行流的计算,所以通过 Sparkstreaming 经过配合完成相关计算。
2.Sparkstreaming 具有很好的整合性
Sparkstreaming 可以从 kafka,flume TCP 灯光流和队列中获取数据。
Sparkstreaming 可以将处理的数据写入文件系统,需要自身进行相关操作,可能不太方便,可灵活落地于常见数据库中。
3.Sparkstreaming 是微批次处理模型
微批次处理的方式不会长时间运行的 oprator
所以更易于容错设计为批次模型能够避免运行过慢的服务,实行推测执行。
此外注意:
Sparkstreaming 并不是来一条数据进行一条数据是在一秒或者两秒的时间节点数据整合起来进行处理,所以说 Sparkstreaming 并不是实时的流而是一个小批量一个小批量的去处理.