spark streaming 初始_2 | 学习笔记

简介: 快速学习 spark streaming 初始2

开发者学堂课程【大数据实时计算框架  Spark  快速入门spark streaming初始_2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1720


spark streaming  初始_2


内容简介:

一、spark streaming  介绍

二、具体内容


一、spark streaming  介绍

天猫双十一用的不是   spark steaming   用的是变形,是大数据计算的典型实时应用,春运实时迁徙要把每时每刻春运人流的走向画出来看箭头的粗细。

实时大屏幕的展现,流式计算框架有 storm,storm 是纯的流式计算 trident ,变成了一个微批计算,是 storm 里面高级的 API 。

① spark streaming ,是从批处理变换来的变换成微处理。

② streaming  , samza  ,可以忽略不管 flink  ,是纯的流式计算框架,可以往批处理计算观,任何的批处理都可以改成流处理,一个海量的文本可以一条一条的发送,那么批处理就可以改成流处理。

③spark streaming 的架构,他里面的架构就是 spark core 的架构,流式计算时可以弄成一个微批处理,就是弄成多个批处理,每一个同样是提交 job ,有 driver ,要申请资源,分配到 executor 里面去来计算,然后把task返回到driver里面去,下一个微批处理还是一样的流程,

④ spark streaming 可以介入很多数据源, Kafka , flume , HDFS/S3,kinesis,twitter,spark streaming, 还可以把结果写到很多地方去,因为它本来就说 spark core,HDFS,databases,dashboards, 在这里面直接展现就行,然后spark streaming 会把 input data stream 源源不断的接起来,弄成一个 batches of input data ,弄成一批一批的顺序,按时间进行切割,切割成每一个 RDD ,然后往 spark engine 里面传递,然后进行计算,转化成最终结果的 RDD ,是源源不断跑的程序,在一定的时间开始运行。


二、具体内容

具体怎么实现:

①在 spark core 里面读一个数据源,直接过来是 RDD ,在 spark streaming 里面读一个数据源,过来就是 Dstream。

②一个数据流, Dstream 如果是原数据的话, Dstream 里面的每一个元素,它是,一个个 RDD , RDD 是一个抽象的概念,一个 RDD 是多个组成, RDD 里面的 filter 会把算子应用到 RDD 里面的每一个元素里面去, Dstream 它里面的每一个元素是 RDD ,把每一个算子应用到 RDD 的元素上面去,最终都会落到元素上面去,转化成新的 Dstream ,由新的之前的 RDD 转过来, spark streaming 比较弱,一个真正的流处理不是微批处理, spark streaming 延迟是妙级。

③如果给它打六十分, spark streaming 是在整个 spark 技术站里面的,可以很好的去无缝整合 spark SQl,MLlb, 我的数据读 kafka ,读 akka ,读这些流式数据进来,封装一个 RDD ,这个 RDD 通过数据弄成一个模型也没问题,通过加载一个模型过来,把  RDD  模型传给他,然后进行预测,也可以,RDD  是一个批次一个批次的过来,在整个技术站里面就是满分,可以直接无缝整合。

④ streamingwordcount  第一行来一个  sparkconf  ,不再是javastreamingcontext  ,创建该对象类似于  spark core  中的 javasparkcontext ,类似于  sparkSQL  中的  SQLcontext。

⑤该对象除了接受  sparkconf  对象,还接收一个  batchinterval  参数,就是说,每手机多长时间的数据划分为一个  batch  既  RDD  去执行

⑥ 这里  durations  可以设置分钟,毫秒,秒。

⑦首先创建输入  DStream  ,代表一个数据源比如从  socket  或  Kafka 来持续不断的进入实时数据流。

⑧创建一个监听  socket  数据量, RDD  里面的每一个元素就是一行行的文本。

相关文章
|
20天前
|
分布式计算 Java Apache
Apache Spark Streaming技术深度解析
【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
52 0
|
2月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
40 1
|
2月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
66 3
|
4月前
|
分布式计算 Java Scala
如何处理 Spark Streaming 的异常情况?
【6月更文挑战第16天】如何处理 Spark Streaming 的异常情况?
176 56
|
3月前
|
分布式计算 监控 数据处理
Spark Streaming:解锁实时数据处理的力量
【7月更文挑战第15天】Spark Streaming作为Spark框架的一个重要组成部分,为实时数据处理提供了高效、可扩展的解决方案。通过其微批处理的工作模式和强大的集成性、容错性特性,Spark Streaming能够轻松应对各种复杂的实时数据处理场景。然而,在实际应用中,我们还需要根据具体需求和资源情况进行合理的部署和优化,以确保系统的稳定性和高效性。
|
3月前
|
分布式计算 Apache Spark
|
4月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
30 0
|
5月前
|
分布式计算 关系型数据库 MySQL
Spark编程实验四:Spark Streaming编程
Spark编程实验四:Spark Streaming编程
98 2
|
5月前
|
存储 消息中间件 分布式计算
Spark Streaming
Spark Streaming
57 1
|
5月前
|
分布式计算 大数据 数据处理
【Flink】Flink跟Spark Streaming的区别?
【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别?
下一篇
无影云桌面