Sparkstreaming 介绍-流计算和批计算的区别 | 学习笔记

简介: 快速学习 Sparkstreaming 介绍-流计算和批计算的区别

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Sparkstreaming 介绍-流计算和批计算的区别 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12126


Sparkstreaming 介绍-流计算和批计算的区别

内容介绍

一、课堂目标

二、批量计算

三、流计算

四、流计算和批计算的区别

 

一、课堂目标

通过上节课的学习,流计算的应用场景带来两大要求,一、数据要快速处理,二、同时计算量巨大,接下来通过讲解流计算与批量计算的区别,说明流计算特殊的应用场景,明白何时用批量计算或者流计算

 

二、批量计算

批量计算整体流程如图:

image.png

使用 SPARK SQL 去吧 HDFS 等上的文件或者数据取出来

通过 SPARK 进行处理,然后落地在 hdfs 上

可以提供 hive 对 HDFS 的数据进行处理

往往读出来的数据较大,存在调度的时间,可能无法及时返回结果,

传统的计算方式,是无法快速计算数据结果的,Hdfs 的数据此时存在边界,数据量是固定的。

往往批量计算是为了形成一个数据仓库,对数据仓库进行查询,获取一些运行指标与特殊数据处理。

 

三、流计算

流计算和批量计算区别显著,如工业大数据

以工业应用场景为例

如图:

image.png

三台设备,数据以时间的形式源源不断地产生,一直产生,一直处理

此时数据没有边界,所以 SPARK 无法进行数据处理

此时数据往往放到过滤用的队列当中,如 kafka

kafka 是非常快速地数列工具,有许多磁盘上的优化,保证了数据的快速对接。

处理完成后以后,将数据落地到 Hbase 当中,Sparkstreaming

获取规律,结果,指标等信息,进行存储

再通过外部的 webui,对 HBease 进行处理

 

四、流计算和批计算的区别

1. 批量计算也叫做离线计算,数据有边界,有大小

2.流计算的数据是不断产生的

3.批量计算往往计算全量数据

4.流计算要求快速处理,所以处理的是增量数据

相关文章
|
8月前
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
228 0
|
1天前
|
SQL 存储 Apache
基于 Flink 进行增量批计算的探索与实践
本文整理自阿里云高级技术专家、Apache Flink PMC朱翥老师在Flink Forward Asia 2024的分享,内容分为三部分:背景介绍、工作介绍和总结展望。首先介绍了增量计算的定义及其与批计算、流计算的区别,阐述了增量计算的优势及典型需求场景,并解释了为何选择Flink进行增量计算。其次,详细描述了当前的工作进展,包括增量计算流程、执行计划生成、控制消费数据量级及执行进度记录恢复等关键技术点。最后,展示了增量计算的简单示例、性能测评结果,并对未来工作进行了规划。
181 3
基于 Flink 进行增量批计算的探索与实践
|
SQL 分布式计算 大数据
统一批处理流处理——Flink批流一体实现原理
统一批处理流处理——Flink批流一体实现原理
1614 0
统一批处理流处理——Flink批流一体实现原理
|
3月前
|
SQL 分布式计算 大数据
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
65 0
|
3月前
|
大数据 流计算
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
61 0
|
8月前
|
SQL 监控 Java
Apache Hudi 流转批 场景实践
Apache Hudi 流转批 场景实践
93 2
|
8月前
|
消息中间件 分布式计算 Java
流计算与批处理的区别是什么?请举例说明。
流计算与批处理的区别是什么?请举例说明。
124 0
|
存储 SQL 分布式计算
流计算与批量计算的区别|学习笔记
快速学习流计算与批量计算的区别
流计算与批量计算的区别|学习笔记
|
SQL 消息中间件 分布式计算
用Spark进行实时流计算
用Spark进行实时流计算
436 0
用Spark进行实时流计算
|
存储 消息中间件 传感器
超越Storm,SparkStreaming——Flink如何实现有状态的计算
超越Storm,SparkStreaming——Flink如何实现有状态的计算
204 0
超越Storm,SparkStreaming——Flink如何实现有状态的计算

热门文章

最新文章

下一篇
开通oss服务