Sparkstreaming 介绍-流计算和批计算的区别 | 学习笔记

简介: 快速学习 Sparkstreaming 介绍-流计算和批计算的区别

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Sparkstreaming 介绍-流计算和批计算的区别 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12126


Sparkstreaming 介绍-流计算和批计算的区别

内容介绍

一、课堂目标

二、批量计算

三、流计算

四、流计算和批计算的区别

 

一、课堂目标

通过上节课的学习,流计算的应用场景带来两大要求,一、数据要快速处理,二、同时计算量巨大,接下来通过讲解流计算与批量计算的区别,说明流计算特殊的应用场景,明白何时用批量计算或者流计算

 

二、批量计算

批量计算整体流程如图:

image.png

使用 SPARK SQL 去吧 HDFS 等上的文件或者数据取出来

通过 SPARK 进行处理,然后落地在 hdfs 上

可以提供 hive 对 HDFS 的数据进行处理

往往读出来的数据较大,存在调度的时间,可能无法及时返回结果,

传统的计算方式,是无法快速计算数据结果的,Hdfs 的数据此时存在边界,数据量是固定的。

往往批量计算是为了形成一个数据仓库,对数据仓库进行查询,获取一些运行指标与特殊数据处理。

 

三、流计算

流计算和批量计算区别显著,如工业大数据

以工业应用场景为例

如图:

image.png

三台设备,数据以时间的形式源源不断地产生,一直产生,一直处理

此时数据没有边界,所以 SPARK 无法进行数据处理

此时数据往往放到过滤用的队列当中,如 kafka

kafka 是非常快速地数列工具,有许多磁盘上的优化,保证了数据的快速对接。

处理完成后以后,将数据落地到 Hbase 当中,Sparkstreaming

获取规律,结果,指标等信息,进行存储

再通过外部的 webui,对 HBease 进行处理

 

四、流计算和批计算的区别

1. 批量计算也叫做离线计算,数据有边界,有大小

2.流计算的数据是不断产生的

3.批量计算往往计算全量数据

4.流计算要求快速处理,所以处理的是增量数据

相关文章
|
移动开发 编解码 Java
Netty编码器和解码器
Netty从底层Java通道读到ByteBuf二进制数据,传入Netty通道的流水线,随后开始入站处理。在入站处理过程中,需要将ByteBuf二进制类型解码成Java POJO对象。这个解码过程可以通过Netty的Decoder解码器去完成。在出站处理过程中,业务处理后的结果需要从某个Java POJO对象编码为最终的ByteBuf二进制数据,然后通过底层 Java通道发送到对端。在编码过程中,需要用到Netty的Encoder编码器去完成数据的编码工作。
|
3月前
|
人工智能 监控 安全
OpenClaw多Agent团队搭建实战手册:(阿里云/本地保姆级部署+免费大模型API配置+避坑指南)
2026年,AI工具的竞争已从“对话能力”升级为“执行效率”。大多数人用AI仍停留在“你问我答”的高级搜索阶段,而真正的生产力飞跃,来自能“自主闭环”的AI执行系统——OpenClaw作为首个开源本地部署的AI Agent平台,彻底打破这一局限。
1590 171
|
Java 大数据 Shell
Azkaban--使用实战--shell、command 调度 | 学习笔记
快速学习 Azkaban--使用实战--shell、command 调度
1322 0
Azkaban--使用实战--shell、command 调度 | 学习笔记
|
消息中间件 分布式计算 搜索推荐
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
1084 0
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
|
SQL 存储 DataWorks
DataWorks操作报错合集之遇到错误信息提示:"ErrorMessage: ClickHouse exception, code: 210, host: cc-,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
数据采集 存储 SQL
ETL基础知识,看完这一篇应该够了!
ETL基础知识,看完这一篇应该够了!
2989 1
|
大数据 调度 开发者
Azkaban--使用实战--多 job 依赖调度 | 学习笔记
快速学习 Azkaban--使用实战--多 job 依赖调度
1109 0
Azkaban--使用实战--多 job 依赖调度 | 学习笔记
|
消息中间件 关系型数据库 Kafka
PostgreSQL "物联网"应用 - 1 实时流式数据处理案例(万亿每天)
物联网的特点是万物联网,会产生大量的数据。 例如 : 一盒药,从生产,到运输,到药店,到售卖。每流经一个节点,都会记录它的信息。 又如 : 健康手环,儿童防丢手表,一些动物迁徙研究的传感器(如中华鲟),水纹监测,电网监测,煤气管道监测,气象监测等等这些信息。 股价的实时预测。 车流实时
22795 59